Kreativnosti umjetne inteligencije nema kraja. Sada stvara – sintetičke podatke. Njima će popuniti rupe u stvarnim podacima, onima koji nastaju zbog akcija i interakcija ljudi, ili ih čak posve zamijeniti. Sintetički podaci razlikuju se od onih koji prezentiraju informacije iz stvarnoga svijeta po tome što ih uglavnom proizvodi umjetna inteligencija zbog svojih potreba. Njihovo je drugo ime – lažni podaci – ali ne u negativnom značenju te riječi, jer ne radi se o krivotvorenju ili bilo kojoj drugoj kaznenoj radnji.
Jedno od područja primjene tih podataka jest marketing, kojemu će sintetički podaci pomoći poboljšati digitalno oglašavanje poštujući regulativu. Naime, smanjenje vrijednosti kolačića trećih strana i nova ograničenja praćenja podataka između aplikacija koje su uveli Apple i ostale tehnološke kompanije izazvalo je gubitak signala iliti slabljenje marketinških mogućnosti praćenja i mjerenja, a onda i strateškog odgovora na podatke o kupcima. Upravo tu uskaču sintetički podaci, ali marketing je samo jedan od sektora u kojima će oni postati sve dragocjeniji.
Moć sintetičkih podataka s vremenom će rasti. Gartner je procijenio da će do 2030. itekako premašiti stvarne podatke u obuci AI modela. Viša direktorica i analitičarka u Gartneru te specijalistica umjetne inteligencije i sintetičkih podatka Alys Woodward izjavila je da pravi podaci nisu savršeni jer im nedostaju rubni slučajevi, odnosno neuobičajene pojave na koje bi uspješno reagirali. Stoga je najvrjednija primjena sintetičkih podataka u obuci modela strojnog učenja koji zahtijevaju golemu količinu podataka kako bi mogli sastaviti točna predviđanja o stvarnom svijetu.
Primjer s ceste
Prednost sintetičkih podataka jest u tome što se mogu jeftino proizvesti, automatski su označeni i lako se mogu unijeti u model strojnog učenja a da se pritom ne ugrozi njegova funkcionalnost. Velika je prednost i to što se mogu upotrebljavati za stvaranje velikog skupa podataka s obzirom na rubne ili nenormalne događaje koji možda neće utjecati na podatke iz stvarnog svijeta.
Većina stvarnih podataka obično odražava stanje kakvo jest, zato model strojnog učenja koji se koristi isključivo takvim podacima ne može reagirati na neočekivane situacije, što može imati katastrofalne posljedice. Primjerice, da bi bio siguran na cesti, samovozni automobil trebao bi moći automatizirano odgovoriti na gotovo sve nepredviđene situacije s kojima bi se mogao suočiti. Iako u prometu vrijede određena pravila, uvijek se nađe netko tko ih krši ili se događaju nepredviđene situacije kojima se sudionici moraju prilagoditi.
Samovozni automobil mora naučiti, primjerice, kako izbjeći psa koji izleti na ulicu a da pritom ne ugrozi ostale sudionike u prometu, ali još ne postoji dovoljno stvarnih podataka koje bi programeri iskoristili kako bi projektirali sigurno kretanje takvih automobila ulicama. Razlog je vrlo jednostavan: onako kako ljudski mozak može reagirati u bilo kojem trenutku, ne može nijedan stroj, koliko god opamećen bio. Ali mogu sintetički podaci.
Uzimajući u obzir rubne slučajeve, programeri s pomoću sintetičkih podataka mogu lakše projektirati samovozni automobil koji će fleksibilno i inteligentno reagirati u nepredvidivim okolnostima.
Takvi podaci mogu smanjiti i probleme koje korisnici imaju s privatnošću, sigurnošću i pristranošću podataka onima koji upotrebljavaju AI, posebice u marketingu, jer će brendovima omogućiti anonimnost osobnih podatka potrošača. Osim toga, zdravstvo, koje raspolaže golemim količinama osjetljivih podataka o korisnicima usluga, moglo bi se koristiti generativnom umjetnom inteligencijom za proizvodnju sintetičkih podataka koji zakriljuju stvarne podatke.
Osjetljivo liječenje
Tako bi osjetljivi podaci o bolesnicima bili zasjenjeni i razumljivi samo onima koji bi ih znali čitati. Sintetički podaci također mogu pomoći u ukidanju pristranosti jer, prema riječima Akasha Srivastave, znanstvenika i menadžera u IBM Researchu i suvoditelja projekta ‘Synderella‘, IBM-ove inicijative za stvaranje sintetičkih podataka radi zaštite privatnosti, generiranjem alternativnih podataka sintetički podaci mogu pomoći u prepoznavanju i ispravljanju skrivenih pristranosti u modelima umjetne inteligencije.
– To može koristiti marketinškim stručnjacima da njihove oglasne kampanje ne budu pristrane – izjavio je Srivastava.
Ipak, nije baš sve tako jednostavno kao što se čini i nisu sintetički podaci etički čistunci koji će posve ukinuti ustaljene predrasude i pristranost. Istina je da takvi podaci ne nastaju ni iz čega, nego kopiraju stvarnost, što znači da će usput iz nje zagrabiti i nešto prljavštine.
– Stvaranje sintetičkih podataka i dalje zahtijeva stvarne podatke za generiranje, tako da se može suočiti s istim problemima s privatnošću i pristankom koji okružuju generativnu umjetnu inteligenciju. Također postoji zabrinutost da bi sintetički podaci mogli gotovo točno replicirati izvorne podatke, ali, ako se odgovorno izvode, mogu pomoći kompanijama zaobići probleme povezane s obukom o osjetljivim podacima, posebno u područjima poput zdravstvene skrbi – izjavio je stručnjak za umjetnu inteligenciju i deepfake Henry Ajder.
Marketinško ciljanje
Prema Srivastavinu mišljenju, odgovorna uporaba sintetičkih podataka u marketingu ponajprije se vrti oko pažljiva planiranja i nadzora pa bi brendovi, dok razmatraju uporabu sintetičkih podataka za učinkovitost ciljanja oglasa, najprije trebali procijeniti privatnost podataka i etičke implikacije.
– Važno je osigurati da generirani podaci točno predstavljaju podatke iz stvarnoga svijeta koje bi trebali zamijeniti. Kako bi se klonili skrivenih predrasuda koje se mogu širiti modelima umjetne inteligencije, brendovi bi trebali paziti na korištenje sintetičkih podataka koji su raznoliki i reprezentativni za njihovu ciljanu publiku te stalno pratiti i ocjenjivati rezultate svih oglasnih kampanja koje koriste sintetičke podatke – izjavio je Srivastava.
Programerima trenutačno u poslu pomaže Reactor, generativni motor za generiranje sintetičkih podataka u vlasništvu tvrtke za sintetičke podatke Parallel Domain koja će ga u srpnju predstaviti na konferenciji u San Franciscu. Suvremeni je to stroj za generiranje sintetičkih podataka koji integrira napredne generativne tehnologije umjetne inteligencije s vlastitim mogućnostima 3D simulacije.
Platforma će programerima strojnog učenja omogućiti kontrolu i skalabilnost te generiranje potpuno označenih podataka koji poboljšavaju performanse umjetne inteligencije i potiču stvaranje sigurnijih i otpornijih AI sustava za aplikacije u stvarnom svijetu. Prema informacijama koje stižu iz Parallel Domaina, Reactor poboljšava performanse umjetne inteligencije u raznim industrijama, kao što su samovozni automobili i bespilotne letjelice, stvaranjem visokokvalitetnih slika. Osim toga, alat iskorištava snagu generativne umjetne inteligencije za proizvodnju označenih podataka, što je ključan zahtjev za zadatke strojnog učenja.
– Naša vlasnička generativna tehnologija umjetne inteligencije omogućuje korisnicima stvaranje sintetičkih podataka i manipuliranje njima korištenjem intuitivnih upita prirodnog jezika i također generira odgovarajuće oznake potrebne za obuku i testiranje modela strojnog učenja. Reactorova sposobnost povećanja raznolikosti skupova podataka, posebno za rijetke klase, pridonosi vrhunskoj obuci modela strojnog učenja – rekao je izvršni direktor i osnivač Parallel Domaina Kevin McNamara.
Novi alat
On također tvrdi da alat Parallel Domaina omogućuje korisnicima stvaranje širokog spektra sintetičkih podataka za obuku i testiranje modela percepcije. To se postiže integracijom Pythona i prirodnog jezika te eliminira potrebu za dugotrajnim kreiranjem prilagođenih sredstava i pojednostavnjenjem rada za poboljšanje učinkovitosti. Tako programeri strojnog učenja mogu brzo ponavljati i usavršavati modele smanjujući vrijeme obrade i ubrzavajući napredak razvoja umjetne inteligencije.
– Reactor programerima strojnog učenja omogućuje kontrolu i skalabilnost redefinirajući krajolik generiranja sintetičkih podataka. Uz njega korisnici mogu generirati gotovo bilo koje sredstvo u nekoliko sekundi koristeći se uputama na prirodnom jeziku – izjavio je McNamara i dodao da generativnu umjetnu inteligenciju i 3D simulaciju upotrebljavaju za stvaranje širokog niza detaljnih, realističnih sintetičkih podataka.
– Do pojave Reactora generativni modeli borili su se da shvate što generiraju, zbog čega su bili loši u pružanju komentara poput graničnih okvira i panoptičke segmentacije, ključnih za obuku i testiranje AI modela – rekao je McNamara.
Prema njegovim riječima, taj alat pruža širok spektar podataka i mogućnosti prilagodbe scene. Osim toga, njegovo prilagodljivo stvaranje pozadine pojednostavnjuje izmjenu generiranih scena omogućujući modelima strojnog učenja generalizaciju u različitim okolinama. Primjerice, korisnici mogu transformirati predgrađe Los Angelesa u središte Tokija. McNamara je naglasio i da Reactor revolucionira tradicionalni tijek rada kreiranja prilagođenih sredstava, koji uključuje dugotrajni proces dizajna, ručnu konfiguraciju i integraciju umjetnika ili programera. Iako je Reactor još u ranoj fazi, iz Parallel Domaina poručuju da krije velik potencijal za poboljšanje modela strojnog učenja, a onda i primjenu sintetičkih podataka u djelatnostima koje upotrebljavaju umjetnu inteligenciju.