Za sve koji žele shvatiti što se krije iza pojma ‘data science‘, na početku je možda najvažnije reći da je to zaista nešto veliko. To je društveni fenomen koji se temelji na akademskom pristupu, poslovnoj primjenjivosti i tehnološkoj platformi.
Kao što se društvo danas susreće s golemim skupovima dostupnih podataka, tako i uloga istraživača evoluira iz zanesenjaka, preko akademskog i industrijskog pristupa u proces s uporištima u statistici, računalnoj znanosti i poslovanju. U tijeku je opća diskusija i pokušaj da se jednostavno definira pojam ‘data science‘ te je stoga potrebno izdvojiti nekoliko zanimljivih pristupa koji su se pojavili i s vremenom mijenjali. Tako se navodi da je ‘data science‘ kombinacija tehnika hakiranja pogonjenih energetskim napitkom u kombinaciji sa statistikom na kofeinu (parafrazirano Mike Driscoll, CEO, Metamarket, 2010.), ali i područje koje kombinira vještine hakiranja, poznavanje matematičkih i statističkih tehnika te veliko poslovno iskustvo (parafrazirano Drew Conway Vennov dijagram ‘data sciencea‘, 2010.).
I to je umjetnost Vještine koje opisuju podatkovnog znanstvenika najčešće jesu statistika, odnosno tradicionalne analize (koje prečesto uzimamo zdravo za gotovo), i transformacija podataka, koja uključuje na primjer parsiranje i formatiranje i vizualizaciju (parafrazirano Nathan You, Rise of Data Scientist, 2009.).Proučavajući navedeno, vidljivo je da je ‘data science‘ potrebno definirati u kontekstu drugih povezanih područja te pojasniti razlike između statističara, podatkovnog analitičara, analitičara, BI-specijalista i podatkovnog znanstvenika. Relativno jednostavna definicija pojma ‘data science‘ uključuje načela, procese i tehnike kojima se analizom podataka razjašnjavaju razni fenomeni. Takva analiza može, ali ne mora biti automatizirana. U tom kontekstu pojam ‘data science‘ odnosi se na posao koncentriran oko prikupljanja, pripreme, analize, vizualizacije, menadžmenta i spremanja velikih skupova podataka. Iako naziv implicira povezanost s bazama podataka i računalnom znanosti, podatkovni znanstvenik mora vladati i mnogim vještinama koje nemaju izravne veze s matematikom i statistikom, a uključuju vještine komunikacije i strukturiranog razmišljanja, odnosno rješavanja općih i poslovnih problema (J. Stanton, An Introduction to Data Science, Syracuse University, 2012.).
Ključna znanja Grupa istraživača provela je još 2012., kako su naveli, introspektivno istraživanje o podatkovnim znanstvenicima i njihovu radu (Analyzing the Analyzers). Zaključila je da su ključna znanja podatkovnih znanstvenika poslovna znanja, znanja matematike, operacijskih istraživanja, statistike, strojnog učenja, programiranja i ‘big data‘ znanja. Zaista impresivan skup znanja i vještina. Nadalje, zaključila je da ne postoji univerzalan podatkovni znanstvenik već postoje četiri vrste podatkovnih znanstvenika: ‘data businessperson‘, koji odgovara na pitanje kako uvid u podatke može utjecati na tvrtku; ‘data creative‘, koji zna programirati, ima iskustva s ‘open source‘ projektima, tzv. umjetnik u podatkovnom području; ‘data developer‘, koji razvija infrastrukturu za podatke i algoritme za strojno učenje te svakodnevno programira, i ‘data researcher‘, kojemu je statistika glavna vještina te objavljuje radove u stručnim i znanstvenim časopisima. ‘Data science‘ primijenjena je aktivnost kojoj je cilj rješavati probleme. No prije rješavanja problem je potrebno znati identificirati, što nije uvijek lagan zadatak. Ključna stvar je ‘koristiti se‘, a ne ‘spremati‘ podatke, što je točka u kojoj često zastane tradicionalan pristup. Ako ne znate što ćete s podacima, možemo slobodno zaključiti da vam nisu ni potrebni. Međutim, kada jednom demistificirate rad i mogućnosti iskusnoga podatkovnog znanstvenika, više nećete moći prestati razmišljati o načinima kako se koristiti podacima. U znanosti o podacima jedan od ključnih faktora uspjeha je ‘osjećati i slijediti podatke‘.
Podatkovni proizvod ‘Data science‘ po mnogo čemu asocira na umjetnost. Može se zaključiti da je ona umjetnost pretvaranja podataka u akcije. Navodi se to u drugom izdanju knjige ‘The Field Guide to Data Science‘. Takav proces ostvaruje se kreiranjem podatkovnih proizvoda. Podatkovni proizvodi pružaju konkretne samostalne informacije s dodanom vrijednošću ne izlažući pritom donositelja odluka podatkovnoj i analitičkoj razini procesa. Podaci se nalaze u tzv. jezeru podataka (engl. data lake) – velikom objektno usmjerenom repozitoriju u kojem se čuvaju u svome izvornom obliku.‘Data science‘ je i umjetnost ekstrakcije i primjene znanja skrivenog u podacima, nastavak na ono što je počelo kao ‘business inteligence‘. Temeljne su razlike u tome što uz deduktivno, ‘data science‘ primjenjuje i induktivno zaključivanje; otkrivaju se nova pitanja umjesto samo odgovaranja na postojeća; ‘data science‘ karakterizira proaktivnost (u odnosu na dosadašnju reaktivnost) – ona traži odgovor na pitanje ‘Što je potrebno napraviti?‘, a ne na ‘Što se dogodilo?‘ te utječe na donošenje poslovnih odluka i stvara kompetitivnu prednost organizacijama koje žele biti vodeće na tržištu.
Kako izgraditi tim Općenito se deduktivno zaključivanje može opisati kao formalna logika, a induktivno zaključivanje opisuje se kao neformalna logika. Deduktivno zaključivanje je zaključivanje na temelju poznatih premisa ili pretpostavki koje smatramo točnima. Zaključci su pritom sigurni, neizbježni… Induktivno zaključivanje je, s druge strane, zaključivanje na temelju nesigurnih premisa ili pretpostavki u čiju točnost nismo potpuno sigurni. Zaključci su stoga vjerojatni, mogući, uvjerljivi, razumni. Njihova uloga u primjeni podatkovne znanosti manifestira se na sljedeći način: deduktivno zaključivanje: formuliranje hipoteza o relacijama i modelima, eksperimentiranje s podacima u svrhu testiranja hipoteza i modela; induktivno zaključivanje: otkrivanje ili poboljšavanje hipoteza (exploratory data analysis), otkrivanje novih poveznica u svrhu kreiranja poslovnih poticaja (new relationships, insights and analytic paths from the data).Postavlja se pitanje kako izgraditi efikasnu i sposobnu ‘data science‘ organizaciju. Ključno je strateški postaviti tim. Prema Vennovom dijagramu ‘data sciencea‘, potrebno je voditi računa o tri vještine prilikom formiranja tima: domenskom iskustvu, računalnoj znanosti i matematičkim vještinama. Podatkovna znanost timski je sport. Uglavnom je nemoguće pronaći ‘jednoroga‘ – eksperta na sva tri područja, stoga se gradi mješoviti tim koji kvalitetno pokriva sve navedene vještine. Pokazalo se kako je po projektu dobar sljedeći omjer: četiri računalna znanstvenika i pet matematičara po jednom domenskom ekspertu.
Podatkovni znanstvenik Ali, što je još važnije, potrebni su vam podatkovni znanstvenici (data scientists). Tko su ili što su oni? Vrlo, vrlo sažeto, to su (Kopal, Korkut, Krnjašić) znanja i vještine integriranja, analize i interpretiranje podataka u digitalnom obliku (u širem kontekstu), ‘data science‘ vještine i znanja. Tijekom svibnja 2014. provedeno je istraživanje (Visoko učilište Algebra u suradnji s portalom Moj posao) radi uvida u raspoloživost i kvalitetu traženih kadrova u rastućem području ‘data sciencea‘ u Hrvatskoj. Rezultati provedenog istraživanja i empirijski su potvrdili da je ‘data science‘ nužno promatrati u širem kontekstu. Tako podatkovni znanstvenik posjeduje razvijenu poslovnu pronicljivost i sposobnost objašnjavanja rezultata kako s poslovnim tako i s IT menadžmentom na način koji utječe na pristup organizacije poslovnim izazovima i problemima. Podatkovni znanstvenik nije samo analitičar koji prikuplja podatke i izvješćuje o rezultatima, nego ih izučava i iz mnogih kutova, utvrđuje njihovo značenje te daje preporuke za njihovu primjenu. On istražuje, postavlja pitanja, izrađuje ‘what-if analize‘ i preispituje postojeće pretpostavke i procese. On je znatiželjna osoba koja istražujući podatke, uočava trendove i otkriva prethodno skrivena značenja koja osiguravaju konkurentsku prednost ili rješenje konkretnog problema.Promatrajući ‘data science‘ u širem kontekstu, otvara se neslućena mogućnost primjene u raznim sektorima, od telekoma, bankarstva, osiguranja, zdravstva, hotelijerstva, turizma, maloprodaje, energetike do još mnogo drugih primjena o kojima više možete čuti (i vidjeti) na prvoj konferenciji o podatkovnoj znanosti ‘Data Science Monetization 2016.‘ koja će se održati 13. i 14. travnja u Zagrebu.
U tiskanom izdanju izašao je pogrešan naslov, te molimo čitatelje da uvaže našu ispriku.