Tehno
StoryEditor

Upravljanje podacima: U isušenu podatkovnu močvaru bačena je mreža

26. Veljača 2022.
Pojam ‘data mesh‘, tj. podatkovna mreža, na Googleovu popisu pretraživanih trendova u podacima i analitici zamijenio je na vrhu pojam ‘data lakehouse‘ pa bi i oni koji nemaju veze s podatkovnom znanosti mogli biti zainteresirani zbog čega se stvorila fama u vezi s tim terminom. Demokratizirala se podatkovna arhitektura, a podatak je postao proizvod

Podaci su postali proizvod, a da to postanu, omogućio im je data mesh, podatkovna mreža koja je odnedavno zamijenila data lake, podatkovno jezero, te ih izvukla iz 'močvare' i 'zamrznutoga jezera'. Najnoviji trend u ICT industriji data mesh demokratična je i disperzivna arhitektura neusporedivo naprednija od podatkovnoga jezera u kojemu su svi podaci centralizirani. Njome se upravlja lakše, brže i jednostavnije jer grupe podataka unutar tvrtke funkcioniraju kao zasebne domene te ih je lakše dohvatiti, što je vrlo važno za transparentno poslovanje.

Ubrzano snalaženje

Demokratizacija podatkovne arhitekture nadomjestak je centraliziranosti podatkovnog jezera koja ograničava dostupnost podataka u stvarnom vremenu i ne zadovoljava potrebe tvrtke. Više nije dovoljno samo pohraniti velike količine poslovnih podataka, oni moraju biti dostupni u određenom trenutku i to ne samo IT službi nego i poslovodstvu te ostalim zaposlenicima unutar sustava. Zbog toga su se posljednjih godina na tržištu pojavile user-friendly tehnologije i platforme za lakši pristup podacima, no osnovna podatkovna arhitektura za najbolju podršku tim platformama i demokratizacija podataka zahtijevali su znatno ulaganje novca i vremena. Pojava inovativnoga data mesha riješila je neke od ključnih izazova u odnosu na dotadašnji pristup podacima. Njegov konačni cilj je olakšati i ubrzati korisnicima lociranje podataka, razumijevanje te korištenje novih informacija u poslovnoj praksi.

– Tvrtke sve više zanima otkrivanje podataka jer se njima osim IT inženjera koriste i voditelji proizvodnje, analitičari, prodajni predstavnici… čiji posao ovisi o različitim skupinama podataka. Korištenje i analiza podataka su uzorak, a ne samo kataloška shema koju možete postaviti i zaboraviti – izjavio je američki računalni znanstvenik Paco Nathan, organizator panela 'Data Discovery in Data Mesh', na kojemu je potkraj prošle godine okupio računalne stručnjake.

Evolucija modela

Kreatorica pojma data mesh je Zhamak Dehghani, voditeljica novih tehnologija u američkoj tvrtki ThoughtWorks, koja je 2018. osmislila taj novi pristup u upravljanju analitičkim podacima. Data mesh potpuno se razlikuje od monolitnih podatkovnih infrastruktura koje centraliziraju poslovne podatke i donio je pomak u upravljanju velikim podacima njihovom decentralizacijom. Dehghani je izjavila da je ta podatkovna mreža nastala kao rezultat njezine frustracije zbog neuspjeha jedne podatkovne platforme, još jednoga podatkovnoga jezera te još jednoga skladišta podataka.

– Mreža podataka je promjena paradigme u upravljanju i pristupu analitičkim podacima. Što podrazumijevamo pod analitičkim podacima? Oni su skup podataka koji se generiraju tijekom poslovanja. Podaci su ti koji pokreću naše modele strojnog učenja, naša izvješća i daju nam povijesnu perspektivu. Možemo gledati unatrag i vidjeti kakav je učinak našeg poslovanja, usluga ili proizvoda, a zatim možemo gledati unaprijed i predvidjeti što je sljedeća stvar koju kupac želi – izjavila je Dehghani, koja unatoč tomu što sve više tvrtki usvaja podatkovnu mrežu, posebno one koje se suočavaju s problemom skaliranja pouzdanosti podataka, ističe da je taj model 'još uvijek u evoluciji'.

Pomak u upravljanju

Prema Dehghanijevim riječima, podatkovna mreža inačica je podatkovne platforme mikroservisa koja obuhvaća sveprisutnost podataka u tvrtki putem samoposlužne domene i veliki je arhitektonski pomak u upravljanju podacima. U odnosu na tradicionalnu monolitnu podatkovnu infrastrukturu koja upravlja potrošnjom, pohranom, transformacijom i izlazom podataka u središnjem podatkovnom jezeru, podatkovna mreža podržava distribuirane potrošače podataka vezane uz domenu i 'podatke kao proizvod'. Razlika između podatkovne mreže i podatkovnoga jezera je u tome što je jezero čvrsta podatkovna infrastruktura koja je 2010. godine postala alternativno rješenje izoliranim skladištima podataka prikladnim za manje strukturirane podatke jer, za razliku od podatkovnog skladišta, dopušta tvrtkama pohranjivanje bilo koje vrste podataka; strukturiranih i nestrukturiranih. Iako je podatkovno jezero imalo obećavajuću strategiju, pokazalo se 'močvarom' nepravilno organiziranih podataka bez metapodataka, a prilijepljen mu je i naziv 'zamrznuto jezero' zbog nedostupnosti podataka poslovnim korisnicima. Podatkovnim jezerima upravljali su IT inženjeri, nedovoljno upućeni u poslovanje tvrtke, što se odrazilo i na analitiku podataka tako da postojeća podatkovna arhitektura nije bila najprikladnija za skaliranje kako bi zadovoljila potrebe poslovnih korisnika.

Vlastiti rezervoari

Podatkovna mreža, umjesto izolacije potrošnje, transformacije i izlaza svih podataka na jednome mjestu, tretira svaku domenu tvrtke kao jedinstvenog potrošača. Takva domena upravlja svojim vlastitim rezervoarima podataka te podaci na taj način funkcioniraju poput proizvoda. Jedinstveno dizajnirana, svaka domena kontrolira unos, čišćenje i integraciju vlastitih podataka, odnosno ono što se kategorizira kao ETL ili ELT (extract, transform and load) proces izdvajanja, transformiranja i učitavanja u skladište podataka.

Nekoliko je prednosti mreže podataka: povećana dostupnost podataka, poboljšana analitika, prilagođeni kanali podataka, standardizirana vidljivost podataka i smanjeno vrijeme za analitiku. Najveća prednost arhitekture mreže podataka je u povećanoj dostupnosti podataka, a poboljšana analitika dovodi do učinkovitije uporabe podataka te do boljih analitičkih rezultata. S obzirom na to da tvrtke traže sve složenije analitičke projekte, raspodjela podataka potrebnih za njihovo izvođenje postaje sve složenija. Data mesh omogućava standardiziranu vidljivost podataka, što je najbolja praksa za tvrtke koje mrežu podataka uključuju u ključni dio poslovne strategije. Uza sve to, skraćeno je i vrijeme za analitiku te menadžeri više ne moraju čekati izvješća podatkovnih inženjera nego umjesto toga mogu kontrolirati dostupnost analitičkih podataka. Podatkovna mreža daje prioritet dostupnosti podataka i jednostavnost njihova korištenja u cijeloj tvrtki te povezuje sve interoperabilne arhitektonske dijelove kako bi se održali standardi podataka i upravljanja.

Nedostaci novog pristupa

Unatoč zamahu i prednostima mreže podataka ima i nedostatke: dupliciranje podataka, potreba za većim brojem tehnički osposobljenih djelatnika, rizik tehničkog duga, proces sporog usvajanja, loš izbor tehnologije… Dupliciranje podataka javlja se prilikom njihova podešavanja za određenu upotrebu domene kad odudaraju od svojeg izvornog oblika i postaju suvišni ili nedosljedni. Taj učinak dupliciranja može se pokazati kao veliki problem za tvrtke utječući i na troškove upravljanja podacima i na povjerenje organizacije u podatke. No budući da je svaka domena odgovorna za svoje vlastite podatkovne kanale i infrastrukturu, pojavio se problem nedostatka tehnički osposobljenih djelatnika za svaku domenu umjesto za cjelokupne podatke tvrtke, što može utjecati na skalabilnost. Ipak, taj problem je djelomično rješiv jer bi se podatkovna mreža trebala koristiti raspoloživosti podatkovne infrastrukture, neovisne o domeni za korištenje, u centraliziranom sloju koji upravlja pozadinskom pohranom i obradom za svaku domenu. Postoji i rizik od nedostatka održavanja i pogoršanja kvalitete, što može dovesti do goleme količine tehničkog duga. Da bi se to spriječilo, tvrtka mora zaposliti stručnjaka za provjeru kvalitete i opće održavanje podataka. Još je jedan nedostatak sporo usvajanje. Mreža podataka ambicioznaje arhitektonska promjena i zahtijeva mnogo ulaganja, ali većina velikih remonta podatkovne infrastrukture je dugotrajna te decentralizacija svih podatkovnih procesa nije mali pothvat i tvrtke trebaju biti spremne na to prije nego što se počnu koristiti podatkovnom mrežom. Dok je autonomija dodijeljena pojedinačnim domenama blagodat mreže podataka, usvajanje tehnologija ne bi trebalo biti besplatno za sve. Svaka tehnologija ima učinak na podatkovnu platformu, što znači da bi trebale postojati jasne smjernice i nadzor kako bi se osiguralo da su usvojene tehnologije standardizirane u cijeloj tvrtki.

Plan za rješavanje problema

I na kraju, iako mreža podataka rješava mnoge probleme uzrokovane podatkovnim jezerima, često ne uspijeva riješiti ključnu prednost podatkovnoga jezera – međufunkcionalnu analitiku. Zbog toga bi tvrtke trebale imati plan za rješavanje međufunkcionalne analitike kako ne bi zatvorile vrata analitičkim inovacijama. Unatoč izazovima, data meshom koristi se veliki broj tvrtki jer omogućava široku dostupnost podataka, kratko vrijeme obrade i prilagođena rješenja vođena domenom, a sve to radeći prema centraliziranim standardima podataka, upravljanju i vidljivosti, tako da tvrtke s najsloženijim zahtjevima podatkovne infrastrukture, one s velikim brojem izvora podataka i domena podataka, golemim brojem analitičara i inženjera podataka te visokim prioritetom za upravljanje podacima imaju veliku korist od arhitekture podatkovne mreže. 

22. studeni 2024 17:19