Zeleno i digitalno

OpenAI predstavio Soru, novi alat za pretvaranje teksta u video visoke rezolucije

16. veljače 2024.

foto Shutterstock

Tvrtka najpoznatija po ChatGPT-u, OpenAI, ulazi u područje generiranja videozapisa. Naime, OpenAI je ovog tjedna predstavio Soru, generativni model umjetne inteligencije koji tekst pretvara u video slijedeći tako tehnološke divove Google i Metu koji su u ovom području već napravili svoje prve korake.

S kvalitetnim opisom, odnosno unosom teksta, Sora može generirati filmske scene u kvaliteti od 1080p i to s više likova, različitim vrstama pokreta i pozadinskim detaljima, tvrdi OpenAI, a može i proširiti postojeće videozapise dajući pritom 'sve od sebe da popuni detalje koji nedostaju'.

– Sora ima duboko razumijevanje jezika što omogućuje da točno tumači upute i generira uvjerljive likove koji izražavaju živahne emocije. Model razumije ne samo što je korisnik tražio u upitu već i kako te stvari postoje u fizičkom svijetu – napisali su iz kompanije u svom blogu. Iako Sora još nije dostupna za javnost, njena najava izgleda poprilično impresivno, barem u usporedbi s drugim alatima koji pretvaraju tekst u video.

AI alat, prema dosadašnjim saznanjima, može generirati videozapise u nizu stilova (fotorealistični, animirani, crno-bijeli) u trajanu do jedne minute što je daleko dulje od većine modela koji rade po principu tekst-u-video. Videozapisi odražavaju razumnu koherentnost u smislu da nema nekakvih čudnih 'umjetnih' stvari u videima, pa se tako objekti neće kretati u fizički nemogućim smjerovima.

Prema pisanju stranih medija, ali i prema onome što je do sada objavljeno iz OpenAI-a moglo bi se naslutiti da pojedini Sorini videozapisi imaju kvalitetu videoigre, pa možda čak i bolju kvalitetu od nekih jednostavnijih videoigara. Ipak, OpenAI sam priznaje da model nije savršen pa su tako priopćili da se Sora može 'boriti' sa složenim scenama te da možda neće razumjeti specifične događaje.

– Osoba može zagristi kolačić, ali nakon toga kolačić možda neće imati trag ugriza. Model također može krivo napraviti prostorne detalje te može biti problema s preciznim opisima događaja koji se odvijaju tijekom vremena – priopćili su iz tvrtke koja je iznimno malo otkrila o tome koji su podaci korišteni za treniranje ovog modela.

Kada će Sora biti dostupna javnosti još nije poznato, no OpenAI se sada suzdržava od njenog puštanja i to zbog mogućnosti zlouporabe. Kako bi se ona spriječila tvrtka iza koje stoji Sam Altman kaže da rade sa stručnjacima na ispitivanju alata za otkrivanje je li pojedini video generirala Sora.

– Angažirat ćemo kreatore politika, edukatore i umjetnike diljem svijeta kako bismo razumjeli njihove brige i identificirali pozitivne slučajeve upotrebe ove nove tehnologije. Unatoč opsežnim istraživanjima i testiranjima, ne možemo predvidjeti sve korisne načine na koje će ljudi koristiti našu tehnologiju, niti sve načine na koje će je ljudi zlorabiti. Zato vjerujemo da je učenje iz korištenja u stvarnom svijetu ključna komponenta za stvaranje i puštanje sve sigurnijih AI sustava tijekom vremena – kazali su iz OpenAI-a.