Home Bots & Brains Met SORA van OpenAI verdwijnen de grenzen tussen echte en virtuele video

Met SORA van OpenAI verdwijnen de grenzen tussen echte en virtuele video

door Marco van der Hoeven

Met de introductie van Sora heeft OpenAI als eerste een geavanceerd tekst-to-video-model geïntroduceerd. Dit AI-model is ontworpen om video’s van maximaal een minuut te genereren, waarbij de hoge visuele kwaliteit behouden blijft en nauwgezet wordt vastgehouden aan de aanwijzingen van de gebruiker. Sora kan complexe scènes genereren met meerdere personages, specifieke soorten bewegingen en gedetailleerde omgevingen.

Het model vertaalt gebruikersprompts in video’s die niet alleen het verzoek visueel weergeven, maar ook laten zien hoe deze elementen op elkaar inwerken in de fysieke wereld. Ondanks de geavanceerde functies heeft Sora beperkingen. Het kan moeite hebben met het nauwkeurig simuleren van complexe fysieke interacties en het begrijpen van specifieke oorzaak-en-gevolgscenario’s. Het kan bijvoorbeeld zijn dat veranderingen in objecten in de loop van de tijd niet altijd correct worden weergegeven, zoals het weergeven van de nasleep van het gebeten van een koekje.

Op het gebied van veiligheid en ethische overwegingen zal het model worden getest door redteamers. Deze experts, gespecialiseerd in gebieden als desinformatie en bias, zullen het model grondig testen om mogelijke schade te identificeren. OpenAI ontwikkelt ook tools om door Sora gegenereerde misleidende inhoud op te sporen, waaronder een detectieclassificator en plannen om C2PA-metagegevens op te nemen in toekomstige implementaties.

Om de veiligheid verder te garanderen, zal OpenAI bestaande veiligheidsmethoden gebruiken die zijn ontwikkeld voor DALL·E 3, zoals tekst- en beeldclassificatoren om inhoud te beoordelen en te filteren die het gebruiksbeleid schendt.

Sora is een diffusiemodel dat begint met een video die lijkt op statische ruis en deze geleidelijk verfijnt tot een heldere, samenhangende video. Dit model kan hele video’s in één keer genereren of bestaande video’s uitbreiden, waardoor de consistentie in onderwerpen behouden blijft, zelfs als ze tijdelijk uit het zicht verdwijnen. SORA behandelt video’s en afbeeldingen als verzamelingen datapatches, vergelijkbaar met tokens in GPT-modellen, waardoor training op een breed scala aan visuele gegevens mogelijk is.

Voortbouwend op onderzoek van DALL·E- en GPT-modellen, gebruikt Sora de recaptioning-techniek van DALL·E 3 voor een nauwkeurigere naleving van tekstinstructies bij het genereren van video’s. Het kan ook stilstaande beelden animeren of bestaande video’s wijzigen met opmerkelijke details en nauwkeurigheid.

 

 

Misschien vind je deze berichten ook interessant