OpenAI ha sorpreso il mondo con l’introduzione di Sora, un nuovo modello in grado di generare video dettagliati a partire da brevi descrizioni testuali, con una durata massima di un minuto.
Basandoci su quattro video dimostrativi condivisi in anteprima con MIT Technology Review, sembra che l’azienda con sede a San Francisco abbia raggiunto nuove vette nella generazione di video da testo, un campo che abbiamo individuato come una delle tendenze da seguire nel 2024.
“Creare modelli in grado di comprendere i video e tutte le complesse interazioni del nostro mondo è un passo cruciale per il futuro dell’intelligenza artificiale”, ha dichiarato Tim Brooks, uno dei ricercatori di OpenAI.
Tuttavia, c’è un piccolo dettaglio. OpenAI ci ha concesso un’anteprima di Sora (che significa “cielo” in giapponese) sotto stretto segreto. In un’iniziativa insolita, l’azienda ha deciso di condividere informazioni su Sora solo dopo la pubblicazione ufficiale della notizia, impedendoci di coinvolgere esperti esterni in anticipo. OpenAI non ha ancora rilasciato un rapporto tecnico né dimostrato il funzionamento effettivo del modello. Inoltre, ha specificato che non ha intenzione di rilasciare Sora nel prossimo futuro. [Aggiornamento: OpenAI ha ora condiviso ulteriori dettagli tecnici sul suo sito web.]
Sora sembra promettere un’incredibile svolta nell’ambito della generazione di video da testo, aprendo nuovi orizzonti per l’intelligenza artificiale nel campo della comprensione e della creazione di contenuti video. Non vediamo l’ora di seguire gli sviluppi futuri di questa straordinaria innovazione!
I primi modelli generativi capaci di produrre video da frammenti di testo sono comparsi verso la fine del 2022. Tuttavia, i primi esempi di Meta, Google e di una startup chiamata Runway erano affetti da problemi e presentavano una qualità granulosa. Da allora, la tecnologia ha fatto rapidi progressi. Il modello di seconda generazione di Runway, rilasciato l’anno scorso, può produrre brevi clip che si avvicinano alla qualità delle animazioni dei grandi studi. Tuttavia, la maggior parte di questi esempi dura solo pochi secondi.
I video dimostrativi di Sora di OpenAI sono ad alta definizione e ricchi di dettagli. OpenAI afferma inoltre che può generare video fino a un minuto di durata. Un video di una scena di strada a Tokyo mostra che Sora ha imparato a rappresentare oggetti tridimensionali: la telecamera si muove nella scena per seguire una coppia mentre cammina davanti a una fila di negozi.
OpenAI sostiene anche che Sora gestisce bene l’occlusione. Uno dei problemi dei modelli esistenti è che possono perdere il controllo degli oggetti quando escono dal campo visivo. Ad esempio, se un camion passa davanti a un cartello stradale, il cartello potrebbe non riapparire successivamente.
In un video di una scena subacquea di carta, Sora ha aggiunto dei tagli tra diversi pezzi di filmato, mantenendo uno stile coerente tra di essi.
Non è perfetto. Nel video di Tokyo, le auto a sinistra sembrano più piccole delle persone che camminano accanto a loro. Inoltre, compaiono e scompaiono tra i rami degli alberi. “C’è sicuramente del lavoro da fare in termini di coerenza a lungo termine”, dice Brooks. “Per esempio, se qualcuno esce dal campo visivo per molto tempo, non torneranno. Il modello tende a dimenticare che dovevano esserci”.
Nonostante gli esempi dimostrativi siano impressionanti, è probabile che siano stati scelti appositamente per mostrare Sora nel suo miglior momento. Senza ulteriori informazioni, è difficile dire quanto siano rappresentativi dell’output tipico del modello.
Potrebbe passare del tempo prima di scoprirlo. L’annuncio di OpenAI su Sora oggi è un’anticipazione tecnologica e l’azienda dice di non avere attualmente piani per rilasciarlo al pubblico. Invece, OpenAI inizierà oggi a condividere il modello con tester di sicurezza di terze parti per la prima volta.
In particolare, l’azienda è preoccupata per i potenziali abusi di video falsi ma fotorealistici. “Stiamo procedendo con cautela e ci assicuriamo di avere tutto sotto controllo prima di mettere questo nelle mani del pubblico”, dice Aditya Ramesh, uno dei ricercatori di OpenAI, che ha creato il modello testo-immagine DALL-E dell’azienda.
Ma OpenAI sta considerando un lancio del prodotto in futuro. Oltre ai tester di sicurezza, l’azienda condivide il modello con un gruppo selezionato di videomaker e artisti per ricevere feedback su come rendere Sora il più utile possibile per i professionisti creativi. “L’altro obiettivo è mostrare a tutti cosa è in arrivo, per dare un’anteprima di ciò che questi modelli saranno capaci di fare”, dice Ramesh.
Per creare Sora, il team ha adattato la tecnologia dietro DALL-E 3, l’ultima versione del modello testo-immagine di punta di OpenAI. Come la maggior parte dei modelli testo-immagine, DALL-E 3 utilizza un modello di diffusione, addestrato per trasformare una nebbia di pixel casuali in un’immagine.
Sora adotta questo approccio e lo applica ai video anziché alle immagini fisse. Ma i ricercatori hanno anche aggiunto un’altra tecnica al mix. A differenza di DALL-E o della maggior parte degli altri modelli generativi di video, Sora combina il suo modello di diffusione con un tipo di rete neurale chiamato transformer.
I transformer sono ottimi nel processare lunghe sequenze di dati, come le parole. Questo li ha resi l’ingrediente speciale all’interno dei grandi modelli di linguaggio come il GPT-4 di OpenAI e il Gemini di Google DeepMind. Ma i video non sono fatti di parole. Invece, i ricercatori hanno dovuto trovare un modo per suddividere i video in pezzi che potessero essere trattati come se lo fossero. L’approccio che hanno ideato era di tagliare i video sia nello spazio che nel tempo. “È come se tu avessi un mucchio di tutti i frame video e ne tagliassi piccoli cubi”, dice Brooks.
Il transformer all’interno di Sora può quindi elaborare questi frammenti di dati video allo stesso modo in cui il transformer all’interno di un grande modello di linguaggio elabora le parole in un blocco di testo. I ricercatori dicono che questo gli ha permesso di addestrare Sora su molti più tipi di video rispetto ad altri modelli testo-video, variati in termini di risoluzione, durata, rapporto di aspetto e orientamento. “Aiuta davvero il modello”, dice Brooks. “È qualcosa di cui non siamo a conoscenza in nessun altro lavoro esistente”.
“Dal punto di vista tecnico, sembra un notevole salto in avanti,” afferma Sam Gregory, direttore esecutivo di Witness, un’organizzazione per i diritti umani specializzata nell’uso e nell’abuso della tecnologia video. “Ma ci sono due facce della medaglia,” aggiunge. “Le capacità espressive offrono il potenziale per molte più persone di diventare narratori utilizzando il video. E ci sono anche reali potenziali vie per un uso improprio.”
OpenAI è ben consapevole dei rischi che accompagnano un modello generativo di video. Stiamo già assistendo a un uso su larga scala di immagini deepfake. I video fotorealistici portano questo a un altro livello.
Gregory nota che si potrebbe utilizzare una tecnologia del genere per disinformare le persone su zone di conflitto o proteste. Anche la varietà di stili è interessante, dice. Se si potesse generare riprese tremolanti che sembrano girate con un telefono, sembrerebbero più autentiche.
La tecnologia non è ancora al punto giusto, ma la generazione di video è passata da zero a Sora in soli 18 mesi. “Stiamo per entrare in un universo in cui ci sarà contenuto completamente sintetico, contenuto generato dall’uomo e una miscela dei due,” dice Gregory.
Il team di OpenAI intende basarsi sui test di sicurezza effettuati l’anno scorso per DALL-E 3. Sora include già un filtro che esegue su tutte le richieste inviate al modello e bloccherà le richieste di immagini violente, sessuali o odiose, così come le immagini di persone conosciute. Un altro filtro esaminerà i fotogrammi dei video generati e bloccherà il materiale che viola le politiche di sicurezza di OpenAI.
OpenAI afferma di stanno anche adattando un rilevatore di immagini false sviluppato per DALL-E 3 per usarlo con Sora. E l’azienda incorporerà tag di metadati standard del settore C2PA, che indicano come è stata generata un’immagine, in tutti gli output di Sora. Ma questi passaggi sono lontani dall’essere infallibili. I rilevatori di immagini false sono un terno al lotto. I metadati sono facili da rimuovere e la maggior parte dei siti di social media li elimina dalle immagini caricate per impostazione predefinita.
“Dovremo sicuramente ottenere più feedback e apprendere di più sui tipi di rischi che devono essere affrontati con i video prima che abbia senso per noi rilasciarlo,” dice Ramesh.
Brooks concorda. “Parte del motivo per cui stiamo parlando di questa ricerca ora è perché possiamo iniziare a ottenere il feedback di cui abbiamo bisogno per fare il lavoro necessario per capire come potrebbe essere utilizzato in modo sicuro,” dice.
Wow superb blog layout How long have you been blogging for you make blogging look easy The overall look of your site is magnificent as well as the content
Fantastic beat I would like to apprentice while you amend your web site how could i subscribe for a blog site The account helped me a acceptable deal I had been a little bit acquainted of this your broadcast offered bright clear concept