nLIFE

Umělá inteligence Sora od OpenAI generuje z textu úžasná videa

Na poli generativní umělé inteligence bylo dosaženo dalšího milníku. Model Sora od OpenAI generuje z textového zadání minutová videa. Ta sice nejsou ještě na sto procent dokonalá, ukazují ovšem, jak se celé odvětví za velmi krátkou dobu posunulo o pořádný kus dopředu.

OpenAI učí umělou inteligenci chápat a simulovat skutečný svět v pohybu. Cílem je pomoci lidem řešit různé problémy, které se týkají interakce s reálným světem.

Sora dokáže generovat složité scény s více postavami, specifické pohyby i přesné detaily. Model rozumí nejen tomu, o co uživatel požádal v zadání, ale také tomu, jak tyto věci fungují ve skutečném světě.

„Sora je difuzní model, který generuje video tak, že začíná s videem, které vypadá jako statický šum, a postupně ho transformuje odstraňováním šumu v mnoha krocích,“ vysvětlují tvůrci.

„Sora dokáže generovat celá videa najednou nebo generovaná videa prodlužovat, aby byla delší. Tím, že jsme modelu poskytli předvídání mnoha snímků najednou, jsme vyřešili náročný problém, jak zajistit, aby objekt zůstal stejný, i když dočasně zmizí z dohledu. Podobně jako modely GPT používá Sora transformační architekturu, která odemyká vynikající výkon škálování.“

Sora prozatím není dostupná veřejnosti.

„Nikdo nečte. Pokud čte, stejně nerozumí. Kdo čte a rozumí, stejně zapomene.
 Stanisław Lem