Club

AI Deep Mind se sledováním klipů na YouTube učí vytvářet realistická videa

Možná znáte FaceApp, mobilní aplikaci, která používá umělou inteligenci a přeměňuje selfies. Nebo funkci This Person Does Not Exist, která zobrazuje počítačově generované fotografie fiktivních lidí. Ale co algoritmus, jehož videa jsou zcela nová? Podívejte se na pokroky v začínajícím poli generování klipů umělé inteligence. 

 

Magazín

 

Díky výpočetně efektivním komponentám a technikám a nové sadě dat přizpůsobených na míru vědci tvrdí, že jejich nejvýkonnější model - Dual Video Discriminator GAN (DVD-GAN) - dokáže generovat koherentní 256 x 256 pixelů pozoruhodné věrnosti a až 48 snímků v délce.

 

Syntéza a predikce videa

Generování přirozeného videa je zjevnou další výzvou pro generativní modelování, ale je to sužováno zvýšenou složitostí dat a výpočetními požadavky. Z tohoto důvodu se mnoho předchozích prací na generování videa točilo kolem relativně jednoduchých datových souborů nebo úkolů, kde jsou k dispozici silné informace o časovém kondicionování. Je třeba se soustředit na úkoly syntézy videa a predikce videa a usilovat o rozšíření silných výsledků generativních obrazových modelů na video doménu.

Tým vytvořil svůj systém na špičkové AI architektuře a představil vylepšení specifická pro video, která mu umožnila trénovat na Kinetics-600, datové sadě přirozených videí o velikosti větší než běžně používané modely. Vědci konkrétně využívali zvětšené generativní protivníkové sítě neboli GAN - dvousložkové systémy AI sestávající z generátorů, které produkují vzorky, a diskriminátorů, které se pokoušejí rozlišovat mezi generovanými a reálnými vzorky - které byly historicky aplikovány na úkoly jako převádění titulků na scénáře scén po scéně a generování obrazů umělých galaxií. Zde to bylo okořeněno tzv. systémem BigGAN, který se vyznačují velkými dávkami a miliony parametrů.

 

 

Trénink umělé inteligence

DVD-GAN obsahuje duální diskriminátory: prostorový diskriminátor, který kriticky hodnotí obsah a strukturu jednoho snímku náhodným vzorkováním rámců s plným rozlišením a jejich zpracováním jednotlivě, a dočasný diskriminátor, který poskytuje učební signál pro generování pohybu. Samostatný modul - transformátor - umožnil šíření získaných informací napříč celým modelem AI.

Pokud jde o soubor údajů o školení (Kinetics-600), který byl sestaven z 500 000 deseti sekundových klipů YouTube s vysokým rozlišením původně označených za rozpoznávání lidské činnosti, vědci jej označují jako různorodý a neomezený, což ukazuje, že mají obavy o overfitting. (Ve strojovém učení se overfitting týká modelů, které příliš úzce odpovídají určité sadě dat a v důsledku toho nedokážou spolehlivě předpovědět budoucí pozorování.)

 

 

Tým hlásí, že po tréninku na Tensorových jednotkách třetí generace společnosti Google pro urychlování umělých inteligencí po dobu 12 až 96 hodin se DVD-GAN podařilo vytvořit videa s kompozicí objektů, pohybem a dokonce i složitými texturami, jako je strana kluziště. Snažil se vytvářet koherentní objekty ve vyšších rozlišeních, kde se pohyb skládal z mnohem většího počtu pixelů, ale vědci poznamenávají, že po vyhodnocení na UCF-101 (menší soubor dat o 13 320 videích o lidském jednání), DVD-GAN vytvořil vzorky s nejmodernějším počáteční skóre 32,97.

Spoluautoři napsali, že chtějí zdůraznit přínos školení generativních modelů na velkých a složitých souborech obrazových dat, jako je Kinetics-600. Předpokládají také, že silné základní linie, které v této sadě dat vytvořili pomocí DVD-GAN, budou použity jako referenční bod pro generativní modelingovou komunitu postupující vpřed. I když ještě zbývá mnoho práce, než bude možné realistická videa neustále generovat v neomezeném nastavení, autoři věří, že DVD-GAN je krokem tímto směrem.

 

 

Připravil: Radek Svoboda