Club

Technika Google nazvaná ozvěna dat urychluje trénink AI

Hardwarový akcelerátor AI, jako tenzorové Google procesory a procesory neuronové sítě Nervana od Intelu, slibují urychlení školení modelů AI, ale kvůli způsobu, jakým jsou čipy architekturovány, pak dřívější fáze učení (jako předzpracování dat) nevyužívají patřičných výhod umělé inteligence. Proto vědci z Google Brain, divize výzkumu AI společnosti Google, navrhují techniku ​​nazvanou ozvěna dat, která podle nich snižuje výpočet používaný dřívějšími fázemi tím, že znovu používá mezilehlé výstupy z těchto fází.

 

Magazín

 

Podle vědců se nejefektivnější algoritmy pro odezvu dat mohou shodovat s prediktivním výkonem základní linie pomocí zpracování na nižší úrovni, a v některých případech kompenzovat čtyřnásobně pomalejší vstupní přenosy informací.

 

Výcvikový program

Spoluřešitelé poznamenali, že výcvik neuronové sítě vyžaduje více než jen operace, které fungují dobře na akcelerátorech, takže se nemůžeme spoléhat pouze na vylepšení akcelerátoru, abychom ve všech případech zachovali zrychlení. Výcvikový program bude možná muset číst a dekomprimovat tréninková data, zamíchat je, dávkovat a dokonce transformovat nebo rozšířit. Tyto kroky bude moci provádět více systémových součástí, včetně procesorů, disků, síťové šířky pásma a šířky pásma paměti.

V typickém výcvikovém systému umělá inteligence nejprve přečte a dekóduje vstupní data a poté zamíchá data, použije sadu transformací, aby je rozšířila, než shromáždí příklady do dávek. Nakonec iterativně aktualizuje parametry, aby se snížila chyba. Algoritmus odezvy dat vkládá do systému fázi, který opakuje výstupní data z předchozí fáze před aktualizací parametrů a teoreticky získává volnou výpočetní kapacitu.

Jak snížit počet potřebných příkladů

V experimentech tým vyhodnotil ozvěnu dat u dvou úkolů modelování jazyka, dvou úkolů klasifikace obrazu a jednoho úkolu detekce objektů pomocí modelů AI vyškolených na souborech dat s otevřeným zdrojovým kódem. Měřili dobu výcviku jako počet čerstvých příkladů výcviku potřebných k dosažení cílové metriky a zkoumali, zda by opakování dat mohlo snížit počet potřebných příkladů.

Spoluautoři uvádějí, že ve všech případech, s výjimkou jednoho, vyžadovalo opakování dat méně čerstvých příkladů než základní linie s omezeným zaučením. Dále poznamenávají, že dřívější ozvěna dat je vložena do systému, kdy poté bylo zapotřebí méně čerstvých příkladů a že ozvěny dat občas fungovaly lépe při větších velikostech dávek.

Všechny varianty s ozvěnou dat dosáhly u obou úkolů přinejmenším stejného výkonu jako základní linie. Je to jednoduchá strategie pro zvýšení využití hardwaru, když má učící se systém překážku v jedné z předcházejících fází. Ozvěna dat je efektivní alternativou k optimalizaci tréninkového systému nebo k přidání dalších pracovníků k provedení předběžného zpracování dat, což nemusí být vždy možné nebo žádoucí.

 

 

Připravil: Radek Svoboda