Club

AI a její systém kapslí dosahuje při klasifikaci obrazů nejlepších výsledků

V roce 2017 navrhl Geoffrey Hinton - přední teoretik AI a nedávný příjemce Turingovy ceny - se studenty Sarou Sabour a Nicholasem Frosstem architekturu strojového učení nazvanou CapsNet, diskriminačně vyškolený a vícevrstvý přístup, který dosáhl nejmodernější postupu klasifikace obrazů. Hinton, Sabour a vědci z Oxford Robotics Institute podrobně sledovali svou počáteční práci a podrobně popsali verzi kapslové sítě, která využívá nejvýznamnější algoritmy v úkolu klasifikace bez supervize.

 

Magazín

 

Pro nezasvěcené, systémy kapslí vytvářejí smysluplné objekty geometrickou interpretací organizovaných sad jejich vzájemně propojených částí. Sady matematických funkcí (kapsle), které se jednotlivě aktivují pro různé vlastnosti objektu (jako je poloha, velikost a odstín), jsou zasunuty do konvoluční neuronové sítě (typ modelu AI, který se často používá k analýze vizuálních obrazů), a několik jejich výstupů je znovu použito k vytvoření stabilnějších reprezentací pro kapsle vyššího řádu. Protože tyto reprezentace zůstávají po celou dobu nedotčeny, systémy kapslí je mohou využít k identifikaci objektů i se změnami pohledu, jako například při zaměňování nebo transformaci pozic součástí.

 

Další jedinečná věc o kapslových systémech?

Stejně jako u všech hlubokých neuronových sítí jsou funkce kapslí uspořádány ve vzájemně propojených vrstvách, které přenášejí signály ze vstupních dat a pomalu upravují synaptickou sílu (váhu) každého spojení. Takto získají funkce a naučí se předpovídat. Ale pokud jde o kapsle, váha parametrů se počítá dynamicky podle schopnosti funkcí předchozí vrstvy předpovídat výstupy další vrstvy.

Nedávná práce Hintona a kolegů zkoumá nervový kodér, který se dívá na vzorky obrázků a pokouší se vyzískat přítomnost a pozici předmětů. Je vyškolen dekodérem, který předpovídá pozice již objevených částí obrazů (rozdělených podle autoencoderu) pomocí směsi předpovědí pozice.  Každý model obrazového bodu je modelován jako směs předpovědí vytvořené transformovanými částmi. Kapslový systém je poté učen na neznačených datech a vektory (matematické reprezentace) přítomnosti jsou seskupeny dohromady, aby zachytily prostorové vztahy mezi celými objekty a částmi.

 

 

Spoluautoři si všimli, že vektory pravděpodobnosti přítomnosti pro objektové kapsle budou s větší pravděpodobností tvořit těsné shluky a že přiřazení třídy každému těsnému klastru povede k nejmodernějším výsledkům. Tato realizace navíc vedla k nejmodernějším výsledkům na MNIST, korpusu ručně psaných číslic, a dále zlepšila výkonnost s méně než 300 parametry.

 

 

Připravil: Radek Svoboda