CoolClub pro IT odborníky

4 zásadní rozdíly mezi biologickým a počítačovým viděním

06.09.2021

Již od počátků umělé inteligence vědci sní o vytvoření počítačů, které by "viděly" svět. Vzhledem k tomu, že vidění hraje klíčovou roli v mnoha věcech, které děláme každý den, zdálo se, že rozluštění kódu počítačového vidění je jedním z hlavních kroků k vývoji umělé obecné inteligence.

 

Magazín

 

 

Stejně jako mnoho jiných cílů v oblasti umělé inteligence se však ukázalo, že počítačové vidění je snazší říci než udělat. V roce 1966 zahájili vědci z MIT "The Summer Vision Project", dvouměsíční úsilí o vytvoření počítačového systému, který by dokázal identifikovat objekty a oblasti pozadí na snímcích. K dosažení těchto cílů však bylo zapotřebí mnohem více než jen letní prázdniny. Ve skutečnosti byly klasifikátory obrazu a detektory objektů dostatečně flexibilní a spolehlivé na to, aby se daly používat v běžných aplikacích, až na začátku roku 2010.

V posledních desetiletích pomohl pokrok ve strojovém učení a neurovědě k velkému pokroku v oblasti počítačového vidění. Stále nás však čeká dlouhá cesta, než budeme moci vytvořit systémy umělé inteligence, které budou vidět svět stejně jako my.

Kniha Biologické a počítačové vidění od profesora Harvardovy lékařské univerzity Gabriela Kreimana přístupnou formou popisuje, jak lidé a zvířata zpracovávají vizuální data a jak daleko jsme se dostali k replikaci těchto funkcí v počítačích.

Kreimanova kniha pomáhá pochopit rozdíly mezi biologickým a počítačovým viděním. Kniha podrobně popisuje, jak nás miliardy let evoluce vybavily složitým systémem zpracování zraku a jak jeho studium pomohlo inspirovat lepší algoritmy počítačového vidění. Kreiman se také zabývá tím, co odlišuje současné systémy počítačového vidění od jejich biologických protějšků.

 

1. Rozdíly v hardwaru

V úvodu knihy Biologické a počítačové vidění Kreiman píše: "Obzvláště mě nadchlo propojení biologických a počítačových obvodů. Biologické vidění je výsledkem milionů let evoluce. Při vývoji počítačových modelů není důvod znovu vynalézat kolo. Můžeme se poučit z toho, jak biologie řeší problémy vidění, a použít tato řešení jako inspiraci pro vytvoření lepších algoritmů."

A skutečně, studium zrakové kůry je velkým zdrojem inspirace pro počítačové vidění a umělou inteligenci. Než však bylo možné zrak digitalizovat, museli vědci překonat obrovskou hardwarovou propast mezi biologickým a počítačovým viděním. Biologické vidění funguje na propojené síti korových buněk a organických neuronů. Počítačové vidění naproti tomu funguje na elektronických čipech složených z tranzistorů.

Proto musí být teorie vidění definována na úrovni, kterou lze v počítačích implementovat způsobem srovnatelným s živými bytostmi. Kreiman tomu říká "zlaté rozlišení", úroveň abstrakce, která není ani příliš podrobná, ani příliš zjednodušená.

Například první snahy v oblasti počítačového vidění se snažily řešit počítačové vidění na velmi abstraktní úrovni, způsobem, který ignoroval způsob, jakým lidské a zvířecí mozky rozpoznávají vizuální vzory. Tyto přístupy se ukázaly jako velmi křehké a neefektivní. Na druhou stranu studium a simulace mozků na molekulární úrovni by se ukázaly jako výpočetně neefektivní.

V knize Biological and Computer Vision Kreiman definuje zlaté měřítko neokortikálních obvodů jako neuronální aktivity za milisekundu. Pokroky v neurovědách a lékařské technice umožnily studovat aktivity jednotlivých neuronů s milisekundovou časovou granularitou.

A výsledky těchto studií pomohly vyvinout různé typy umělých neuronových sítí, algoritmů umělé inteligence, které volně simulují fungování korových oblastí mozku savců. V posledních letech se neuronové sítě ukázaly jako nejefektivnější algoritmus pro rozpoznávání vzorů ve vizuálních datech a staly se klíčovou součástí mnoha aplikací počítačového vidění.

 

 

2. Rozdíly v architektuře

V posledních desetiletích se objevila řada inovativních prací v oblasti hlubokého učení, které pomohlo počítačům napodobit některé funkce biologického vidění. Konvoluční vrstvy, inspirované studiemi provedenými na zvířecí zrakové kůře, jsou velmi účinné při hledání vzorů ve vizuálních datech. Sdružovací vrstvy pomáhají zobecnit výstup konvoluční vrstvy a činí ji méně citlivou na posun vizuálních vzorů. Bloky konvolučních a sdružovacích vrstev naskládané na sebe mohou přecházet od vyhledávání malých vzorů (rohy, hrany atd.) až po složité objekty (obličeje, židle, auta atd.).

Stále však existuje nesoulad mezi architekturou umělé neuronové sítě na vysoké úrovni a tím, co víme o zrakové kůře savců.

Jak také Kreiman zdůrazňuje v knize Biological and Computer Vision, informace se v mozku pohybují několika směry. Světelné signály se pohybují ze sítnice do dolní spánkové kůry a dalších vrstev zrakové kůry. Každá vrstva však také poskytuje zpětnou vazbu svým předchůdcům. A v rámci každé vrstvy spolu neurony komunikují a předávají si informace mezi sebou.

Naproti tomu v umělých neuronových sítích se data obvykle pohybují jedním směrem.

Existuje mechanismus zpětné vazby zvaný "zpětné šíření", který pomáhá opravovat chyby a ladit parametry neuronových sítí. Zpětné šíření je však výpočetně nákladné a používá se pouze při trénování neuronových sítí. A není jasné, zda zpětné šíření přímo odpovídá zpětnovazebním mechanismům korových vrstev.

Na druhou stranu rekurentní neuronové sítě, které kombinují výstupy vyšších vrstev se vstupy jejich předchozích vrstev, mají v počítačovém vidění stále omezené využití.

 

 

3. Rozdíly v cílech

Evoluci se podařilo vyvinout neuronovou architekturu, která dokáže plnit mnoho úkolů. Několik studií ukázalo, že náš zrakový systém dokáže dynamicky ladit svou citlivost. Vytvoření systémů počítačového vidění, které by měly takovou flexibilitu, však zůstává velkou výzvou.

Současné systémy počítačového vidění jsou navrženy tak, aby plnily jediný úkol. Máme neuronové sítě, které dokáží klasifikovat objekty, lokalizovat objekty, segmentovat obrazy na různé objekty, popisovat obrazy, generovat obrazy. Každá neuronová síť však dokáže splnit pouze jeden úkol.

 

4. Rozdíly v integraci

U lidí a zvířat je zrak úzce spjat s čichem, hmatem a sluchem. Zraková, sluchová, somatosenzorická a čichová kůra se vzájemně ovlivňují a přebírají od sebe signály, aby upravily své závěry o světě. Naproti tomu v systémech umělé inteligence existuje každá z těchto věcí samostatně.

A složitější záležitostí je také integrace zraku se složitějšími oblastmi mozku. U lidí je zrak hluboce integrován s dalšími mozkovými funkcemi, jako je logika, uvažování, jazyk a znalosti zdravého rozumu.

Oblasti, jako je jazyk a zdravý rozum, jsou samy o sobě pro komunitu AI velkou výzvou. Ještě se však ukáže, zda je lze řešit odděleně a integrovat společně s viděním, nebo zda je klíčem k řešení všech z nich samotná integrace.

 

 

Tip! Neuromorfní výpočty: Dlouhá cesta od kořenů ke skutečnému životu

 

 

Připravil: Radek Svoboda