CoolClub pro IT odborníky

Google Assistant příští generace pracuje téměř v reálném čase, nabízí přepis řeči

11.02.2020

Rychlejší program Google Assistant v reálném čase debutoval na hardwarové akci v New Yorku, kde byla odhalena vlajková loď Pixel 4. Příští generaci Google Assistant lze použít k otevírání aplikací a poskytování automatizovaného přepisování řeči z hlasových záznamů, jakož i pomocí dialogu s více možnostmi k reakci na více příkazů nebo dotazů. Google Assistant také získává nové hlasové příkazy ohleduplné k soukromí.

 

Magazín

 

Google Assistant nové generace byl představen společně s chytrým telefonem Pixel 4, novými budíky Pixel, laptopem Pixelbook Go, novým inteligentním reproduktorem Nest Mini a Nest Wifi. Chytré reproduktory Google Nest dostaly možnost reagovat na více hlasových příkazů jediným výrokem slova „Hey Google“ v červnu 2018, zatímco chytré displeje dostaly stejnou funkci pokračování konverzace již v květnu.

 

10x rychlejší asistent

Google na své vývojářské konferenci v květnu poprvé představil až 10krát rychlejší verzi Google Assistant. V době předvádění na scéně zaměstnanec Google ukázal, jak lze asistenta použít k nastavení časovače, kontrole počasí a zodpovězení otázek. Rychlejší odpovědi na otázky zvyšují pravděpodobnost, že se uživatelé při provádění úkolů obrátí na konverzační umělou inteligenci, jako je například Google Assistant, Alexa a Siri. Ve snaze získat více zkušeností s asistenty AI, Amazon také představil režim sledování, takže můžete požádat Alexu, aby provedla více než jeden hlasový příkaz po vyslovení slova „Alexa“.

Začátkem tohoto roku Microsoft také představil pomocníky AI s dialogem pro více zákazníků, pro podnikové zákazníky - poháněné technologií Semantic Machines, konverzačního AI startupu založeného v roce 2018.

 

 

Google Assistant podporuje více jazyků než Siri, Alexa, Bixby a Cortana

Asistent Google, Apple Siri, Amazon Alexa a Microsoft Cortana rozpoznávají jen úzký kousek nejrozšířenějších světových jazyků. Teprve na podzim 2018 získala společnost Samsung Bixby podporu němčiny, francouzštiny, italštiny a španělštiny - jazyků, kterými mluví po celém světě více než 600 milionů lidí. A u Microsoft Cortana trvalo několik let, než tento asistent plynule mluvil španělsky, francouzsky a portugalsky.

Ale Google - který byl před konkurencí již před rokem, pokud jde o počet jazyků, které jeho asistent podporoval - se letos posunul daleko dopředu. Přidáním více než 20ti nových jazyků v lednu 2019 a nedávno několika indických jazyků si Google Assistant upevnil svou vedoucí pozici s více než 40 jazyky ve více než 80 zemích, a to z osmi jazyků a 14 zemí v roce 2017. Ve srovnání s 21 podporovanými jazyky Siri, sedmi jazyky Alexa a Bixby a osmi jazyky Cortany.

Proč se tedy Google Assistant tolik posunul dopředu? Některé techniky, na nichž je založeno zpracování přirozeného jazyka (NLP) společnosti Google, samozřejmě zůstávají přísně střeženým obchodním tajemstvím. Veřejně dostupný výzkum společnosti Mountain View však vrhá světlo na to, proč soupeři, jako jsou Amazon a Apple, ještě neodpovídají jazykové zdatnosti společnosti Google.

 

Podpora nového jazyka je obtížná

Přidání jazykové podpory k hlasovému asistentovi je mnohostranný proces, který vyžaduje značný výzkum rozpoznávání řeči a syntézy hlasu. Většina moderních systémů rozpoznávání řeči zahrnuje hloubkové neuronové sítě, které předpovídají vnímavě odlišné jednotky zvuku (například p, b, d v anglických slovech pad, pat a bad).

Na rozdíl od starších technik, které se spoléhaly na ručně vyladěné statistické modely, které spočítaly pravděpodobnost výskytu kombinací slov ve větě, neuronové sítě odvozují znaky ze znázornění zvukových frekvencí nazývaných spektrogramy mel-scale. To snižuje chybovost a částečně eliminuje potřebu lidského dohledu.

 

 

Rozpoznávání řeči výrazně pokročilo, zejména v posledním roce. Vědci společnosti Google podrobně popsali techniky, které využívají korekci pravopisu ke snížení chyb o 29%, a v jiném pokusu použili umělou inteligenci na vizuální zvukové vlny, aby dosáhli nejmodernějšího rozpoznávacího výkonu bez použití jazykového modelu.

Paralelní úsilí zahrnuje SpecAugment, který dosahuje působivě nízké chybovosti slov aplikováním zvětšení dat vizuální analýzy na spektrogramy. Zařízení jako Pixel 4 a Pixel 4 XL (v USA, Velké Británii, Kanadě, Irsku, Singapuru a Austrálii) obsahují vylepšený model anglického jazyka Google Assistant, který pracuje offline a zpracovává řeč při téměř nulové latenci, což přináší odpovědi až 10krát rychleji než na zařízeních předchozí generace.

 

Výzva jménem přízvuk

Samozřejmě, základní znalost jazyka nestačí. Bez lokalizace nemohou hlasoví asistenti vyzvednout kulturní odlišnosti, nebo co je horší, riskují zneužití. Sestavení modulu pro porozumění dotazům pro nový jazyk trvá přibližně 30 až 90 dní, v závislosti na tom, kolik záměrů potřebuje pokrýt. A dokonce i inteligentní reproduktory od společností Google a Amazon mají potíže s porozuměním určitým přízvukům. 

Stále kreativnější přístupy společnosti Google však slibují zaplnit tuto mezeru. V září vědci ve společnosti navrhli analyzátor řeči, který se učí přepisovat více jazyků a současně demonstrovali dramatické zlepšení kvality, kdy v říjnu podrobně popsali univerzální systém strojového překladu vyškolený na více než 25 miliardách vzorků, který je zároveň schopný zpracování 103 jazyků.

 

Syntéza řeči

Vytváření řeči je stejně náročné jako porozumění, ne-li více. Zatímco špičkové systémy převodu textu na řeč (TTS), jako je Google Tacotron 2 (který staví modely syntézy hlasu založené na spektrogramech) a WaveNet 2 (který staví modely založené na tvarech křivek), se ostatní systémy učí jazyky více méně pouze na základě samotné řeči.

Další technika - parametrické TTS - využívá matematické modely k opětovnému vytvoření zvuků, které jsou pak sestaveny do slov a vět. Data potřebná pro generování těchto zvuků jsou uložena v parametrech (proměnných) a samotná řeč je vytvořena pomocí vocoderu, což je hlasový kodek (kodér-dekodér), který analyzuje a syntetizuje výstupní signály.

Translatotron, který byl předváděn loni v květnu, dokáže přeložit hlas osoby do jiného jazyka, přičemž si zachová svůj tón a tenor. V srpnu vědci Google AI ukázali, že by mohli výrazně zlepšit kvalitu syntézy a generování řeči pomocí zvukových datových sad jak od rodilých, tak i od ostatních mluvčích angličtiny, kteří mají neurodegenerativní choroby, a techniky od společnosti Parrotron, což je nástroj AI pro lidi s těmito poruchami.

 

 

V souvisejícím vývoji vědci Google v několika novinách nedávno odhalili způsoby, jak učinit strojově generovaný zvuk řeči přirozenějším. Ve studii spoluzakladatele Tacotronu Yuxuan Wanga byl přenos parametrů, jako je úroveň stresu, dosaženo vložením stylu z nahraného klipu lidské řeči. Je však možné též identifikovat vokální vzorce napodobující řečové styly podobné těm, které vyplývají z hněvu a únavy.

 

Zlepšení jazykové podpory

Jak dlouho může trvat, než se ostatní postaví na stejnou pozici jako je Google Assistant? Zlepšení jazykové podpory asistentů bude pravděpodobně vyžadovat inovace v rozpoznávání řeči a NLP. S opravdovým zásobníkem neuronových sítí - takovým, který se příliš nespoléhá na jazykové knihovny, klíčová slova nebo slovníky - se důraz přesouvá z gramatických struktur na vkládání slov a relačních vzorců. Potom je možné trénovat systém rozpoznávání hlasu na prakticky jakýkoli jazyk.

Zdá se, že Amazon k tomu s Alexou postupuje. Výzkumníkům ve společnosti se podařilo snížit počet rozpoznávacích problémů o 20% až 22% za použití metod, které kombinovaly označování lidských a strojních dat, a dalších 15% za použití nové techniky izolace šumu a umělé inteligence a strojového učení. Samostatně navrhli přístup zahrnující výuku jazykových modelů nových jazyků tím, že přizpůsobí ty, které jsou vyškoleny v jednom jazyce, jiným jazykům, čímž se sníží požadavky na údaje o nových jazycích až o 50%.

 

 

Připravil: Radek Svoboda