CoolClub pro IT odborníky

Češi vyvinuli software na rozpoznávání fake news. Walter Pavliš o tom, jak se s fake news bojuje umělou inteligencí

14.03.2021

Internet je plný dezinformací a rozeznat pravdu od lži se stává čím dál náročnější. S unikátním řešením ovšem přišla pražská firma Cogniware, která vyvinula jedinečný software Insights, s nímž je možné rozpoznat fake news a zabránit jejich šíření. Jak tento software funguje v praxi a jaké typy dezinformací dokáže odhalit? To vám poví Walter Pavliš, Business Director firmy Cogniware.

 

CoolDialog

 

 

Jak probíhá vývoj systému na odhalování nepravd, kterému velí umělá inteligence? Podle čeho dokáže poznat fake news? A který "druh" fake news se pozná nejsnáze? O tom všem jsme si povídali s Walterem Pavlišem, odborníkem na tuto problematiku.

 

Řada dezinformací má jen zvýšit sledovanost

Od roku 2014 vyvíjíte software Insights, který pomáhá při vyšetřování kriminální činnosti. V roce 2019 jste do systému přidali i nový modul, který se specializuje na rozpoznávání dezinformací. Proč jste se zaměřili právě na tuto položku? A proč až v roce 2019?

Vysvětlení je vcelku prosté. Tento modul vznikl na základě požadavku zákazníka, nikoliv tak, že bychom se sami rozhodli takový systém vyrobit. Co se týká časování projektu, pak bych si dovolil tipnout, že zákazník v této době pocítil nutnost tuto problematiku řešit. Právě rok 2019 a především rok 2020 se stal pro dezinformace nejrůznějšího typu velmi „plodným“ rokem.

 

Jak software funguje v praxi? Jaké technologie při tom využívá?

Systém se skládá z několika částí. Prvním z nich je ta část, která umožňuje číst a archivovat články z veřejného prostoru internetu, tedy především ze sociálních sítí. Provozovatel systému si podle svého zaměření vybere oblasti, které ho zajímají, a systém pak předává k dalšímu zpracování textový nebo audiovizuální obsah příspěvků. To zní sice poměrně jednoduše, ale tak jednoduché to zase není. Jedná se o poměrně sofistikovaný systém, který není snadné vyrobit a provozovat.

 

Co se děje dál?

Dále jsou pak články hodnoceny z pohledu obsahu, kde jsou využity naše modely, které využívají umělou inteligenci, přesněji řečeno natrénované modely využívající neuronových sítí. Těch je velké množství podle toho, jakou problematiku mají za úkol řešit. Ne všechny je možné popsat, protože se jedná o obchodní tajemství naší firmy, ale například se zkoumá textový obsah ze stylistického hlediska.

 

 

Co konkrétně?

Kolik je tam podstatných jmen, sloves, jak je text rozvržen, jaké jsou použity znaky a podobně.

 

Podle jakých kritérií dokáže software rozeznat fakes news? 

Fake News – tedy některé typy – se vyznačují specifickým slohem, který lze rozpoznat. Podobně se pak například zjišťuje, zda související obrázek je součástí jiné zprávy a zda odpovídá přiloženému textu.

 

Jak to funguje?

Systém obsahuje základní tři množiny modelů zpracování. Prvním modelem je zpracování jazykové stránky obsahu (viz uvedený příklad) dále pak model zpracování sociální interakce a model zpracování obrazové informace.

Všechny tři množiny pak obsahují celou řadu natrénovaných modelů, které zpracovávají specifické úlohy. Výsledkem jsou jednotlivá skóre, která zpracovává poslední z řady modelů, který stanovuje výsledné skóre příspěvku. Ten podle vstupních dat přiřadí různou důležitost předchozím výsledkům. Každý z modelů, které jsou použity, se totiž hodí na lépe či hůře na různé typy zpráv a pro správný výsledek je tak nutné nastavovat správné váhy (důležitost) modelu, který má nejlepší schopnost „porozumět“ zkoumanou informaci.

 

V online prostoru se uživatelé denně setkávají s masou zpráv, článků, videí i fotek. Jaké typy dezinformací umí váš software odhalit? Jedná se pouze o videa, nebo také texty a fotky? A jaký z těchto typů je nejjednodušší rozeznat?

Všechny tři uvedené formáty zpráv lze naším systém prozkoumat. Z technického pohledu je nejjednodušší textová zpráva, protože nemusíte využívat podpůrné systémy pro zkoumání příslušného formátu informace. Ale zase u textové zprávy je snadné, aby vypadala na první pohled věrohodně. Každý z uvedených modelů je také různě citlivý na různé typy informací, a proto je důležité mít jakýsi porovnávací model, který určuje, jaká důležitost se stanoví pro určitý použitý model.

 

Walter Pavliš

 

Ani sms zpráva tedy pro odhalení fake news není nejjednodušší…

Nelze tak úplně jednoduše říct, že fake news se nejsnadněji rozpozná u jednoduché textové zprávy. Navíc existuje mnoho podob, nebo lépe řečeno mnoho typů fake news, a každý typ má nebo může mít jiný účel.

 

Nejde jen o záměrné šíření nepravd…

Celá řada podvrhů a dezinformací má například za úkol pouze zvýšit sledovanost autora a je spíše snůškou polopravd než vyloženě dezinformací.

 

Umí váš software také vystopovat, kdo se za šířením fake news skrývá – tedy najít hlavní zdroj?

Sociální interakce – tedy způsob šíření, je jedním z důležitých parametrů, který se vyhodnocuje. V některých případech může být zajímavé dohledat autora zprávy, ale ten se často skrývá za jinou identitou, nebo mnoha identitami.

 

Kdo by daného autora v tomto případě mohl dohledat?

To už je spíše úkol analytického týmu, který pracuje s našimi výstupy.

 

Který segment, resp. cílová skupina, je pro tento systém ideální? V jaké zemi máte nejvíce zákazníků?

Primárně je systém určen pro státní správu. Ta má zájem na tom, aby se v kyberprostoru nešířily nesmysly, lži a dezinformace. Respektive měla by mít zájem alespoň na tom monitorovat dění na sociálních sítích.

 

Máte klienty i v zahraničí?

Jedná se o poměrně nový systém, a tak máme prozatím jednoho velkého zákazníka v oblasti zemí středního východu.

 

Jaké plány máte s Insights do budoucna? Budete přidávat ještě další moduly/novinky, popřípadě vylepšovat jednotlivé funkce?

Pracujeme neustále na vývoji dalších modelů, a to nejen pro oblast fake news. Zde se například chceme dostat do stavu, kdy budeme schopni i kontrolovat pravdivost zpráv na základě znalostní báze. Pro nástavbu tohoto modulu tedy pro samotný nástroj Cogniware Insights, který je určen pro vyšetřování jsme připravili multimediální archív, aby systém byl schopen pracovat se všemi možnými formáty dat (audio, video, nestrukturovaný text a podobně). Takto zpracované informace lze pak automaticky analyzovat, a tím šetřit čas odborníkům při vyšetřování.

 

Deep fake jsou především záležitostí umělé inteligence a brzy je už nebude možné laicky rozeznat, říká v dalším rozhovoru o fake news Petr Nutil. 

 

 

Připravila: Petra Pruden