Nejčastěji používaní AI asistenti lžou. Vyplývá to z nedávných studií EBU a BBC. Ty uvádějí, že až ve 45 procentech odpovědí se objevilo závažné pochybení. Který z chatbotů si vedl nejhůře?
Magazín

Intenzivní mezinárodní výzkumy EBU a BBC poukazují na vysokou nepřesnost AI asistentů. A to ChatGPT, Copilot, Gemini a Perplexity. Tedy těch, které lidé používají na denní bázi. Můžete AI pomocníkům skutečně důvěřovat?
Ačkoliv se zmiňované studie zabývají pravdivostí údajů, především s ohledem na zpravodajství, jejich výsledky se jistě dají vztáhnout rámcově i na další oblasti. Poprvé na potíže AI s nepřesnostmi poukázala studie BBC už letos v únoru. Nový výzkum na ni tak navazuje, jen tentokrát v širším – mezinárodním měřítku. A potvrzuje, že se skutečně jedná o problém systémový, tedy v nezávislosti na jazyku, trhu nebo typu chatbota.
Ohraničení výzkumu
Mezinárodní studie vycházela z celkem 3 tisíc odpovědí na dotazy o zpravodajství. Ke zkoumání si zvolili přední AI asistenty, které využívají umělou inteligenci k porozumění přirozeném jazyku a plnění promptů uživatele. Pod lupu se tak dostal ChatGPT od OpenAI, Copilot od Microsoft, Gemini od Google a Perplexity.
V hodnocení se zaměřovali na AI asistenty ve 14 jazycích, a to zejména z hlediska jejich přesnosti, zdrojování a schopnosti rozlišit mezi názorem a faktem.
Výzkumu se zúčastnilo celkem 22 veřejnoprávních médií z 18 zemí, včetně České republiky.
Alarmující výsledky
Klíčová zjištění mohou být pro uživatele, kteří AI asistenty považují za svou pravou ruku, až zdrcující.
- Ze všech odpovědí napříč chatboty obsahovalo 45 % odpovědí alespoň jeden závažný problém, přičemž v 81 % se ukázal nějaký druh chyby
- Ve 31 %případů chatboti vykazovali problém se zdrojováním, buď zcela chybělo, bylo zavádějící nebo se jednalo o nesprávný odkaz
- Závažné nepřesnosti, včetně zásadně mylných detailů a zastaralých informací pak obsahovalo 20 % reakcí u všech odpovědí zkoumaných asistentů
- Největší problémy se zdrojováním byly zaznamenány u Gemini, a to cca v 72 % odpovědí, zatímco u ostatních to bylo méně než 25 %
- Nejhůře se ze všech zkoumaných AI asistentů ale bezpochyby umístil Gemini od Google, především právě kvůli zmíněnému zdrojování, ale svou roli sehrály i další chyby
A i když v porovnání s únorovou studií ta novější přináší určité zlepšení AI asistentů, stále se uživatelé pohybují ve vodách velkých nepřesností a vysoké chybovosti.
V době, kdy chatboti začínají nahrazovat i běžné vyhledavače, jsou tyto výsledky pořád více než alarmující. Zejména když tímto způsobem, podle Reuters, získává přehled 7 % všech online konzumentů a 15 % mezi lidmi mladšími 25 let.
Vyjádření k výsledkům
Reuters se rozhodli nenechat to jen tak a vyzvali zúčasntěné společnosti k vyjádření k výsledkům.
OpenAI a Microsoft se shodli v tom, že se problém s halucinacemi, tedy nesprávnými a zavádějícím informacemi spojenými s nedostatekem dat, snaží vyřešit.
Perplexity se ohání svým výrokem uvedeným na webu, který informuje o 93,9% přesnosti jejich „Deep Research“ režimu.
Gemini na neblahé výsledky plynoucí z výzkumu reaguje ochotou přijímat zpětnou vazbu. Přičemž uvádí, že je jejich cílem platformu nadále zlepšovat tak, aby jeho uživatelům sloužila co nejlépe.
Připravila: Petra Sauerová
Foto: Depositphotos





