CoolClub pro IT odborníky

Věděli jste, že vám AI asistenti ve 45 % případů odpovídají nepřesně?

Dnes

Nejčastěji používaní AI asistenti lžou. Vyplývá to z nedávných studií EBU a BBC. Ty uvádějí, že až ve 45 procentech odpovědí se objevilo závažné pochybení. Který z chatbotů si vedl nejhůře?

 

Magazín

 

Intenzivní mezinárodní výzkumy EBU a BBC poukazují na vysokou nepřesnost AI asistentů. A to ChatGPT, Copilot, Gemini a Perplexity. Tedy těch, které lidé používají na denní bázi. Můžete AI pomocníkům skutečně důvěřovat?

 

Ačkoliv se zmiňované studie zabývají pravdivostí údajů, především s ohledem na zpravodajství, jejich výsledky se jistě dají vztáhnout rámcově i na další oblasti. Poprvé na potíže AI s nepřesnostmi poukázala studie BBC už letos v únoru. Nový výzkum na ni tak navazuje, jen tentokrát v širším – mezinárodním měřítku. A potvrzuje, že se skutečně jedná o problém systémový, tedy v nezávislosti na jazyku, trhu nebo typu chatbota.  

 

Ohraničení výzkumu

Mezinárodní studie vycházela z celkem 3 tisíc odpovědí na dotazy o zpravodajství. Ke zkoumání si zvolili přední AI asistenty, které využívají umělou inteligenci k porozumění přirozeném jazyku a plnění promptů uživatele. Pod lupu se tak dostal ChatGPT od OpenAI, Copilot od Microsoft, Gemini od Google a Perplexity.  

V hodnocení se zaměřovali na AI asistenty ve 14 jazycích, a to zejména z hlediska jejich přesnosti, zdrojování a schopnosti rozlišit mezi názorem a faktem.

Výzkumu se zúčastnilo celkem 22 veřejnoprávních médií z 18 zemí, včetně České republiky.

 

 

Alarmující výsledky

Klíčová zjištění mohou být pro uživatele, kteří AI asistenty považují za svou pravou ruku, až zdrcující.

  • Ze všech odpovědí napříč chatboty obsahovalo 45 % odpovědí alespoň jeden závažný problém, přičemž v 81 % se ukázal nějaký druh chyby
  • Ve 31 %případů chatboti vykazovali problém se zdrojováním, buď zcela chybělo, bylo zavádějící nebo se jednalo o nesprávný odkaz
  • Závažné nepřesnosti, včetně zásadně mylných detailů a zastaralých informací pak obsahovalo 20 % reakcí u všech odpovědí zkoumaných asistentů
  • Největší problémy se zdrojováním byly zaznamenány u Gemini, a to cca v 72 % odpovědí, zatímco u ostatních to bylo méně než 25 %
  • Nejhůře se ze všech zkoumaných AI asistentů ale bezpochyby umístil Gemini od Google, především právě kvůli zmíněnému zdrojování, ale svou roli sehrály i další chyby

A i když v porovnání s únorovou studií ta novější přináší určité zlepšení AI asistentů, stále se uživatelé pohybují ve vodách velkých nepřesností a vysoké chybovosti.

V době, kdy chatboti začínají nahrazovat i běžné vyhledavače, jsou tyto výsledky pořád více než alarmující. Zejména když tímto způsobem, podle Reuters, získává přehled 7 % všech online konzumentů a 15 % mezi lidmi mladšími 25 let.

 

Vyjádření k výsledkům

Reuters se rozhodli nenechat to jen tak a vyzvali zúčasntěné společnosti k vyjádření k výsledkům.

OpenAI a Microsoft se shodli v tom, že se problém s halucinacemi, tedy nesprávnými a zavádějícím informacemi spojenými s nedostatekem dat, snaží vyřešit.

Perplexity se ohání svým výrokem uvedeným na webu, který informuje o 93,9% přesnosti jejich „Deep Research“ režimu.

Gemini na neblahé výsledky plynoucí z výzkumu reaguje ochotou přijímat zpětnou vazbu. Přičemž uvádí, že je jejich cílem platformu nadále zlepšovat tak, aby jeho uživatelům sloužila co nejlépe.

 

Připravila: Petra Sauerová

Foto: Depositphotos