CoolClub pro IT odborníky

Strojové učení v našich službách, nyní pro extrakci textu a dat

08.07.2019

Potřebujete rychle a automaticky extrahovat obsah z dokumentu? AWS spustila novou službu, která umožňuje uživatelům automaticky extrahovat text, tabulky a další data z dokumentů od formátu JPEG, PNG a PDF.

 

Magazín

 

Máte štěstí, tedy pokud jste zákazníkem služby Amazon Web Services (AWS). Společnost Amazon oznámila všeobecnou dostupnost služby Textract, služby hostované na cloudu a plně spravované služby, která využívá strojové učení k analýze datových tabulek, formulářů a celých stránek pro text a data. Dnes je k dispozici v regionech AWS US East (Ohio), USA East (N. Virginia), USA West (Oregon) a EU (Irsko) a v příštím roce se rozšíří do dalších regionů.

Textract je schopnější než průměrný optický systém rozpoznávání znaků. Ze souborů uložených ve službě Amazon S3 je schopen vytahovat obsah polí a tabulek a kontext, ve kterém jsou tyto informace prezentovány, jako jsou jména a čísla sociálního zabezpečení v daňových formulářích nebo součty ze scanovaných příjmů. Jak Amazon poznamenává v tiskové zprávě, Textract podporuje takové obrazové formáty, jako jsou skenování, PDF a fotografie, a využívá řadu formátů dokumentů, včetně těch, které jsou specifické pro finanční služby, pojištění a zdravotní péči.

 

 

Miliony stránek za pár hodin

Textract vypíše výsledky v podobě textu JSON anotovaného číslem stránky, oddílem, štítky formulářů a datovými typy prostřednictvím rozhraní API a volitelně je integruje s databázovými a analytickými službami, jako je služba Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena a strojově učící se produkty jako Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate a Amazon SageMaker pro post-processing. Extrahovaná data mohou být alternativně vkládána přímo do cloudových prostředí třetích stran pro účely zajištění souladu v účetnictví, auditu a softwaru pro shodu nebo pro vytváření inteligentních vyhledávání v archivech dokumentů. Textract může prakticky přesně zpracovat miliony stránek dokumentu za pouhých pár hodin, jak říká Amazon.

 

 

Zákazníci z AWS, kteří již používají Textract, jsou například Globe and Mail, národní meteorologická služba U.K., PricewaterhouseCoopers, nezisková organizace péče o zdraví Healthfirst a společnosti pro automatizaci automatických procesů UiPath, Ripcord a Blue Prism. Candor, startup organizace, jejímž cílem je přinést transparentnost do hypotečního průmyslu, používá Textract pro dokumenty, jako jsou bankovní výpisy, výplatní pásky a daňové dokumenty pro urychlení upisování, daňové přiznání a desítky tisíc dalších dokladů jménem finančních institucí.

 

Strojové učení není potřeba

Síla Amazon Textractu spočívá v tom, že přesně extrahuje text a strukturovaná data z prakticky jakéhokoli dokumentu, který nevyžaduje žádné strojové učení, uvedl Amazon Machine Learning VP Swami Sivasubramanian. Kromě integrace s dalšími službami AWS umožňuje bohatá partnerská komunita vyvíjející se kolem společnosti Amazon Textract zákazníkům, aby získávali skutečný význam ze svých souborových sbírek, fungovali efektivněji, zlepšovali dodržování zásad zabezpečení, automatizovali zadávání dat a usnadňovali rychlejší obchodní rozhodnutí.

 

 

Připravil: Radek Svoboda