Jak pomáhá AI při správě dokumentů

V době, kdy se všude mluví o bezpapírové kanceláři, se klade stále větší důraz na efektivní správu elektronických dokumentů. Systémy pro jejich správu (DMS) už nějakou dobu využívají schopností svých chytrých, učících se algoritmů. Jaký vliv má AI na naši práci s dokumenty?

159
0
SDÍLET

Podle průzkumů z minulého roku přibližně na 83 % administrativních zaměstnanců malých a středních firem ztrácí denně čas prací s pořádáním, hledáním a tiskem dokumentů papírových. A rozhodně to není zanedbatelné množství času, v některých případech až jedenáct hodin týdně. To při klasickém pětidenním pracovním týdnu dělá přes dvě hodiny neefektivní činnosti denně.

Nebudeme na tomto místě rozporovat, že zcela bez papíru to v současnosti zkrátka nejde. A nebudeme se zabývat ani těmi dvěma ztracenými hodinami denně, o které při práci s ním přijdeme. Naší tematikou jsou systémy pro správu dokumentů, a především pak jeden z mnoha důvodů, proč jsou tyto systémy o tolik efektivnější v práci s e-dokumentací než my, samotní uživatelé. Podíváme se na to, jak významnou roli v DMS dnes hraje umělá inteligence.

Nemá cenu chodit kolem horké kaše, význam učících se sítí je ve správě dokumentů zcela zásadní. A v žádném případě nehraje roli jen v těch nejpokročilejších procesech, nejde o žádnou hudbu budoucnosti. Naopak se dá s pevnou jistotou tvrdit, že bez pomoci AI bychom dnes žádné moderní DMS systémy k dispozici ani neměli. Velké množství jejich běžných funkcí se totiž na práci těchto chytrých algoritmů přímo váže.     

Rozeznají naše roztřesené písmo

Pokud vaše firma služeb DMS využívá (zvlášť pak, pokud jde o systém na cloudovém principu), umělá inteligence vám ulehčuje práci doslova každý den. Příklad jejího vlivu najdeme už při prvotních operacích s dokumentem. Ačkoliv je struktura a práce každé organizace jiná, s dokumentací se v mnoha případech pracuje obdobně. Vše začíná naskenováním fyzické kopie, a tedy jejím převedením do elektronické podoby.

V tuto chvíli máme k dispozici datový soubor, kterým je ale jen rastrový obrázek, doslova optická kopie dokumentu. Tu není možné editovat jinak než graficky a také nám nic neřekne o obsahu, pokud si celý dokument nepročteme. Typickou funkcí moderních systémů pro správu dokumentů je automatické OCR neboli optical character recognition, česky pak optické rozeznávání znaků. Ještě přibližně před deseti lety jen omezeně dostupnou funkci samočinného rozeznávání a přepisu vizuálních znaků do digitální a editovatelné podoby dnes běžně najdeme na libovolném chytrém telefonu, třeba v podobě Google Lens. V této nekomerční podobě se ale funkce omezuje jen na tištěný text.

S ručně psanými poznámkami a podpisy je situace komplikovanější. OCR nástroje, jejichž historie sahá až do poloviny minulého století, kdy nahlas předčítaly zprávy psané v Morseově abecedě, vždy pracovaly s omezenou sadou znaků. Malé variace připouštěly, a tak písmeno vytištěné jiným fontem převedly s vysokou pravděpodobností správně, ale na rukopis byly vždy krátké. Tedy až do doby, než se do jejich vývoje zapojily učící se sítě. Analýzou milionů psaných textů se tyto programy rychle naučily rozpoznat znaky v krásně psaných historických dokumentech a rukopisech, delší dobu jim trvalo rozluštit „škrabopis“ moderního člověka. Třebaže odborníci na tuto technologii upozorňují, že dnes v některých aspektech pokulhává, do roku 2025 očekávají výrazné zlepšení a nárůst spolehlivosti.

Lépe vědí, co hledáme

Jakmile jsou dokumenty převedené do elektronické podoby a systém může vyhledávat v jejich obsahu, najít specifický materiál je snadné díky fulltextovému vyhledávání. Pro efektivní orientaci v opravdu velkém množství dokumentů je ale takové vyhledávání nevhodné, a pokud si uživatel nepamatuje velmi specifickou informaci (třeba datum uvedené na smlouvě), systém předloží celou horu výsledků.

I tady je práce učících se algoritmů nepostradatelná. Uživatel nejprve při vkládání dokumentů do systému snadno nadefinuje klíčová slova, přiřadí tagy, které je definují. Potud tedy pracuje manuálně. AI pracující v pozadí si vícekrát použitá klíčová slova u podobného typu dokumentů přiřadí k jejich obsahu, takže si vytvoří vlastní komplexní databázi, která jí umožní vyhledávat s vyšší přesností. Ale nejen to, pokud uživatel vytvoří opakovaně klíčové slovo pro specifickou firmu, vytvoří si pravidlo, že název této firmy je důležitý, a následně proces přiřazení automatizuje. Při naskenování dokumentu tak systém sám navrhne klíčová slova, protože je rozpozná v obsahu dokumentu. V některých případech dokonce vytvoří klíčové slovo například z názvu firmy, ačkoliv o této firmě nemá předchozí záznamy. Zkrátka v dokumentu rozezná, že tento výraz je název společnosti, a z předchozích operací ví, že jde o důležitý údaj.

Systémy pro správu dokumentů se učí už jen tím, jak uživatel reaguje, například při fulltextovém prohledávání dokumentů. Dejme tomu, že hledaným pojmem je „smlouva“ a takových je v systému uložena celá řada. Uživateli tedy nabídne nejpravděpodobnější výsledy, třeba ty dokumenty, ve kterých se tento pojem vyloženě nachází. Někdy se však netrefí a hledaný dokument systém nezobrazí, protože nic v něm ho neidentifikuje jako smlouvu. Uživatel tedy vyhledá pomocí jiného pojmu a hle, dokument najde a otevře si ho. DMS si celý tento postup a chování zapamatuje, a tak si u tohoto dokumentu vytvoří příznak, že jde nejspíš o smlouvu. A pokud podobnou strukturu odhalí v dalších dokumentech, přiřadí si k nim tento příznak také. Jinými slovy, čím více dokumentů uživatel vyhledává pod určitým klíčovým slovem, tím úspěšnější pak AI je v označování stejným příznakem u jiných dokumentů. Všechny tyto automatické postupy mohou výrazně zjednodušit proces digitalizace.

Nacházejí nám skryté příležitosti

Popsaný proces se v angličtině odborně nazývá clustering a rozhodně to není pomůcka, která by byla užitečná jen pro samotnou umělou inteligenci. Dokumenty automaticky uspořádané podle data, klíčových slov, autorů, zdrojů a typů vytvářejí pomyslnou provázanou síť, myšlenkovou mapu, ve které se sice uživatel sám nejspíš nevyzná, ale pro AI není problém ji na vyžádání předložit v podobě vizualizace. V takto názorné a pro člověka snadno pochopitelné podobě mohou data výrazně usnadnit jeho další rozhodování.

Díky této myšlenkové mapě umělá inteligence chápe kontext některých frází, které se v dokumentech nacházejí, a také to, jak tyto fráze souvisejí s dalšími klíčovými pojmy a daty. Samočinně tak dokumenty organizuje podle podobností a relevance. To může být velmi užitečné například pro administrativní pracovníky velkých společností nebo třeba právnické firmy, které evidují tisíce velmi podobných dokumentů. I v této fázi je nejmocnějším nástrojem automatizace. Moderní DMS umí rozlišit políčka a fráze v dokumentech, které vypovídají třeba o tom, kdy pozbude platnosti nějaká smlouva. Stačí jim ukázat, že mají hledat fráze jako „platné do“, nebo „lhůta vypršení platnosti“ a systémy automaticky pravidelně předloží výčet smluv, které přestávají platit a je jim třeba věnovat pozornost.

Podobnou automatizovanou techniku využívají některé společnosti k tomu, aby ve svých digitalizovaných archivech hledaly příležitosti k dalšímu obchodu. Nechávají umělou inteligenci procházet smlouvy, texty, konverzace nebo e-mailovou korespondenci se zákazníky a hledají v této historii indicie, kdo z minulých klientů může mít zájem o ten či onen druh produktu či služby. Typickým příkladem jsou společnosti zabývající se telemarketingem nebo telefonní operátoři. Ti si vytvářejí seznamy, na nichž figurují jména zákazníků, kterým brzy vyprší smlouva, nebo třeba dlouhodobých klientů, kteří mají nárok na určitou slevu nebo jiný benefit. A podstatné množství takových informací pochází právě z digitálních kopií původně fyzických dokumentů.

A také nás chrání

Současné právní podmínky, které jsou striktně definované evropskými regulemi GDPR, jasně určují, jak mají společnosti spravovat své citlivé dokumenty. Mluví se o nutnosti zaručit všeobecné standardy bezpečnosti, ale na druhou stranu se dobře ví, že stoprocentně vyloučit lidskou chybu možné není.

I tady se hlásí o slovo umělá inteligence. Automaticky analyzuje obsah dokumentů, a pokud zjistí, že obsahují citlivé osobní údaje nějakého druhu, katalogizuje je a uloží na bezpečnější místo. Takže zatímco k jiným datům mají uživatelé přístup z cloudu, citlivé dokumenty zabezpečí třeba na důvěryhodnější on-premise úložiště. Už jen touto zdánlivou maličkostí se pravděpodobnost úspěšného útoku nebo chyby zmenšuje.

Ještě důležitější je pak automatický dozor umělé inteligence. Moderní systémy pro správu dokumentů umějí nejenom sledovat změny v souborech a archivech, ale také podávají pravidelná hlášení. Z nich je patrné, kdo měl k jakému dokumentu přístup, z jaké IP adresy se připojil, co přesně s dokumentem dělal, jestli vytvořil kopii nebo se data snažil poslat ven z firemní sítě.

Chytré DMS také výrazně snižují redundanci dat. Tím výrazně usnadňují a zefektivňují práci s dokumenty, ale zároveň posilují jejich ochranu. Samočinně se starají o archivaci starších dat, zabraňují vytváření a ukládání mnoha kopií toho samého dokumentu, aktualizují uložené soubory a vedou si detailní záznamy o úpravách, takže není problém dohledat roky starou verzi od té doby stokrát upravené smlouvy. Velkým tématem posledních let v tomto oboru je také implementace funkcí pro rozeznávání falešných digitálních podpisů.

Správa dokumentů už jen chytře

Umělá inteligence se stala nepostradatelnou součástí systémů pro správu dokumentů, některé jejich funkce si bez její pomoci ani nedokážeme představit. Další vývoj technologie se v současnosti zaměřuje především na maximalizaci možností integrace DMS a jejich efektivnější prediktivní analytické schopnosti. Ani jedno není bez využití AI možné.

Vraťme se ale na úplný začátek, k oněm promarněným hodinám při manuální práci s dokumenty. Připomeňme si, šlo „jen“ o jedenáct hodin týdně. Podle propočtů expertů nám služby umělé inteligence jen za tento rok globálně ušetří na šest miliard hodin zbytečné administrativní práce. To je 250 milionů dní nebo 685 tisíc let. To už je docela slušná úspora času, který můžeme využít o poznání lépe.