智能文檔處理(IDP)是利用人工智能技術(shù),自動從復(fù)雜的非結(jié)構(gòu)化和半結(jié)構(gòu)化文檔中抽取關(guān)鍵數(shù)據(jù),并將其轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)的技術(shù)。IDP又稱為認知數(shù)據(jù)處理(Cognitive Data Processing)或智能數(shù)據(jù)捕獲(Intelligent Data Capturing)技術(shù)。眾所周知,商業(yè)數(shù)據(jù)是企業(yè)數(shù)字化轉(zhuǎn)型的核心。然而,現(xiàn)實中80%的商業(yè)數(shù)據(jù)都是非結(jié)構(gòu)化格式,比如郵件、圖片和各種企業(yè)文檔,其中非結(jié)構(gòu)化文檔占據(jù)了絕大多數(shù)。據(jù)統(tǒng)計,到2025年,全球企業(yè)數(shù)據(jù)總量將達到175ZB。借助于IDP技術(shù),企業(yè)能夠?qū)崿F(xiàn)文檔自動化處理、文檔語義理解、智能審核和數(shù)據(jù)智能分析等方面的功能,提升企業(yè)用戶文檔處理的效率和質(zhì)量,為企業(yè)降本增效。從文檔的結(jié)構(gòu)特點上,我們可以將現(xiàn)實世界的文檔劃分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三種類型。對應(yīng)到版式特征上,分別是固定版式、多版式和開放版式三種類型。結(jié)構(gòu)化文檔具有版式固定的特點,同一類型不同樣本之間沒有差異,如固定版式的信息采集表、申請文件等。半結(jié)構(gòu)化文檔版式相對固定,或稱為多版式文檔,同一類型不同樣本之間關(guān)鍵內(nèi)容相同,但是往往內(nèi)容出現(xiàn)的位置卻不同,如不同供應(yīng)商采購的送貨單,每個供應(yīng)商都不同,但是其關(guān)鍵內(nèi)容都包含訂單號、商品信息等。非結(jié)構(gòu)化文檔又稱為開放版式文檔,通常沒有顯著的版式特征,幾乎是純文本表達,雖然表達的內(nèi)容相同,但是表達方式卻差異很大。常見的如合同、簡歷、招標文件等。對于結(jié)構(gòu)化和半結(jié)構(gòu)化文檔,由于版式相對固定,當前行業(yè)內(nèi)普遍的做法是通過模板或深度學習模型的方法,完成分類和信息抽取等自動化處理,已經(jīng)能夠解決大多數(shù)應(yīng)用場景的問題。但是,開放版式文檔,由于其天然的諸多難點,給智能文檔處理帶來了很大的困難。如下表,是我們歸納的開放版式文檔處理的主要難點。
表1 開放版式文檔特點
如表1,相比于純文本或固定和多版式文檔,開放版式文檔處理具有諸多難點。因此,智能文檔處理過程必須綜合應(yīng)用計算機視覺(CV)、光學字符處理(OCR)、文檔解析、自然語言處理(NLP)和文檔信息抽取等關(guān)鍵技術(shù),才能更好地實現(xiàn)自動化和智能化處理。計算機視覺(CV)技術(shù)
CV技術(shù)主要是對于文檔圖像進行各種圖像處理,常見如圖像去噪聲、去干擾、圖像增強、圖像壓縮、圖像分割等。其處理目的主要是為后續(xù)OCR環(huán)節(jié)提供高質(zhì)量的圖像輸入,以提升OCR的性能。同時,利用圖像檢測和分割等技術(shù),可以實現(xiàn)文檔物理版面解析。
OCR是將紙質(zhì)文檔、圖片等非數(shù)字化文件中的文字內(nèi)容轉(zhuǎn)換為數(shù)字化格式的技術(shù)。當前主流實現(xiàn)上,借助表格識別、印章識別、勾選和二維碼識別等技術(shù),在OCR環(huán)節(jié)可以實現(xiàn)圖像中所有通用對象(文字、表格、印章、勾選、二維碼、簽名等)的統(tǒng)一識別和輸出,作為后續(xù)智能化文檔處理環(huán)節(jié)的輸入。
文檔解析是在文檔協(xié)議解析或OCR處理的結(jié)果上,通過版面分析、表格解析等技術(shù),實現(xiàn)文檔物理和邏輯結(jié)構(gòu)的解析,得到文檔內(nèi)容的統(tǒng)一表示。以此作為進一步文檔分類、信息抽取和文檔比對等處理的輸入。IDP通常需要能夠支持所有格式的文檔輸入,包括圖片、PDF、Word、OFD等,因此,文檔解析環(huán)節(jié)需要能夠解析以上各種格式的輸入文件,將其轉(zhuǎn)換成統(tǒng)一的表示形式,如JSON文件。
NLP是一種利用計算機技術(shù)對自然語言進行分析和處理的技術(shù),常見的NLP任務(wù)包括分詞、詞性標注、句法分析、語義分析、文本分類、信息抽取、文檔摘要、情感分析等。IDP中主要使用的NLP技術(shù)包括文本分類、文本信息抽取、語義理解等。通常的做法是將OCR輸出或文檔協(xié)議解析后的所有文本塊進行拼接,得到文本序列,再通過文本分類、信息抽取等技術(shù),實現(xiàn)文檔的分類和信息抽取。另外,通過NLP技術(shù),也可以對文檔進行自動摘要、情感分析和智能問答等處理。
相比于純文本,文檔的最大特點是其富格式特點。因此,文檔中信息抽取必須依賴于版面位置等視覺特征,比如從文檔中的圖表或表格中抽取信息,或者從特定版面位置區(qū)域的結(jié)構(gòu)化信息塊中抽取信息。相比于簡單地從大段文本序列中做信息抽取,文檔信息抽取技術(shù)難度更大。
圖1 智能文檔處理流程
該步驟主要針對Word、PDF等文檔協(xié)議進行解析處理。
通過通用OCR識別模型,對輸入的文檔圖像上的文字、印章、簽名、表格等通用要素進行識別,得到文本和位置,以及表格結(jié)構(gòu)化數(shù)據(jù)。
利用版面分析技術(shù),定位出文檔圖像上所有的標題、段落、表格、圖表、頁眉、頁腳等版面信息。再利用標題和段落等信息,做文檔邏輯結(jié)構(gòu)分析,得到文檔結(jié)構(gòu)。
基于版面和目錄分析的結(jié)果,結(jié)合文檔協(xié)議解析或OCR的結(jié)果,利用自然語言處理等技術(shù),進行文檔關(guān)鍵信息抽取。
利用預(yù)設(shè)的規(guī)則,對抽取出的信息進行校驗,包括數(shù)據(jù)格式檢查、預(yù)設(shè)的審閱規(guī)則檢查等。
通過智能文檔處理技術(shù),可以對大量文檔進行分類和標簽化,從而實現(xiàn)文檔的快速檢索、內(nèi)容推薦和歸檔處理等功能。
智能文檔處理可以幫助從文檔中抽取關(guān)鍵信息,如關(guān)鍵的短語、實體、事件等。這些信息在知識圖譜構(gòu)建、智能搜索、智能比對、智能問答等應(yīng)用場景中具有重要的價值。
利用智能文檔處理技術(shù),可以對文檔進行自動摘要,生成簡潔、精煉的摘要內(nèi)容。此外,還可以根據(jù)用戶輸入的關(guān)鍵詞或短語生成特定主題的文章,以滿足用戶需求。
通過智能文檔處理技術(shù),可以構(gòu)建智能問答系統(tǒng),為用戶提供及時準確的文檔內(nèi)容信息。未來隨著大模型等人工智能技術(shù)的不斷發(fā)展,智能文檔處理將會在各個行業(yè)的應(yīng)用場景中不斷普及化。賽博智能學習平臺定位于一體化機器學習訓練平臺,集成了對于結(jié)構(gòu)化和非結(jié)構(gòu)文檔的智能化處理功能,包括智能文檔分類、文檔解析和文檔信息抽取等。能夠支持合同、法律文書、招投標文件等各種開放版式長文檔的智能化處理。基于平臺自定義模板和自訓練模型能力,通過現(xiàn)場模板定制、模型標注訓練的方式,能夠形成即時可用的文檔AI能力。如下圖,是賽博智能學習平臺智能文檔處理的基本流程。
圖2 賽博智能學習平臺智能文檔處理流程
未來,易道博識將繼續(xù)針對金融、能源、通信等行業(yè)客戶,在業(yè)務(wù)運營、審核和監(jiān)督管理、信息檢索和風險管理等場景下,圍繞數(shù)字化、自動化和智能化需求,依托賽博智能學習平臺,為企業(yè)打造強大AI底座,助力企業(yè)建設(shè)基于AI模型全生命周期的標準化、一體化生產(chǎn)運營體系。賽博智能學習平臺以私有化部署、現(xiàn)場訓練的形式滿足客戶對數(shù)據(jù)安全要求,通過與業(yè)務(wù)系統(tǒng)深度融合,滿足各業(yè)務(wù)場景在圖像處理、OCR、智能文檔處理和NLP等方向需求。賽博智能學習平臺持續(xù)將AI大模型等前沿技術(shù)與行業(yè)數(shù)據(jù)深度結(jié)合,在技術(shù)與業(yè)務(wù)場景之間搭橋鋪路,讓AI技術(shù)快速在場景中落地,在應(yīng)用場景中產(chǎn)生價值,帶動產(chǎn)業(yè)發(fā)展和升級。