信息抽取后的內容,被稱為結構化數據。
在銀行業務場景里,我們對關鍵信息的需求量遠遠超過了對于完整信息的需求。如果說OCR技術是對文檔進行數字化處理,那么基于自然語言處理的信息抽取是對數字化信息進行結構化處理,而只有結構化后的信息才可以使得數據產生價值。
易道博識推出智能結構化平臺
基于深度學習的自然語言處理技術,易道博識推出了智能結構化平臺,通過深度學習的方式,自動從海量的非結構化數字信息中抽取目標數據。該平臺的推出,一定程度上解決了銀行在OCR識別方面的需求比較旺盛,和后續針對每個新板式的OCR識別需求均需重新采購的問題。
智能結構化平臺使得行方后續針對板式相對固定的待識別憑證,可以通過已有的通用識別引擎和智能結構化平臺可以自主解決非結構化信息的提取工作,達到自主可控和節省成本的目的,解決行方新板式OCR識別需要從新采購及定制開發的工作。
直接拖拽票據上信息,即可完成結構化提取
一鍵部署,一鍵發布
在OCR識別流程中,原始圖像經過文本定位和文本識別,在確定了文本位置和文本內容之后,將識別內容通過智能結構化平臺進行數據結構化,若數據的模型評價通過,則可進行模型發布。
在易道博識智能結構化平臺中,會提前將訓練圖像通過OCR和標注,生成數據模型并集成模型庫,用于應對生產中的結構化提取。如果過程中出現異常數據,平臺會自動將數據抓取并修正,重新進行模型生成,完成一個內部閉環。并且根據閉環進行模板自行調整,不斷提升結構化水平。
這個部署過程,在業務人員視角下是“無感”的,,模板定制過程簡單、直觀,只要將需要提取的信息選出加入訓練即可,一個版式5-10分鐘可完成,即可實現一鍵部署。
此外,單個智能模板服務器可支持模板標注、構建、管理、部署功能,在統一的負載均衡器支持下,能夠進行水平擴展,因此,可以根據客戶的需求支持不同的并發量。
智能模板管理
在智能結構化平臺中,智能模板管理系統的主要功能是快速生成目標版式的結構化模板,為識別平臺提供結構化方法,并在本系統中存儲和管理這些模板。通過智能模板系統的可視化界面,可以定義模板的輸出字段,并進行必要的圖像標注工作,從而為智能模板算法提供元數據。
智能模板操作過程主要包含六個的步驟:
選擇/創建模板:選擇已有的模板或者創建一個新的模板。
定義模板輸出字段:為上一步創建的模板設置輸出字段。
標注樣本:為創建的模板增加圖像文件,并標注其中的數據,用于告訴程序哪個是想要的值。
構建模型:程序結合標注數據和樣本的識別結果,生成結構化模型。
測試模型:程序使用新生成的模型進行批量測試,借助新模型對樣本進行分類和結構化,進而生成測試報告。
發布模型:經過測試,模型效果良好則可以選擇發布到生產環境中進行正式使用。
步驟一:模塊配置界面
模塊配置界面可以增加/刪除模塊,也能為模塊增加/刪除版式。
一個模型下可以定義任意數量的模塊,單個模塊下又可以包含數個版式。需要特別說明的是,模型的概念相當于一個統一的接口,通過固定的接口滿足自己的識別需求。
模塊的概念相當于樣本的類別,如身份證、軍官證、結婚證、完稅證明、營業執照等。版式的概念相當于樣本類別下不同的樣式,如營業執照下有橫版格式和豎版格式。
步驟二:標注頁面
每一個版式都需要上傳樣本并標注,將需要提取的數據標記出來。
步驟三:模型構建-生成模型界面
所有樣本標注完成后,便可以生成模型。
步驟四:模型的部署和測試界面
模型構建完成后,可以部署該模型到識別平臺,并測試模型的效果。
智能結構化平臺用于訓練產生針對各種不同版式的OCR識別引擎,滿足銀行自動化、專業化、模塊化、高性能等業務及技術要求,支持身份證、銀行卡等固定版式的結構化,營業執照等多版式的結構化,銀行回單、長途客運票等非固定版式的結構化,支持銀行單據分類+識別等分類結構化。總而言之,可以支持銀行80%OCR識別需求的自研能力。
隨著產業信息化、數字化的土壤越發深厚,國內很多企業已經逐漸進入了電子化階段。2020年之后,企業需要做的是電子化到結構化階段的準備。但這個過程中,不同場景的技術仍然面臨不同的問題,新的數字化技術趨勢也在不斷迭代。
總得來說,從非電子化到電子化、從電子化到結構化的轉型,其實就是從獲取數據、理解數據到運用數據的過程。