亚洲日韩精品a∨片无码加勒比-日产精品久久久一区二区-久久久久人妻精品一区蜜桃-又大又粗又爽a级毛片免费看-国产三级av在线播放

首頁(yè)
核心技術(shù)
產(chǎn)品體系
解決方案
動(dòng)態(tài)資訊
關(guān)于我們
搜索

大模型技術(shù)在智能文檔處理中的應(yīng)用(上篇)

來源:易道博識(shí) 發(fā)布時(shí)間:2023-06-15



ChatGPT爆火,大語言模型技術(shù)廣受關(guān)注
ChatGPT是OpenAI公司基于大型預(yù)訓(xùn)練語言模型(Large Language Models, LLM) GPT-3.5發(fā)布的智能聊天機(jī)器人,因其驚艷的語義理解、智能會(huì)話和文本生成能力,獲得了全球1億月活用戶的熱情追捧。ChatGPT可以從海量未標(biāo)注數(shù)據(jù)集中獲得的信息,自動(dòng)識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成內(nèi)容。3月15日,OpenAI又發(fā)布了GPT-4多模態(tài)大模型,該模型能夠支持文本和圖像輸入,與 GPT-3.5相比,其回答準(zhǔn)確度、文字輸入長(zhǎng)度等各方面性能均有顯著提升。
ChatGPT的問世,開啟了新一輪的技術(shù)浪潮,標(biāo)志著人工智能技術(shù)發(fā)展正式進(jìn)入了大模型時(shí)代。模型的背后其實(shí)是“知識(shí)”。未來,“模型”將無處不在,人工智能與行業(yè)應(yīng)用的結(jié)合會(huì)更加緊密,以模型驅(qū)動(dòng)的發(fā)展范式變革正在快速形成,整個(gè)人工智能行業(yè)的生態(tài)會(huì)愈發(fā)完整。
可以看出,ChatGPT驚艷效果本質(zhì)上來自于其背后的大語言模型技術(shù)。那么,究竟什么是大語言模型?大語言模型是一種基于深度學(xué)習(xí)算法的自然語言處理技術(shù),旨在讓計(jì)算機(jī)能夠理解和生成自然語言文本。大語言模型的訓(xùn)練通常需要海量的文本數(shù)據(jù)(如維基百科、新聞文章、社交媒體等)和強(qiáng)大的計(jì)算資源。在訓(xùn)練過程中,大語言模型會(huì)通過學(xué)習(xí)這些數(shù)據(jù)中的模式和規(guī)律來調(diào)整自己的權(quán)重和參數(shù),從而提高自身對(duì)語言的理解和生成能力。大語言模型的應(yīng)用非常廣泛,如語言翻譯、問答系統(tǒng)、語音識(shí)別和文本生成等。

智能文檔處理難點(diǎn)解析
智能文檔處理(IDP,Intelligent Document Processing)是利用人工智能技術(shù),自動(dòng)從復(fù)雜的非結(jié)構(gòu)化和半結(jié)構(gòu)化文檔中抽取關(guān)鍵數(shù)據(jù),并將其轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)的技術(shù)。常見的文檔包括純文本、帶格式文檔和富格式文檔三種類型,如下圖示例。

圖1:常見文檔類型

  • 純文本

由大段純文字組成,內(nèi)容形式比較單一。通常利用自然語言處理技術(shù),即可以完成語義理解和分析處理工作。
  • 帶格式文檔

如Word等帶有格式的文檔,其主要特點(diǎn)是包含有結(jié)構(gòu)化的信息,可以直接解析出文檔的物理元素和邏輯結(jié)構(gòu),進(jìn)而轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。

  • 富格式文檔
相較于純文本和帶格式文檔,富格式文檔更加復(fù)雜,除了各種形式的文本信息外,還包含有豐富的多模態(tài)元素,如表格和圖片。富格式文檔具有如下幾個(gè)方面的特點(diǎn):
· 多樣性
富格式文檔的多樣性主要體現(xiàn)在格式、種類、內(nèi)容和版式等維度。常見的格式有拍照?qǐng)D像、掃描件、可解析格式(如PDF)等,版式包括有固定、多版式和開放版式等類型。
· 多模態(tài)信息豐富性
富格式文檔包含有豐富的元素信息,如文字、標(biāo)題、段落、表格、圖表、印章、簽名、頁(yè)眉和頁(yè)腳。
· 領(lǐng)域差異性
不同領(lǐng)域的文檔通常在種類、版式、語料和表達(dá)方式方面差異很大,如金融、地產(chǎn)、教育和醫(yī)療等,實(shí)際中存在著大量領(lǐng)域特定文檔。
· 長(zhǎng)短不一致性
從單張圖片、單頁(yè)文檔到幾十上百頁(yè)的長(zhǎng)文檔,文檔的長(zhǎng)度通常跨度很大。
以上富格式文檔特點(diǎn),增加了通用IDP系統(tǒng)的處理難度。
關(guān)于更詳細(xì)的智能文檔處理難點(diǎn)介紹,請(qǐng)參見《淺談智能文檔處理技術(shù)和應(yīng)用》文章。

在線留言