日前,由江蘇省支付清算服務(wù)協(xié)會、山東省支付清算協(xié)會支持的2022金融科技創(chuàng)新發(fā)展論壇在遵義成功召開。易道博識CTO康鐵鋼先生受邀參會,與來自銀行、保險、證券等行業(yè)的100余位行業(yè)專家,分享以數(shù)據(jù)驅(qū)動模型,可訓(xùn)練、可現(xiàn)場應(yīng)用的賽博深度學(xué)習(xí)平臺在行業(yè)中的應(yīng)用創(chuàng)新。
行業(yè)痛點(diǎn)繁多,長尾憑證痛點(diǎn)難除
隨著金融業(yè)務(wù)的發(fā)展,越來越多的業(yè)務(wù)線中涉及的紙質(zhì)憑證影像需要用到OCR自動處理,來進(jìn)一步提升業(yè)務(wù)辦理的效率。從企業(yè)內(nèi)部的數(shù)據(jù)類型來看,這些憑證影像按照格式可以分為兩類:一類是固定格式的憑證(戶口本、港澳臺身份證、外國人永久居留證等),占整體90%以上;一類是非固定格式的憑證(銀行流水等)。這些憑證存在以下特點(diǎn):
1、種類多:行內(nèi)在各個業(yè)務(wù)受理過程中涉及到的憑證都在百種以上,甚至多達(dá)幾百種;
2、更新頻繁:不少憑證會隨著業(yè)務(wù)需求或者監(jiān)管制度的變化而調(diào)整格式;
3、長尾憑證“雞肋”:存在很多使用頻率低,但總體數(shù)量大的憑證,這些憑證單獨(dú)采購識別的價值不大但又無法解決;
4、數(shù)據(jù)安全:大多數(shù)情況下,隱私數(shù)據(jù)是無法對外的,如何在這種情況下做模型訓(xùn)練是客觀需要面對的問題;
基于此類特點(diǎn),對憑證的OCR識別工作就特別復(fù)雜。目前針對與此的解決方案都各有缺陷:要么持續(xù)投入高,需要廠商就每一種憑證進(jìn)行定制化開發(fā),要么需要采購廠商底層能力,而且需要OCR專家團(tuán)隊(duì)的支持,投入成本更高。因此,行業(yè)迫切需要一個能夠減少后續(xù)投入,自主可控的解決方案。
自我數(shù)據(jù)閉環(huán),賽博自成有機(jī)整體
賽博學(xué)習(xí)平臺是易道博識基于深度學(xué)習(xí)自主研發(fā)的一站式機(jī)器學(xué)習(xí)訓(xùn)練平臺。賽博平臺集數(shù)據(jù)管理、數(shù)據(jù)標(biāo)注、模型訓(xùn)練和模型應(yīng)用于一身,提供及時、現(xiàn)場化的數(shù)據(jù)驅(qū)動模型應(yīng)用解決方案。
論壇上,易道博識CTO康鐵鋼介紹道:“賽博平臺充分利用了現(xiàn)有的經(jīng)過長期迭代的基礎(chǔ)模型能力,包括圖像、OCR和NLP等,在少量樣本的驅(qū)動下,利用遷移學(xué)習(xí)和小樣本學(xué)習(xí)等技術(shù),高效地完成增量模型的訓(xùn)練,生成最優(yōu)的模型文件,并通過推理平臺來實(shí)現(xiàn)模型的快速部署與生產(chǎn)應(yīng)用。”
產(chǎn)品組成上,賽博平臺由管理中心CyberCenter、數(shù)據(jù)標(biāo)注平臺 CyberData、深度學(xué)習(xí)訓(xùn)練平臺 CyberLearning和深度學(xué)習(xí)推理平臺 CyberServing幾個子平臺組成,各子平臺依次承擔(dān)平臺管理、數(shù)據(jù)管理與標(biāo)注、模型訓(xùn)練和模型服務(wù)的功能,各個子平臺之間相互獨(dú)立又有效配合,形成一個有機(jī)整體,從而有效支撐數(shù)據(jù)驅(qū)動模型應(yīng)用的整體功能。
數(shù)據(jù)標(biāo)注平臺 CyberData
數(shù)據(jù)平臺主要功能包括數(shù)據(jù)管理、數(shù)據(jù)處理、樣本擴(kuò)充、數(shù)據(jù)標(biāo)注與采集。數(shù)據(jù)平臺內(nèi)置exLabeler標(biāo)注客戶端,提供強(qiáng)大專業(yè)的CV、OCR、結(jié)構(gòu)化和NLP任務(wù)標(biāo)注功能。同時,數(shù)據(jù)平臺還支持單人和團(tuán)隊(duì)標(biāo)注模式。
用戶可以通過exLabeler客戶端完成樣本的標(biāo)注。exLabeler支持CV、OCR、結(jié)構(gòu)化和NLP等領(lǐng)域算法的標(biāo)注。標(biāo)注完成的數(shù)據(jù)集可以直接用于模型訓(xùn)練,或進(jìn)一步做后處理(如圖像處理、樣本擴(kuò)充等),然后再用于模型訓(xùn)練。
數(shù)據(jù)標(biāo)注平臺 CyberData工作流程
深度學(xué)習(xí)訓(xùn)練平臺 CyberLearning
訓(xùn)練平臺通過自身對于訓(xùn)練資源池的集中管理與分配,以及與管理平臺的無縫對接,可以方便地實(shí)現(xiàn)訓(xùn)練基礎(chǔ)設(shè)施的管理,從而減輕用戶的管理維護(hù)工作。同時,利用自動超參搜索等技術(shù),訓(xùn)練平臺可以自動搜索到最佳性能的模型。
通過分布式訓(xùn)練與多框架支持,訓(xùn)練平臺可以最大化利用計(jì)算資源,加速模型訓(xùn)練。同時,利用自動超參搜索等技術(shù),訓(xùn)練平臺可以自動搜索到最佳性能的模型。最后,對于訓(xùn)練所得的最優(yōu)模型,訓(xùn)練平臺支持一鍵部署到推理平臺,實(shí)現(xiàn)模型的快速應(yīng)用。
深度學(xué)習(xí)訓(xùn)練平臺 CyberLearning工作流程
深度學(xué)習(xí)推理平臺 CyberServing
推理平臺主要完成各種識別功能的部署。業(yè)務(wù)系統(tǒng)通過調(diào)用推理平臺提供的RESTful API提交圖像并獲得識別結(jié)果。整體上講,推理平臺產(chǎn)品需求可分解為模型管理、API過程定義、識別數(shù)據(jù)查看,接口統(tǒng)計(jì)和其它非功能項(xiàng)等部分。其中模型管理和API管理模塊屬于基礎(chǔ)核心模塊。
推理平臺對同一模型不同版本的管理,并支持在模型服務(wù)中同時加載和運(yùn)行多個版本的模型。推理平臺還支持一個API綁定多個模型服務(wù)。模型升級時,用戶可以選擇先在部分服務(wù)中激活新版本的模型,完成測試驗(yàn)證后再升級其他服務(wù)。
深度學(xué)習(xí)推理平臺 CyberServing工作流程
值得一提的是,賽博平臺打造了數(shù)據(jù)驅(qū)動模型應(yīng)用的閉環(huán)。推理平臺支持對于自身所產(chǎn)生的生產(chǎn)數(shù)據(jù)根據(jù)不同的條件進(jìn)行自動采集的功能,采集后的數(shù)據(jù)可以方便地導(dǎo)入標(biāo)注平臺,形成數(shù)據(jù)集,并支持進(jìn)一步的數(shù)據(jù)處理與標(biāo)注。標(biāo)注完成的數(shù)據(jù)集可以用于模型的訓(xùn)練調(diào)優(yōu),從而得到性能更佳的模型,用于更新推理平臺生產(chǎn)模型,從而形成一個完整的數(shù)據(jù)閉環(huán)。
《國民經(jīng)濟(jì)和社會發(fā)展第十四個五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》提出加快數(shù)字化發(fā)展,人民銀行《金融科技發(fā)展規(guī)劃(2022-2025)》中明確了“十四五”期間行業(yè)金融科技發(fā)展、數(shù)字化轉(zhuǎn)型目標(biāo),要從治理體系、業(yè)務(wù)創(chuàng)新、技術(shù)和數(shù)據(jù)能力建設(shè)、風(fēng)險防范等多維度提出重點(diǎn)任務(wù),推動行業(yè)數(shù)字化轉(zhuǎn)型落地實(shí)施。
如今,AI產(chǎn)業(yè)正逐步進(jìn)入低技術(shù)門檻、低部署成本、各產(chǎn)業(yè)深度參與雙向共建的效率化生產(chǎn)階段。而作為支撐AI模型開發(fā)及落地的資源型平臺,賽博平臺可在多方面提升AI技術(shù)的價值釋放。從總體上看,賽博平臺可提供較為前沿的技術(shù)、符合業(yè)務(wù)場景的模型生產(chǎn)經(jīng)驗(yàn)以及打包的數(shù)據(jù)與算法資源。
“具體而言,一方面,賽博平臺一定程度上解決了規(guī)模化多場景的業(yè)務(wù)不斷衍生出的長尾需求。另一方面,平臺采用自動機(jī)器學(xué)習(xí)技術(shù),很大程度上降低了機(jī)器學(xué)習(xí)的編程工作量、節(jié)約了AI 開發(fā)時間、減輕了對專業(yè)數(shù)據(jù)科學(xué)家與算法工程師的依賴,讓缺乏機(jī)器學(xué)習(xí)經(jīng)驗(yàn)的開發(fā)者用上AI,加快了開發(fā)效率”。
“我們通過產(chǎn)品和服務(wù)來獲得行業(yè)認(rèn)可。我們認(rèn)真服務(wù)每一個客戶,認(rèn)真解決客戶問題。”康鐵鋼說道:“我們會專注于人工智能領(lǐng)域,致力于人工智能領(lǐng)域的理論研究與應(yīng)用開發(fā),不斷創(chuàng)新,為企業(yè)降本增效,通過人工智能提升社會的運(yùn)行效率。”