數(shù)字信息時(shí)代,數(shù)據(jù)對經(jīng)濟(jì)建設(shè)、社會(huì)生活和企業(yè)管理等產(chǎn)生了重要影響。根據(jù)高德納(Gartner)公司分析,企業(yè)近80%的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)。隨著數(shù)據(jù)爆炸式增長,非結(jié)構(gòu)化數(shù)據(jù)將成為數(shù)據(jù)增長主力。實(shí)施非結(jié)構(gòu)化數(shù)據(jù)治理、提升數(shù)據(jù)質(zhì)量、挖掘數(shù)據(jù)價(jià)值是企業(yè)邁入數(shù)字化時(shí)代的關(guān)鍵。對電網(wǎng)企業(yè)而言,海量智能終端所生成的文檔、圖像、語音、視頻等非結(jié)構(gòu)化數(shù)據(jù)量已達(dá)到PB級。加強(qiáng)非結(jié)構(gòu)化數(shù)據(jù)治理,實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)解析與價(jià)值挖掘,對電網(wǎng)企業(yè)發(fā)展具有重要的意義。
何為非結(jié)構(gòu)化數(shù)據(jù)及數(shù)據(jù)治理
非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義模型的數(shù)據(jù)。在企業(yè)的整體數(shù)據(jù)架構(gòu)中,非結(jié)構(gòu)化數(shù)據(jù)往往是指不適用于數(shù)據(jù)庫二維關(guān)系邏輯表表達(dá)的數(shù)據(jù),包括所有格式辦公文檔、工程圖紙、圖像和音視頻文件等。在國家電網(wǎng)有限公司數(shù)據(jù)資產(chǎn)中,非結(jié)構(gòu)化數(shù)據(jù)包括由地理信息系統(tǒng)、95598客服系統(tǒng)、項(xiàng)目管理系統(tǒng)、電子商務(wù)平臺(tái)等產(chǎn)生的地理信息數(shù)據(jù)、客服語音、項(xiàng)目資料、物資采購信息等數(shù)據(jù)。
數(shù)據(jù)治理是指在管理數(shù)據(jù)資產(chǎn)過程中行使權(quán)力,包括計(jì)劃、監(jiān)控和實(shí)施三個(gè)步驟。數(shù)據(jù)治理聚焦如何制訂有關(guān)數(shù)據(jù)的決策、人員在數(shù)據(jù)管理方面的行為方式,確保根據(jù)數(shù)據(jù)管理制度和最佳實(shí)踐正確地管理數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)治理統(tǒng)籌和協(xié)調(diào)非結(jié)構(gòu)化數(shù)據(jù)各項(xiàng)管理工作有序開展,核心要素體現(xiàn)在組織、制度、文化和考核四個(gè)方面,這些是開展非結(jié)構(gòu)化數(shù)據(jù)管理工作的關(guān)鍵。
電網(wǎng)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)治理的前景和挑戰(zhàn)
公司于2019年開展數(shù)據(jù)中臺(tái)建設(shè),2022年數(shù)據(jù)中臺(tái)邁入深化運(yùn)營階段,非結(jié)構(gòu)化數(shù)據(jù)通過非結(jié)構(gòu)化組件基本實(shí)現(xiàn)了集中存儲(chǔ),滿足基于文檔全周期的存、取、用需求。電網(wǎng)企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)貫穿于發(fā)電、輸電、變電、配電、用電和調(diào)度所有環(huán)節(jié),也幾乎存在于企業(yè)經(jīng)營管理的所有業(yè)務(wù)應(yīng)用當(dāng)中。隨著人工智能等信息處理技術(shù)發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)管理的內(nèi)涵及外延都在發(fā)生深刻變化,有必要重新審視當(dāng)前企業(yè)非結(jié)構(gòu)化數(shù)據(jù)管理現(xiàn)狀,規(guī)劃新時(shí)期非結(jié)構(gòu)化數(shù)據(jù)管理體系及實(shí)施路徑。電網(wǎng)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)治理工作主要面臨著以下挑戰(zhàn):
存在信息孤島。電網(wǎng)企業(yè)在日常經(jīng)營管理和業(yè)務(wù)管理過程中使用功能各異的應(yīng)用系統(tǒng)或信息化管理平臺(tái),產(chǎn)生各種非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)具有來源多、格式多、涉及專業(yè)多等特點(diǎn),這一方面是由于信息系統(tǒng)的建設(shè)具有階段性,另一方面是由于各個(gè)系統(tǒng)自成體系,導(dǎo)致系統(tǒng)之間的數(shù)據(jù)呈現(xiàn)孤立狀態(tài),數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,缺少數(shù)據(jù)貫通接口。
管控體系不完善。電網(wǎng)企業(yè)部分系統(tǒng)之間實(shí)現(xiàn)了文件之間的流轉(zhuǎn),但是非結(jié)構(gòu)化數(shù)據(jù)管理方法和制度仍然不夠完善,如部分文件在各個(gè)系統(tǒng)內(nèi)歸檔管理、流轉(zhuǎn)主要基于數(shù)據(jù)導(dǎo)出方式,難以進(jìn)行統(tǒng)一檢索和共享利用。
存在數(shù)據(jù)黑盒。當(dāng)前電網(wǎng)企業(yè)文檔管理制度并非建立在徹底理清數(shù)據(jù)的基礎(chǔ)上。非結(jié)構(gòu)化數(shù)據(jù)缺少必要的分類和元數(shù)據(jù)項(xiàng),缺乏清晰和規(guī)范的管理流程和要求,數(shù)據(jù)量和數(shù)據(jù)內(nèi)容難以掌握,影響非結(jié)構(gòu)化數(shù)據(jù)價(jià)值發(fā)揮。
電網(wǎng)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)治理工作探索與實(shí)踐
國網(wǎng)大數(shù)據(jù)中心遵循公司數(shù)據(jù)發(fā)展戰(zhàn)略,以充分發(fā)揮數(shù)據(jù)作用、驅(qū)動(dòng)企業(yè)數(shù)字化轉(zhuǎn)型為目標(biāo),按照“基于中臺(tái)、統(tǒng)籌推進(jìn)、統(tǒng)一納管、安全共享”的工作原則,把核心非結(jié)構(gòu)化數(shù)據(jù)資源匯聚至數(shù)據(jù)中臺(tái),形成全生命周期和全業(yè)務(wù)系統(tǒng)端到端非結(jié)構(gòu)化數(shù)據(jù)治理思路,建立從非結(jié)構(gòu)化元數(shù)據(jù)體系研究與數(shù)據(jù)資源目錄構(gòu)建到非結(jié)構(gòu)化數(shù)據(jù)協(xié)同治理的工作模式,推動(dòng)中臺(tái)非結(jié)構(gòu)化數(shù)據(jù)質(zhì)量提高,為業(yè)務(wù)工作賦能。
非結(jié)構(gòu)化數(shù)據(jù)的全生命周期管理包括非結(jié)構(gòu)化數(shù)據(jù)采集、傳輸、存儲(chǔ)、交換等各個(gè)環(huán)節(jié)的數(shù)據(jù)集整體管理,以及各個(gè)數(shù)據(jù)項(xiàng)處理方法。
基于數(shù)據(jù)中臺(tái)開展非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一存儲(chǔ)。基于數(shù)據(jù)中臺(tái)非結(jié)構(gòu)化組件集中存儲(chǔ)和管理所有接入業(yè)務(wù)應(yīng)用系統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)。將非結(jié)構(gòu)化存儲(chǔ)空間劃分為存儲(chǔ)區(qū)和共享區(qū),其中存儲(chǔ)區(qū)用于接入、存儲(chǔ)源業(yè)務(wù)系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù),相關(guān)數(shù)據(jù)滿足各專業(yè)系統(tǒng)對本系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)全生命周期的存、取、用需求。共享區(qū)匯聚具有高共享價(jià)值的非結(jié)構(gòu)化數(shù)據(jù),相關(guān)數(shù)據(jù)經(jīng)數(shù)據(jù)盤點(diǎn)、業(yè)務(wù)部門確認(rèn),用于跨專業(yè)跨系統(tǒng)數(shù)據(jù)共享和構(gòu)建數(shù)據(jù)服務(wù),并在數(shù)據(jù)資源目錄可視可查。
建立元數(shù)據(jù)管理體系。將非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)分為基礎(chǔ)元數(shù)據(jù)和增強(qiáng)元數(shù)據(jù),梳理形成非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)體系。其中基礎(chǔ)元數(shù)據(jù)參考國家標(biāo)準(zhǔn)《信息與文獻(xiàn)都柏林核心元數(shù)據(jù)元素集》(GB/T25100-2010),實(shí)現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)對象的規(guī)范定義,如標(biāo)題、來源、摘要等。增強(qiáng)元數(shù)據(jù)依據(jù)應(yīng)用業(yè)務(wù)需求進(jìn)行設(shè)計(jì),包含源端系統(tǒng)業(yè)務(wù)元數(shù)據(jù)、管理元數(shù)據(jù)及操作元數(shù)據(jù)。采用統(tǒng)分統(tǒng)管原則,基礎(chǔ)元數(shù)據(jù)統(tǒng)一管理,增強(qiáng)元數(shù)據(jù)按需設(shè)計(jì),形成一套完整的元數(shù)據(jù)管理體系。
打造中臺(tái)非結(jié)構(gòu)化數(shù)據(jù)共享區(qū),實(shí)現(xiàn)文件流轉(zhuǎn)與共享。新建應(yīng)用系統(tǒng)基于數(shù)據(jù)中臺(tái)建設(shè),存量業(yè)務(wù)應(yīng)用系統(tǒng)逐步按需將非結(jié)構(gòu)化數(shù)據(jù)遷移至數(shù)據(jù)中臺(tái),基于數(shù)據(jù)中臺(tái)非結(jié)構(gòu)化組件,統(tǒng)籌不同應(yīng)用系統(tǒng)的文件在數(shù)據(jù)中臺(tái)流轉(zhuǎn)與共享。通過數(shù)據(jù)中臺(tái)構(gòu)建文件智能分析能力,使各使用方可以快速檢索并在不同應(yīng)用系統(tǒng)之間傳遞所需文件,保證文件的準(zhǔn)確性、一致性、及時(shí)性、安全性等,支撐非結(jié)構(gòu)化數(shù)據(jù)在不同專業(yè)之間、端到端有序高效地傳遞和交互。
開展質(zhì)量管理。依據(jù)數(shù)據(jù)在生命周期各個(gè)階段的特性,建立數(shù)據(jù)質(zhì)量控制機(jī)制,及時(shí)發(fā)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)質(zhì)量問題,提升數(shù)據(jù)可用性。數(shù)據(jù)使用方在使用過程中提出數(shù)據(jù)質(zhì)量需求或數(shù)據(jù)質(zhì)量問題,協(xié)同數(shù)據(jù)管理方、數(shù)據(jù)提供方進(jìn)行數(shù)據(jù)質(zhì)量治理,開展非結(jié)構(gòu)化數(shù)據(jù)治理流程管控,實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)治理閉環(huán)管理。
建立常態(tài)運(yùn)營機(jī)制,建設(shè)多元化應(yīng)用樣板間。完善非結(jié)構(gòu)化數(shù)據(jù)運(yùn)營機(jī)制,常態(tài)開展非結(jié)構(gòu)化數(shù)據(jù)需求受理、解決方案制訂、數(shù)據(jù)接入、數(shù)據(jù)溯源、數(shù)據(jù)共享等工作。專項(xiàng)推進(jìn)建設(shè)多元化應(yīng)用樣板間,聚焦制度標(biāo)準(zhǔn)管理體系開展數(shù)字化賦能建設(shè),擴(kuò)大技術(shù)資料、標(biāo)準(zhǔn)制度等公開數(shù)據(jù)接入范圍,滿足基層用戶查數(shù)據(jù)、用數(shù)據(jù)需求;圍繞項(xiàng)目中臺(tái)智能化提升工作,構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)提取功能和專題檢索服務(wù),輔助項(xiàng)目過程材料智能審查,改變現(xiàn)有線下傳遞、低效審閱的局面。
(作者單位:國家電網(wǎng)有限公司大數(shù)據(jù)中心)
評論