圍繞人工智能規(guī)?;瘧脴颖拘枨?,國家電網有限公司大數據中心初步建成具備樣本清洗、分類、標注、質檢等能力的人工智能樣本庫——
近期,國家電網有限公司大數據中心設計中心(人工智能樣本中心)技術攻關團隊隊員正依托公司級人工智能樣本庫,針對公司總部及各省級電力公司人工智能模型訓練需求,開展樣本歸集、治理、共享全流程研發(fā),為各專業(yè)人工智能模型研發(fā)及上線提供樣本支撐。
公司于2023年啟動人工智能規(guī)?;瘧脤m椆ぷ?。樣本是人工智能應用的基礎資源,樣本規(guī)模和質量是影響人工智能模型應用效果的關鍵因素。高質量樣本有助于提升人工智能模型精度和普適度,縮短模型訓練周期。
圍繞人工智能模型驗證、訓練和規(guī)?;瘧脴颖拘枨?,國網大數據中心構建了覆蓋公司各專業(yè)領域的樣本資源體系,以專項歸集、定向歸集等方式開展全量樣本歸集等工作。
作業(yè)現場典型違章行為識別場景是人工智能技術在安監(jiān)專業(yè)的重要應用場景。“我們此前在應用識別場景時發(fā)現,現有模型識別準確率較低,容易出現誤告警、漏告警等問題。技術人員分析認為,主要是高質量樣本不足、樣本標注缺乏統(tǒng)一規(guī)范導致訓練的模型精度不高,影響了應用成效。”福建福州供電公司作業(yè)安全督查員李冰鑫說。
人工智能樣本中心技術攻關團隊進一步優(yōu)化樣本標注方式,支撐模型訓練調優(yōu)。針對高質量樣本數量不足的問題,該團隊與各省級電力公司建立協(xié)同機制,加強與公司設備、營銷、安監(jiān)、物資等專業(yè)部門對接,開展樣本資源盤點、歸集,使原始圖像、文本的歸集及標注數量顯著提升。最終,該團隊應用場景重現、增廣技術等手段解決了高質量樣本獲取難的問題。
樣本有了,但由于質量參差不齊,仍然無法完全滿足模型訓練需求。“對于歸集上來的樣本,我們剛開始缺乏統(tǒng)一的質量評價標準,且在自動化、智能化開展樣本治理方面缺乏有效手段。”人工智能樣本中心技術攻關團隊隊員葛鑫亮說。
為了解決這一問題,人工智能樣本中心技術攻關團隊聯(lián)合公司各單位業(yè)務、技術專家開展樣本治理技術標準與治理規(guī)范提升行動,制訂了2套質量評價標準、1套治理規(guī)范,建成了具備重復、模糊、損壞等圖像質量問題自動處理能力的圖像樣本自動化清洗治理流水線,并開發(fā)了41個文本樣本清洗算子,提高樣本治理能力。
清洗治理后的樣本還需要通過精確標注才能提供給模型進行訓練。“樣本清洗、標注工作涉及人工篩選、備份、交接,每個環(huán)節(jié)都需要手工記錄和統(tǒng)計,要耗費大量人力且容易出現統(tǒng)計誤差。”人工智能樣本中心技術攻關團隊隊員冉仲陽介紹。
人工智能樣本中心面向27家省級電力公司開展用戶需求調研,基于人工智能樣本庫自主開發(fā)了全新的樣本任務管理工具。該工具具備樣本任務線上下發(fā)、樣本流轉狀態(tài)動態(tài)監(jiān)控等功能,實現了任務分配、質量檢查、任務審核、流程管理全部環(huán)節(jié)線上化、自動化,大幅提升樣本標注等工作的效率。
目前,公司規(guī)模最大的人工智能樣本庫已初步建成,具備樣本清洗、分類、標注、質檢等能力,可以面向公司各單位提供高質量樣本共享服務。(王磊)
評論