甯德核電發布全球最大參數量核工業大模型,引領新能源智能化浪潮

薪科技快評 2024-03-16 08:35:21

甯德核電推出全球參數量最大的核工業大模型

核電行業是工業場景中相對複雜、安全性能要求極高的場景。如果AI大模型在如此複雜的場景中被驗證可行,其經驗將爲該技術在其他工業領域的應用帶來極大的借鑒意義。InfoQ 數字化經緯獲悉,中國廣核集團福建甯德核電有限公司(以下簡稱“甯德核電”)日前發布了自主訓練的大模型「錦書」,這是專爲核工業領域打造的大語言模型,其參數規模達到 720 億。

據了解,「錦書」在內部被稱爲“全民 GPT”項目,自 2023 年 5 月發起,旨在探索利用 AI 大模型解決核電行業面臨的各種挑戰,如知識管理不足、低腦力勞動過多、安全分析能力有待增強等。「錦書」主要訓練兩種參數規格的模型,分別是錦書-34B-Chat和錦書 -72b-Chat。

這也是目前在全球範圍內參數量最大的核工業預訓練大語言模型。此外,「錦書」擁有中國最大的核工業大模型語料庫,訓練語料超過 20 億 token,涵蓋了核運行、核物理、核燃料、水化學十余類通用核工業語料以及規程、系統設計書、經驗反饋單等十余種工作文件語料。

此外,甯德核電團隊首次開發適用于核工業的專屬 Nuclear-embedding-v1-base-cn 詞向量模型和 Nuclear-reranker-v1-base-cn 模型,在由 50 萬條向量數據構建的 nuclear benchmark 數據集上展示了卓越的性能,top1 召回率超過 88%,top2 召回率超 91%,top5 召回率超過 95%。

基于「錦書」核工業大語言模型,甯德核電開發出國內首個核工業大語言模型應用平台「雲中錦書」,該平台部署了基于系統化培訓理念的智能培訓系統、個人崗位晉升系統、PPT 生成等多個應用,實現企業降本提質增效的目的。

核工業大模型突破傳統,高效整合海量知識,打破工種間的數據壁壘,開創“技術平權”新紀元。現場工程師僅需通過創新的知識模塊排列組合,即可化身多位數字工程師,顯著提升工作效率。

以專利管理爲例,只需一鍵勾選專利及法律模塊,即可快速進行深度專利審查,並精准輸出風險分析報告,實現一人頂N人之效。

核工業首推多模態AI講師書錦,融合文字、圖像與語音智能交互,創新運用AIGC技術賦能SAT系統化培訓,實現全天候7×24小時爲一線工程師提供精准答疑和定制化課程指導,引領培訓體驗走向按圖索骥的新境地。未來,顛覆“課程”傳統認知,這一數字化基建下的培訓新範式,將有力開辟核工業教育與培訓的全新路徑。資深數字工程師運用大語言模型的卓越理解力,精准抓取高價值偏差單,實現98%以上的識別准確率。原本需5人耗時整天的工作量,現僅需1人在3分鍾內高效完成,年節省人力成本高達200萬,徹底釋放工程師,使其擺脫繁瑣低效的手工勞動,專注于更高層次的創新挑戰。

甯德核電人工智能實驗室負責人王澍在接受 InfoQ 采訪時表示,「錦書」既是人工智能時代的藍圖,也是獻給核電的一封情書。大模型和生成式 AI 能力融入核行業的意義在于實現人員降本增效的同時,挖掘新的業務價值,有效地解決了在“雙碳”背景之下,核電行業快速推進帶來的複合突增和人員短缺問題,同時推動了傳統行業數智化轉型的整體進程。

近年來,甯德核電一直致力于推進數字化轉型,積極探索 AI 在核電安全、運維、培訓等領域的應用。自 2022 年底,公司便開始投用 AI 智能讀表設備,顯著提高了數據采集的准確性和效率。此外,甯德核電還實施了工業 AI+AR 智能解決方案,通過 AR 技術提現場操作的安全性和便捷性。隨著「錦書」大語言模型在核工業領域的深入應用,其經驗將爲 AI 技術在其他工業領域的應用提供借鑒意義。

以下是 InfoQ 數字化經緯與甯德核電人工智能實驗室負責人王澍的對話:

InfoQ:「錦書」的發起初衷是什麽?這個項目對于核電領域的意義和影響會是什麽?

王澍洞察:2023年初,GPT震撼登場,其卓越的對話智能與長文本生成技術驚豔全球,開辟了AI嶄新風口。這項技術有力提升勞動效率、大幅削減成本,其革新性堪比推動第一次工業革命的蒸汽機。我們預見,這可能標志著第四次工業革命的序章已然奏響。

目前 AI 的能力以及逐步融入、下沉到各個垂直領域,“AI+ 媒體”、“AI+ 醫療”、“AI+ 金融”、“AI+ 政務”等跨界創新層出不窮。在此背景之下,我們也在思考“AI+ 核工業”會碰撞出什麽樣的火花?爲此,我們重新梳理了核電行業的若幹痛點,例如:知識需要被更好的管理、低腦力勞動需要被取代、安全分析需要被賦能...... 在分析的過程中,我們發現核電行業中的很多工作都值得用 AI 重新做一遍。例如,將運維領域的數據投入到國內開源模型中進行多輪訓練,可以得到一個相關的 AI 小模型,這個小模型以“copilot”的形態存在,我們稱之爲 AI 運維助理。

在過去,工業現場需要 3-4 人才能完成的工作,在未來,有可能只需要一個人 + 一個“AI copilot“。AI 能力融入核電行業的意義在于實現了人員的降本增效的同時,挖掘新的業務價值,有效地解決了在“雙碳”背景之下,核電行業快速推進帶來的複合突增和人員短缺問題,同時推動了傳統行業數智化轉型的整體進程。

InfoQ:在核電領域的知識問答系統開發中,有面臨哪些特別的挑戰嗎?

王澍:主要面臨的挑戰包括:

挑戰“核電行業黑話”,即深度解讀系統三字訣、設備九字碼、國行標准及現場特有詞彙等專業術語。預訓練模型在構建詞庫時,忽視了核電高頻詞彙的收錄;通用模型訓練數據集中也鮮見核電相關內容,這無疑對模型提出了嚴峻考驗。

核電行業文檔繁多,涵蓋通知、教材、圖紙、報表、合同、規章等多元類型,知識問答系統須具備高效處理與精准解析各類文件的能力。

在核電行業,信息安全至關重要,因此我們在開發過程中嚴格執行數據安全標准,以零容忍態度防範任何潛在信息泄露風險,對所有數據實施嚴密保護措施。

InfoQ:項目團隊是如何解決多輪對話能力弱、專業編碼理解不足等問題的?

王澍:

提升 LLM 本身多輪對話能力:

2. 利用從用戶那裏收集的反饋信息,不斷地評估和優化 AI 的對話能力。

提升 AI 平台系統對多輪的應對能力:

運用創新的agent自主檢索技術,我們成功打造出高效智能RAG系統,無縫適配核電體系。一體化設計囊括自然語言理解、記憶管理、檢索及生成等對話系統核心模塊,實現AI平台對複雜多輪對話的精准駕馭與流暢協作,全面提升交互效能。

1. 使用 200k 長窗口的 LLM;

2. 使用 memory 壓縮對話,有效存儲和檢索對話中的信息;

運用對話狀態跟蹤技術,精准記錄用戶對話全程的意圖與需求,強化系統對各步驟間邏輯交互的理解力,在特定任務表現卓越。

王澍精准闡述:團隊精心篩選並優化輸入數據進行深度清洗,保障訓練集質量上乘,此關鍵步驟有力避免模型産生幻覺性誤差。

我們運用創新的RAG技術,先從海量知識庫精准檢索,確保在生成答案前囊括詳盡信息,以提供更准確、具體的回答。

我們實行領域針對性微調,以通用模型爲基礎,甯德核電運用專屬核電行業數據集進行深度優化。此舉顯著增強了模型對核電業深層次問題的理解與解答能力,效果斐然。

我們還運用人工審核與反饋機制,專業團隊精准評估問答系統輸出結果,基于准確度給予反饋,持續推動系統學習優化,實現智慧升級。

InfoQ:目前項目進展到哪個階段了?已經取得了哪些成果?

王澍:我們已經初步完成了核工業垂直領域 LLM 的研發,可以初步實現核工業領域通用問題的問答。目前正在進一步清洗數據,准備更大規模的底層模型預訓練重構,以擴展模型能力邊界。同時也在基于特定任務開發 AI 插件(AI copilot),我們正在開發的包括:經驗反饋篩選 AI 助理、質保檢查報告編制 AI 助理、會議紀要 AI 助理、培訓計劃生成 AI 助理、課程編寫 AI 助理、薪酬福利 AI 助理、崗位晉升路徑規劃 AI 助理、數據分析 AI 助理等等。

InfoQ:這幾個月裏,項目有哪些關鍵的裏程碑?

王澍:主要有以下四個關鍵裏程碑:

精簡後優化文案:

探索核電行業,甄選適合AI重塑的關鍵業務場景。深度挖掘海量數據並進行大規模精細化清洗,以此爲基礎構建預訓練模型。進而,以該底座模型爲核心,研發各個細分領域內的AI-copilot助手,實現智慧賦能。

InfoQ:未來還有哪些領域或問題是團隊考慮繼續深入的?

王澍強調,核電行業視核安全爲至高無上的核心。未來,我們將深化AI在安全分析領域的探索與應用,賦能核電廠提升設備可用性、強化隔離邊界等核安全相關業務,矢志追求卓越高標准,以科技創新持續加固核電行業的安全性壁壘。同時,我們著力研發更智能的交互模式和高價值功能,並運用多模態技術助力現場問題高效解決。

InfoQ提問:在項目進程中遭遇了哪些始料未及的挑戰?全民GPT應用的用戶反饋如何?請分享一些具有代表性的成功案例。

王澍領軍研發核工業大語言模型,團隊勇闖技術與數據雙重挑戰。面對始料未及的複雜難題,他們深入攻克技術瓶頸,破解數據獲取與處理的高難度任務,彰顯卓越實力。

核工業曆史文檔繁多,涵蓋PDF、掃描件、EXCEL、PPT等多種格式,且富含公式與邏輯圖,導致數據清洗面臨嚴峻挑戰。

挑戰:核工業術語與編號迷宮。獨特黑話與專屬編號系統充斥其間,傳統模型在未經訓練下難以駕馭這一複雜領域。

面對這些挑戰,采取了一系列創新性的解決方案:

• 構築國內核工業頂級語義庫:系統整合海量教材、設計文件、工作文檔及規程數據,打造超20b tokens的龐大數據量,成就國內規模最大、專業性最強的核工業知識寶庫。

• 高效打造數據處理平台:研發出專爲大語言模型定制的平台,能兼容多種格式數據,一鍵智能清洗,精准産出適于模型訓練與微調的高質量數據集。

• 精准構建核工業黑話庫:全面清洗整合國標、行標,注入本地知識庫,專業訓練模型,顯著提升其在核工業領域的專業度與精確性。

通過上述努力,取得了顯著的效果:

"借助大模型驅動的 SAT 系統,全天候一對一教學實現7×24小時無縫對接,有力驅動學習效率與生産力顯著躍升。"

"運用大數據分析,精准定位培訓知識點熱度,爲優化課程結構提供科學依據,建立高效正反饋機制,提升培訓效果。"

"核工業大語言模型商城強勢登場,開放個性化訓練與上傳功能,賦能用戶按需定制專屬模型,驅動個性化發展並大幅提升效率。"

大語言模型在核工業領域的應用潛力,在一系列成功案例中得以彰顯,揭示了面對複雜挑戰時,通過不懈創新與技術攻堅,可實現令人滿意的解決方案。

InfoQ:在這樣一個跨領域的項目中,團隊是如何組織協作的?

王澍洞察到,垂直領域大模型研發中,僅依賴外包模式滿足需求的時代已落幕。曆經挫折後,他引領我們開創産學研深度合作的新路徑,聯手浙江大學 BEST 計劃與箴理科技,共建人工智能實驗室。三方共同投資、投入人力,如今科研團隊規模壯大至近30人,且在核電行業的硬件配置上傲視群雄,穩居領先地位。

在甯德核電內部,彙聚了一群“跨界精英”科研團隊,他們是各領域的領軍人物。這支隊伍深度鑽研大模型技術原理及應用場景,並積極探索將人工智能技術巧妙融入各自崗位。創新采用的雙層協作模式引人注目:首層以實驗室爲核心,集結了AI技術專家與核電業務權威,專注研發核電專屬的大模型和無代碼平台;第二層則圍繞一線工作者構建,他們運用實驗室提供的底層工具定制應用。而串聯起雙層協作的關鍵紐帶,則是培養具備跨領域技能的“複合型人才”。

InfoQ:這個項目完成後,對核電行業乃至整個能源行業會産生怎樣的影響?

王澍領導團隊,勇嘗螃蟹,穩踏石過河。此項目一旦完成,將有力驅動核電行業知識管理效能躍升,顯著優化在崗培訓流程,從而大幅削減低腦力勞動負擔,使人才得以傾注更多時間和精力于更具價值、創新性的領域。

在核電領域,複雜度與安全標准嚴苛至極。若AI能力在此高難度場景中成功驗證,實現核電檢修策略自動生成、精准風險分析及各類長報告自動化撰寫等突破,無疑將爲化工、火電、制造業等相對簡易的工業場景帶來極具價值的借鑒與啓示,推動其智能化進程。

-對此,您有什麽看法見解?-

-歡迎在評論區留言探討和分享。-

0 阅读:31

薪科技快評

簡介:薪科技評說,發現技術的點滴,記錄科學的飛躍!