當(dāng)前位置: 首頁 > 能源互聯(lián)網(wǎng) > 產(chǎn)經(jīng)信息

首個國產(chǎn)單池萬卡液冷算力集群投入運(yùn)營 滿足萬億級大模型訓(xùn)練需求

IT時報發(fā)布時間:2024-03-25 10:15:28

  3月22日,中國電信宣布,天翼云上海臨港國產(chǎn)萬卡算力池正式啟用,人工智能研究院、上海稀宇科技(MiniMax)、百川智能、思必馳科技等八家人工智能研究機(jī)構(gòu)和企業(yè)作為首批用戶入駐。

  就在三天前,3月19日,上海市發(fā)展和改革委員會等部門聯(lián)合印發(fā)《上海市新型基礎(chǔ)設(shè)施建設(shè)項(xiàng)目貼息管理指導(dǎo)意見(2024年版)》(以下簡稱《指導(dǎo)意見》),鼓勵合作銀行建立上海市新基建優(yōu)惠利率信貸資金,總規(guī)模達(dá)到1000億元以上,重點(diǎn)支持新網(wǎng)絡(luò)、新算力、新數(shù)據(jù)、新設(shè)施、新終端五大領(lǐng)域,由此可見上海對于加快新型基礎(chǔ)設(shè)施建設(shè),推動新質(zhì)生產(chǎn)力發(fā)展的迫切。

算力集群

  作為上海“新算力”建設(shè)的重要一極,中國電信在接應(yīng)上海市政府要求,加速建成多元供給、云邊協(xié)同、隨需調(diào)度、高效綠色的城市高性能算力網(wǎng)絡(luò)體系上跑出了加速度。

  此次正式投產(chǎn)運(yùn)營的算力池,是國內(nèi)首個投入正式運(yùn)營的國產(chǎn)單池萬卡液冷算力集群,也是業(yè)內(nèi)領(lǐng)先的全國產(chǎn)化云智一體公共智算中心。

  “理論上,集群規(guī)模越大,大模型訓(xùn)練的速度就越快。”首批入駐企業(yè)思必馳科技聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱告訴《IT時報》記者,中國電信國產(chǎn)萬卡算力集群的推出,有助于解決國產(chǎn)大模型企業(yè)的可持續(xù)發(fā)展問題。

  發(fā)布會現(xiàn)場,上海市副市長陳杰與中國電信副總經(jīng)理唐珂共同點(diǎn)亮算力池。上海市政府副秘書長莊木弟、中國電信市場部總經(jīng)理陳文俊、上海電信總經(jīng)理龔勃、上海市發(fā)改委副主任裘文進(jìn)、上海市通管局副局長賀豐、天翼云公司副總經(jīng)理黃洪波、上海電信副總經(jīng)理陳志宏、上海電信資深經(jīng)理張慷出席會議,上海電信總經(jīng)理助理龔豪與合作伙伴簽署入駐協(xié)議。

  單池萬卡支持萬億大模型訓(xùn)練

  全球人工智能發(fā)展正在進(jìn)入“深水區(qū)”。

  隨著生成式AI的迭代和發(fā)展,大模型規(guī)模正以驚人的速度擴(kuò)展,萬億參數(shù)級別幾乎成為通用大模型的標(biāo)配,然而算力需求量大、利用率低、成本壓力大、模型構(gòu)建難度提升、模型行業(yè)落地復(fù)雜,成為大模型開發(fā)應(yīng)用面臨的一系列挑戰(zhàn)。

  不久前舉行的全國兩會上,《政府工作報告》提出要“適度超前建設(shè)數(shù)字基礎(chǔ)設(shè)施,加快形成全國一體化算力體系”。

  作為央企和國云平臺的構(gòu)建者,中國電信早在三年前便超前布局,在臨港新片區(qū)成立臨港算力(上海)科技有限公司,加速臨港算力中心建設(shè),為長三角提供更加優(yōu)質(zhì)、更加普惠的智算公共服務(wù)。

  如今,成果已初現(xiàn)。

  國內(nèi)最大的國產(chǎn)單池液冷萬卡算力集群正式在上海臨港智算園區(qū)交付,并投入商業(yè)運(yùn)營。

  據(jù)《IT時報》了解,此次啟用的天翼云上海臨港國產(chǎn)單池萬卡液冷算力集群創(chuàng)新性地采用網(wǎng)絡(luò)中置、算力分層的“魔方”型,實(shí)現(xiàn)了單一集群內(nèi)萬卡高速互聯(lián),可以滿足萬億級參數(shù)大模型訓(xùn)練所需的多機(jī)多卡并行、高吞吐無損通信等需求。

  同時,為了實(shí)現(xiàn)綠色低碳的目標(biāo),全面采用融合液冷服務(wù)和IDC基礎(chǔ)設(shè)施的新一代智算液冷DC艙,實(shí)現(xiàn)了數(shù)據(jù)中心的能效和智算集群的算效雙提升,為“人工智能+”提供智能、彈性的綠色算力。

  “新國貨” 新算力

  提升算力自主創(chuàng)新能力,實(shí)現(xiàn)國產(chǎn)算力技術(shù)和能力突破,建立云網(wǎng)協(xié)同的高性能算力基礎(chǔ)設(shè)施,是“新算力”的核心基石。

  這次中國電信拿出的“新算力”,是妥妥的“新國貨”。在天翼云臨港國產(chǎn)算力池里,除硬件全部采用國產(chǎn)芯片和設(shè)備外,智算云的操作系統(tǒng)、智算服務(wù)平臺和算力網(wǎng)絡(luò)等方面,也都實(shí)現(xiàn)了全棧自研。

  黃洪波介紹,此次投入運(yùn)營的公共智算中心以中國電信天翼云自研TeleCloudOS 4.0為底座,承載天翼云算力分發(fā)網(wǎng)絡(luò)平臺“息壤”、智算基礎(chǔ)設(shè)施平臺“云驍”、一站式智算服務(wù)平臺“慧聚”,構(gòu)建算力聚合分發(fā)的新模式,實(shí)現(xiàn)全棧能力自主可控、安全可信,可為大模型企業(yè)提供從算力供給、算力輸送、算力調(diào)度到模型訓(xùn)練及推理應(yīng)用的一站式服務(wù)。

  其中,“云驍”支持多種國產(chǎn)芯片及上層框架,可以對萬卡規(guī)模智算集群進(jìn)行納管,實(shí)現(xiàn)超大規(guī)模集群穩(wěn)定運(yùn)行;“息壤”算力網(wǎng)絡(luò)則可以將零散的通算、智算和超算算力統(tǒng)一分配調(diào)度,目前已納管上海多家智算廠商,為上海本地企業(yè)提供普惠的智算調(diào)度服務(wù)。

  “在算力方面,國產(chǎn)大模型企業(yè)面臨兩個挑戰(zhàn),第一是有沒有,第二是用不用得起,我們希望中國電信打造的國產(chǎn)萬卡算力池和公共智算云服務(wù),能幫我們解決第一個問題。”俞凱告訴記者,期待與算力租賃相關(guān)的補(bǔ)貼配套政策能陸續(xù)出臺,從而降低算力成本。

  賦能大模型全產(chǎn)業(yè)鏈

  此次發(fā)布會上,有八家合作伙伴作為首批用戶入駐臨港國產(chǎn)算力池,其中既有通用語言大模型公司百川智能、上海稀宇科技、思必馳科技、天壤智能,也有深耕金融領(lǐng)域的行業(yè)大模型金聲玉亮、國內(nèi)領(lǐng)先的企業(yè)級AI-Agent平臺公司瀾碼科技、AI創(chuàng)新生物制藥公司賽隴生物,以及承擔(dān)上海市人工智能研發(fā)與轉(zhuǎn)化培育建設(shè)重任的上海人工智能研究院,基本覆蓋基礎(chǔ)層、技術(shù)層、應(yīng)用層等人工智能完整產(chǎn)業(yè)鏈。

  作為國內(nèi)開展對話式人工智能技術(shù)研發(fā)的領(lǐng)軍企業(yè),思必馳2022年獲批建設(shè)“語言計算國家新一代人工智能開放創(chuàng)新平臺”,該公司自研的行業(yè)語言大模型DFM-2,通過了《生成式人工智能服務(wù)管理暫行辦法》和《中國境內(nèi)深度合成服務(wù)算法》兩個備案。

  據(jù)了解,DFM-2已在臨港國產(chǎn)算力池完成初步適配,實(shí)測結(jié)果顯示,遷移后集群訓(xùn)練效率與原集群基本可對標(biāo),通過配套高效的RDMA網(wǎng)絡(luò),以及亞毫秒時延的并行文件存儲,算力得到了有效釋放。

  隨著“人工智能+”首次被寫入政府工作報告,AI產(chǎn)業(yè)機(jī)遇正在加速涌現(xiàn)。根據(jù)《上海市人工智能產(chǎn)業(yè)發(fā)展“十四五”規(guī)劃》,到2025年,上海將基本建成具有國際影響力的人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展高地,人工智能規(guī)上產(chǎn)業(yè)規(guī)模年均增長12%以上,達(dá)到4000億元。

  2月19日,國務(wù)院國資委召開“AI賦能產(chǎn)業(yè)煥新”中央企業(yè)人工智能專題推進(jìn)會,會議強(qiáng)調(diào),中央企業(yè)要把發(fā)展人工智能放在全局工作中統(tǒng)籌謀劃,加快建設(shè)一批智能算力中心,開展AI+專項(xiàng)行動。

  在中國電信的智算中心布局中,上海是重要的核心樞紐節(jié)點(diǎn)之一,或?qū)⒊掷m(xù)迎來算力建設(shè)高潮。


評論

用戶名:   匿名發(fā)表  
密碼:  
驗(yàn)證碼:
最新評論0