7月24日,2024可信云大會召開期間,智算云服務論壇上,天翼云榮獲中國信通院頒發的“智算工程平臺能力要求標準參編證書”,代表了業界對天翼云在推動行業標準制定中所作貢獻及成果的重要肯定,以及對天翼云技術創新水平的高度認可。會上,天翼云科技有限公司智算產品線資深技術專家瞿龍發表演講,介紹了天翼云智算平臺加速大模型應用方面的技術亮點與成功案例。
隨著人工智能技術的快速發展,智算成為推動科技進步和產業發展的重要力量。為了促進智算技術的標準化、規范化發展,提升我國在全球智算領域的競爭力,推動云上軟件工程能力水平升級,中國信通院聯合天翼云等產學研各界共同探討軟件工程和智算領域的前沿技術、發展趨勢和應用場景,整合優質資源,凝聚產業共識,搭建合作橋梁,推進智算云服務高速高質量發展。在智算工程平臺能力要求標準的制定中,天翼云智能邊緣事業部慧聚平臺團隊與業界同仁緊密合作,深度參與了平臺能力要求的制定過程,共同探索智算前沿技術,優化智算平臺能力要求,推動產業落地應用,為行業的規范化發展貢獻了智慧與力量。
瞿龍表示,伴隨人工智能技術迅速發展,大模型層出不窮,模型的參數量呈幾何級增長,其所依賴的數據集規??涨褒嫶?,對算力基礎設施的性能、穩定性、運維管理、安全、成本等各方面提出了前所未有的挑戰。
作為云服務國家隊,天翼云積極布局智算基礎設施建設,全面升級產品及生態矩陣,打造了算力互聯調度平臺“息壤”、一體化計算加速平臺“云驍”和一站式智算服務平臺“慧聚”三大智算平臺,以豐富的智算資源供給、強大的智算服務能力和開放的模型應用生態,實現智能算力普惠供應,為千行百業數智化轉型發展賦能。
大模型開發是涉及軟硬件平臺、算法、應用的系統工程。天翼云一站式智算服務平臺“慧聚”能夠為大模型訓練、推理、應用提供全棧工具鏈,讓企業更專注模型升級和應用落地。在技術上,“慧聚”平臺突破分布式存儲優化、斷點續訓、推理加速等核心技術點,大幅提升模型系統效率。其中,分布式存儲優化通過引入高速外部存儲,優化訓練框架異步保存邏輯,顯著降低Checkpoint的保存總耗時;“慧聚”平臺通過實現斷點續訓等技術能力,實現訓練任務長期穩定、高可用運行;此外,“慧聚”從“系統-模型-數據”三個層面打造自研大規模在線推理解決方案,通過全鏈路數據感知、模型量化和算子加速、分布式推理框架,有效提升大模型總體推理服務吞吐量,并使首token時延明顯下降。
基于平臺的強大能力,“慧聚”已經實現廣泛落地應用,為人工智能模型開發者、模型提供者等提供堅實助力。今年年初正式啟用的天翼云上海臨港國產萬卡算力池,通過承載“慧聚”平臺,可針對大模型訓練微調場景,提供訓推一體化算力服務,實現萬卡資源調度,全面賦能上海千行百業。同時,“慧聚”還為中國電信千億參數星辰大模型提供支撐,助力解決星辰大模型訓練和部署中面臨的復雜性和資源需求問題,加速模型落地與應用。
人工智能大模型迅猛發展,算力基礎設施也需要不斷進化。面向未來,天翼云將堅持科技創新,深耕智算基礎設施建設,持續優化產品性能、提升服務質量,并積極牽引云計算行業標準制定與生態建設工作,攜手業界伙伴共同推動云計算技術的創新與發展。