來源:互(hù)聯網
12月17日上午,在中國信息通信研究院主辦的2024第五屆“GOLF+IT新治理領(lǐng)導力論壇”主論壇上,阿裏雲重磅發布了全棧AI負載高可用架構,以滿足(zú)AI大模型企業級(jí)應(yīng)用在大(dà)規模(mó)參數量、複雜結構和高性能算力背景下,對雲服務處理能力可擴展性(xìng)、服務連續性、服務質量和故(gù)障快速恢複的需求。
以為(wéi)生成(chéng)式 AI 打造持續的卓越用戶(hù)體驗(yàn)為目的,阿裏雲全棧AI負載高可(kě)用架構可達到GPU故障預測準確(què)率92%,千卡規模集群連續訓練有效時長大於99%,秒級模型自動保存、分(fèn)鍾級故障恢複;每分鍾10000個pod擴展,分鍾級自(zì)動擴容;核心模型(xíng)服務99.99%的API SLA,模型應用服務全鏈路可觀測等重要的AI業務高可用目標,在(zài)大規模數據處理和訓推場景下,實(shí)現了(le)對Gen AI應用業務連續性、響應速(sù)度、穩定性和安全性的全麵保障。
在論壇上,2025年中國數字化治理領域最新評(píng)估結果(guǒ)揭曉,阿裏雲成為首批通過(guò)信通院“企業用雲治理能力成熟度評估”評測的兩家企業(yè)之一,同(tóng)時獲得該項能(néng)力評估最高等級。
阿裏雲全棧AI負載高可用架構正式發布
在AI算力需求逐漸超越通用需求的今天,以GenAI為(wéi)代表的應用場(chǎng)景和技術倍增,雲上企業需(xū)要處理和存儲的數據量呈指數增長,AI驅動(dòng)的應用在高負載(zǎi)情況下,對(duì)保障業務的連續性、響應速度、穩定性和安全性均提出了(le)更高要求。
為此(cǐ),阿裏雲在升級雲平台自身的(de)技術服務能力的(de)同時,將GPU、異構算力(lì)集群、容器集群、存儲、向量數據庫、機器學習平台等AI負載高可用全麵融入雲平台架構設計,圍繞大(dà)模型訓練微調、推理、多模態(tài)數據處理等環(huán)節,構建具備“高可用模型訓練、靈活彈性的推理資源、數據高可(kě)靠(kào)”特性的(de)全棧AI負載高可用架構,實現了(le)從通用負載向AI負載的(de)可用性演進,為客(kè)戶AI業務構建提供穩定的業務服務和出色的用戶體驗。

在高可用模型訓練方麵,阿裏雲AI基礎設施高可用能力融入(rù)雲服務整體架構設計,基於AI算法的故障預測(cè),實現訓推環節的性能瓶頸分析和潛在故障分析,GPU故障預測(cè)準確率達92%,同時將異常預測接入自(zì)愈鏈路(lù),訓練恢複自愈率超90%、千卡規模(mó)集群連續訓練有效時長大於99%,實現秒級(jí)模(mó)型自動保存、分鍾級(jí)故障恢複;同時,CPFS 高性能存(cún)儲集群,在超大集群中(zhōng) 20TB/s 的吞吐能力(lì),支持(chí)更大及更加頻繁的 Checkpoint 讀寫,能(néng)夠更好地防止數據丟失,並提升(shēng)訓練的穩定性和可靠性。在網絡層麵,阿裏雲自研的高性能網(wǎng)絡,業界首(shǒu)創雙(shuāng)平麵的高可用網(wǎng)絡架構,網絡Link和設備中斷,訓練任務不(bú)中斷。
在推理資源方麵,阿裏雲容器(qì)計算服務ACS的彈性能力實現每分鍾可以進行10000個pod擴展,分鍾級自動(dòng)擴容;PAI-EAS模(mó)型在線服務,適用於實時推理、近實時異步推理等多(duō)種AI推理場景,能感知每個請(qǐng)求的執行進度,做到更公平的任務調度,提(tí)高擴縮(suō)容效率(lǜ)。同時,阿裏雲將跨區(qū)域的主動(dòng)式重路由技術運用到數據中心間的通信,從而在跨數據中心(xīn)推理網絡上,達到跨域(yù)帶寬業界最(zuì)高的 99.995% SLA,實現秒級內重新路由,提供一個更加穩定(dìng)的網絡通信延遲。
對於在實時語音交互、實時(shí)AI搜索等高(gāo)性能(néng)場景有推理需求的客戶,阿裏雲百(bǎi)煉模型服務平台,基於預訓練模型為用戶提供模型推理與應用構(gòu)建(jiàn)托管服務,核(hé)心(xīn)模(mó)型服務API達到 99.99% SLA,高性能場景核心用戶用例中的(de)首包(bāo)延時小於300毫秒,能夠有效解決應用開發(fā)、模型(xíng)調用(yòng)等過(guò)程中的跨區域TPM限(xiàn)製、高並發(fā)需求(qiú)下API響應變慢等問題,提升(shēng)Gen AI應用推(tuī)理與構建(jiàn)時的用戶體驗。
在數據高可(kě)靠方麵,阿裏雲數據存儲與數據庫服務(wù)麵向不同計算引擎、多種 AI 框架進(jìn)行了深度集成,形成承(chéng)載PB級甚至EB級大規模數據統(tǒng)一的存儲(chǔ)底座,同城冗餘容災,高達(dá)99.995% SLA,數據多副(fù)本冗餘(yú)、大文件斷點續傳、批(pī)量和多線程數據操作保障數據服務(wù)高可(kě)靠,向(xiàng)上支撐麵向單AZ, 雙AZ, 三AZ及跨Region的高可用(yòng)服務,跨Region AI數據的就近讀寫和負載均衡,滿足AI數據多活的強一致性(xìng),AI數據冷備、熱備、故障(zhàng)自(zì)動切換,解(jiě)決(jué)AI數據故障(zhàng)風險。
AI時代與用戶共建雲(yún)上的IT新(xīn)治理
AI時代的浪潮(cháo)中,企(qǐ)業(yè)對於高可用架構的需求不僅僅停留在節點的穩定性上,而是在更高的層麵(miàn)追求智能化(huà)運營。阿裏雲全棧AI負載的高可用架構已為企業奠定了堅實的技術基(jī)礎,而進一步的挑戰則在於如何提升雲上係統的運維管理(lǐ)與治理能力。通過(guò)與用(yòng)戶攜手,阿裏雲致力於在雲環境中構建一個AI-Native的智能化、自動化和可持續的IT治理體係,為企業(yè)的創新之路保駕護航。
阿(ā)裏雲根據多(duō)年服務客(kè)戶的經(jīng)驗總結為一係列的方法論和架構設計原則,推(tuī)出了阿裏雲卓越架構 Well-Architeched Framework,意在幫助企業在雲上構建一個安全、穩定、高效的應用環境(jìng)。麵向AI技術融入帶來的更複雜更大規模的,根據雲計算的彈性、實時交付、自助化(huà)等特點,阿裏雲卓越架(jià)構進一步升級了(le)用雲企業運維管理和治理規則基線的最佳(jiā)實踐,依靠Well-Architeched雲卓越架(jià)構來學習-度量-優化,落地(dì)治理潛在的風險(xiǎn)隱(yǐn)患,從(cóng)安全、穩(wěn)定、效率、成本、性能五大支柱全麵提升係(xì)統整體韌性和運營效率。
阿裏雲開放平台負責人何登成(chéng)表示(shì),“在雲上構建可靠的係統是雲廠商與用戶共同的責任。雲廠商負責提供(gòng)雲平台的可靠性(xìng),確保提供的雲服務可用性(xìng)符(fú)合或超(chāo)過阿裏雲服務(wù)等級協議;用戶需要根據業務需求,選擇合適的產品服務,並根據雲相關文檔的指導搭建高可用架構,來確保雲上應用的可靠性(xìng)。”尤其在AI迅猛發展的今天,企業更應讓業務係統利用現代雲平(píng)台的基礎設施(shī)達到高可(kě)用,總結成三個"麵向":麵向失敗的設計架構,麵向(xiàng)精細的運維管(guǎn)控,麵向風險的應急快恢(huī)。同時,用戶可以在建設持續穩定的雲環境過程中,麵向AI並結合AI,通(tōng)過良好的AI模(mó)型訓推架構設計、AI數據資產處理(lǐ)與存儲、智能診斷與(yǔ)風險預測等手段,進一步提升係統可用性、可靠性、可持續性。
阿裏雲獲信通(tōng)院企業用雲治理能力成熟度評估最高等(děng)級
據信通院發布的《企業用雲治(zhì)理能力(lì)成熟度分級要求》,企業用雲治理能力成熟度評估共分為L1-L5共5個等級,分別(bié)為L1基(jī)礎級(jí)、L2應用級、L3優秀(xiù)級、L4先進級、L5卓越級。該分級要求不僅適(shì)用於對(duì)雲服務使(shǐ)用方用雲治理能力成熟度進行評估,也適用於對雲服務提供商雲服務治理產品、技術能力成熟度進行評估。阿(ā)裏雲測評結果為L4+,是(shì)目前階段雲服務(wù)提供商實際獲得的最高等級。
此前,阿裏雲企業用雲治(zhì)理能力曾兩度獲得(dé)信通院評測認可,包括(kuò)2022年“企業雲治理能力(lì)成熟度模型”獲信通院科(kē)技治理領域年度明星解決方案及產品;2023年“雲治理中心”獲信(xìn)通院科技治(zhì)理領域年度明星解(jiě)決方案。
今年,針對企業用雲發(fā)展路徑、企業(yè)雲治理發展趨勢分析與(yǔ)洞察,阿裏雲聯(lián)合埃森哲發布《雲治理企(qǐ)業成(chéng)熟度發展2024年度報告(gào)》(https://developer.aliyun.com/ebook/8419),報告調(diào)研(yán)取樣來自400多家企業客戶,橫跨互聯網、金融(róng)、新零售、交通等多個行(háng)業,旨在幫助用戶(hù)理解(jiě)雲治理概念、企業用(yòng)雲實(shí)踐的(de)現狀及(jí)變(biàn)遷趨勢,並基於雲治理框架的五大分類(即穩定性(xìng)、安全合規、成本效益、高效性能、卓越(yuè)運營),報告(gào)作為(wéi)企業雲上旅程的實(shí)踐樣本,為麵向AI時代做好IT新治理和雲上架(jià)構優(yōu)化提(tí)供更多的參考與決策依據。