來源:環球時報(bào)
【環(huán)球時(shí)報報道 記者 馬俊】美國依靠軟硬件優勢,在用規模“堆”出全球最(zuì)強人工智能(AI)的這條道路上(shàng)狂奔不已(yǐ)。美國富豪馬斯克近日在社交媒體上宣布,旗下AI初創公司xAI已開始用10萬塊H100 GPU組成的“孟(mèng)菲斯超級集群”進行AI訓練(liàn),號稱是“全球最強大的AI訓練集群”。中國是(shì)否應該跟隨美國引領的這條技術路線?近日(rì)在由中國智能計(jì)算產業聯盟與全國信標(biāo)委算力標準工作組共同主辦的2024中國算力發展專家研討會上(shàng),多名院士(shì)專(zhuān)家給出了各自的觀點。
未來超智融合將分為三個階段
中國科學院院士陳潤生在研(yán)討會上(shàng)表示,“人工智能大模型是新質生產力的代表,大模型和超級計算的融合(hé)發展十分重要(yào),我國需要認真地去(qù)布局、去考慮。”中國科學院計算技術研究所(suǒ)研究員張雲泉提到,大模型的(de)迅猛發展彰顯(xiǎn)出新質生產力的特質,但目前也遇到(dào)了算力瓶頸。鑒於中國在超算領域擁有深厚技術積累,希望超(chāo)智融(róng)合(hé)(超級計算與以大模型(xíng)為代表的智能計算進行融合)能有效化解這一挑戰。國家信息中(zhōng)心信息化和產業(yè)發展部主任單誌廣解釋說,“超智融合是隨著(zhe)當前基礎算力、智算算力、超算算力等的應用多元化發展(zhǎn)而誕生的,即能否用混合型算力資源(yuán)或者融合(hé)型算力體係,來解(jiě)決同(tóng)時(shí)滿足多種不同算力(lì)的應用(yòng)需求。”
在預測未來超智融合的進(jìn)程時(shí),中(zhōng)國科學院院士錢(qián)德(dé)沛認為,將沿著for AI、by AI和being AI三個階段清晰演進(jìn),從硬件到軟件全方位地進(jìn)化,以適應和(hé)推動人(rén)工智能技術的發展。在(zài)第一階段for AI,將著重於對現(xiàn)有計(jì)算機係統的改造與升級,發展專(zhuān)用(yòng)硬件,確保可(kě)高(gāo)效地支持(chí)和執行AI任務,為人工智能研究提供堅實(shí)的基礎設施。在(zài)第二階段by AI,將要用AI改造傳(chuán)統(tǒng)的計算,一(yī)方麵用AI的(de)方法來求解傳統(tǒng)超算問題,另一方麵AI也在影響(xiǎng)傳統計算機的結構,這個趨勢也會(huì)逐漸明顯。在最終的being AI階段(duàn),計算機係統將(jiāng)呈現內在的智能特性,人工智能不(bú)再是一種外加的能力,而成(chéng)為計算機(jī)的核心屬性和基本組成,可能計算的能力或者智能(néng)化的水平(píng),會遠遠超過精东影业天美传媒网站今天的超算或智算。
陳潤生注意到,目前科學界和(hé)產(chǎn)業界一直(zhí)在企圖解(jiě)決超算和智算融合的問題。例如英偉達最新推出的(de)GB200架構,其(qí)實是兩塊(kuài)GPU加上(shàng)一塊CPU,某種意義上就可以算是把智算和超算的優(yōu)勢(shì)都用上(shàng)了,在兩塊GPU執行機器學習的布局中,加上CPU提供的數(shù)據(jù)高速傳輸(shū)。但(dàn)他認為,這(zhè)種架構並沒有從根本上解決效率問(wèn)題。“超算與智算的結合是必然的,將會有機融合,而不是簡單地把它們湊在一起”。
中國工程院院士鄭緯民也表(biǎo)示,大模型的開發、訓練、微調及推理各個環節均離不開算力,且算力成本占據著整體開(kāi)銷的(de)大頭,特(tè)別是在訓(xùn)練階段,其(qí)占比高(gāo)達70%,而在推理階段更是高達95%。鑒於此,算力成為支撐大模型發展的關鍵因素(sù)。
智能計(jì)算應該參考(kǎo)“人類智能”
對於中國當前的大模型熱潮(cháo)以及跟隨(suí)美國“堆規模”的技術路徑,中國院士(shì)專家們提出了各自觀點。錢德沛表示,中國現在搞出的大(dà)模型數量和(hé)種類比美國(guó)還多,也都在搞通用人工智能,但精东影业天美传媒网站不但在硬件上受到(dào)美國的嚴(yán)格限製,而且用於大模型訓練(liàn)的數據的質量和數量也都偏少,“這樣做出來(lái)的大模型能比(bǐ)美國好嗎(ma)?我想精东影业天美传媒网站還是要符合中國國情,不能夠完全跟著美國人走”。
陳潤生也認為,中國現在出現的大模型基本上是在美國提出的大模型和(hé)算法上進行改進,但是(shì)對於(yú)整(zhěng)個大模型的基礎理論考慮甚少。他在(zài)研討會上提出,對比傳統超(chāo)算采用(yòng)的局域式記憶(yì)模式,智能計算展現出了根(gēn)本性的差異——信息的分布式存儲(chǔ)。這(zhè)種存儲方式模仿了人腦神經網絡的(de)複雜結構,通過大規(guī)模、密集互聯的芯片網絡來承載日益龐大的(de)模型。但是如(rú)何有效地將人類知識嵌(qiàn)入這些複(fù)雜係統,以及信息具體如何在(zài)係統中分布(bù)存儲,其背後的算法與(yǔ)技術理論仍未充分探索。“隨著模型(xíng)規模(mó)的無節製擴張,導致一個不可克服的問題是能源耗竭,因此一味地增加芯片(piàn),依靠增加係(xì)統的(de)複雜度來解決大模型的存儲問題是不完全可取的”。
由此陳潤生認為,未來智能計算還是應該參考“人類智能”,也(yě)就是模擬人腦的(de)運(yùn)行機製。人腦的體積非常小,能耗隻有幾十(shí)瓦(wǎ),但它所產生的智能,超過了現在最先進的、能耗相當於一整座城市的(de)AI。“大模型與智算的發展,不隻是(shì)應用層麵的模型和算法上改進,還需要從基礎理論角度去(qù)有所突破。現在大模型隻是發展了(le)前10%,還有90%的工作(zuò)沒做(zuò),我也相信大模型絕對不是靠著(zhe)越堆芯片越多實現的,一定像(xiàng)人類的大腦一樣學習,把空間複雜度、時間複(fù)雜度壓縮得更小,能耗降得更低。所以我覺得最基本的(de)問題,是要研究目前空(kōng)間複雜度來完成智算的(de)基礎理論。如果精东影业天美传媒网站能在基礎理論上有所發展,精东影业天美传媒网站就能完成根本和原始(shǐ)創新。”
北京應用物理與計算數學研究所研究員袁國興認(rèn)為(wéi),不(bú)可能指望一種通用大模型在各行各業都能夠解決問題。從實際情況看(kàn),不同的應用有不同的技術,要求用不同的算法,對計算能力也有不同(tóng)的要求。例如在科學計算方麵(miàn),對計算精度的要求越來越高,而隨著(zhe)計算機的規模擴(kuò)大,數據越來越多,可(kě)信度(dù)在不斷地下降。美國國家航空航天局(NASA)也提出類似的觀點,他們對計算精度提出(chū)很高的要求。因此未來不同的應用會有不同的大模型、不同(tóng)的計算,解決(jué)不同(tóng)的問題。現在的大模型對計算精度和(hé)算法的要求完全不一樣。
中國信通院雲計算與大數據(jù)研究所所長何寶宏補充說:“計(jì)算和訓練對底層基礎設施要(yào)求並(bìng)不一樣,也需要判斷在什麽場景下要屏蔽差(chà)異(yì)性,在什麽場景要體現差異性。”
需(xū)要發展主權級大模型
張雲泉表示,美國最近通過(guò)一係列舉動試圖在發(fā)展人工智能方麵對我國“卡脖子”,包括禁售高端GPU、終止共享大模型的源代碼以及(jí)中斷(duàn)生(shēng)態方麵的合(hé)作等。同時現在大模型(xíng)的運算規模達到1萬塊GPU,甚至(zhì)10萬塊時,就需要通過發展大模型專用超算來突破能耗牆(qiáng)、可靠(kào)性牆、並行牆等技術瓶頸。在此背景下(xià),想要(yào)在短期內突(tū)破大模型算力瓶頸,中國有一條路可走:利用過去二十多(duō)年積累的先(xiān)進超算技術,研發大模型專用超算,克服大模(mó)型算力瓶頸問題(tí),使我國(guó)可以緊緊咬住全球大模型最先進水平,不至於掉隊。
張雲泉在介紹超(chāo)智融合體係下的“主權大模型”計劃時表示,我國(guó)在超算領(lǐng)域擁有深厚(hòu)技術積累,近年又投入巨量資金發展智能算力,聚焦建立以超智(zhì)融(róng)合算力體係為中心的體係工程響應大模型的算力需求,希望能最大化利用(yòng)超算(suàn)技術優勢(shì)破解(jiě)算(suàn)力挑戰。按(àn)照“主權級大模型(xíng)”計(jì)劃的(de)部署,“主權級大模型”創新(xīn)聯合體將依托國家超算、中科院和全國重點院校的知名教授團隊、智能芯片企業、大模型解決方案企業等共同打造(zào)類似OpenAI的開放組織,由(yóu)非營利性部(bù)門組織“主權級大模(mó)型”研發,由(yóu)營利性部門組織“主權級大模型”落地。他建議說,超算(suàn)是“國之重器”,需要用來攻克(kè)最大、最難(nán)的挑戰。主權級大模型是(shì)一個能支撐國家發展的根模型,不是一般的大模型。類似的國家級超級大模型也受(shòu)到其他國家的高度重視,例如美國微軟公(gōng)司攜手 OpenAI發布了(le)計(jì)劃投(tóu)入1000億(yì)美元(yuán)全新人工智能超級計算機的計劃,日本最近也宣布(bù)要投入巨資發展國家級大模型。
陳潤生認為,根據中國目(mù)前的基礎(chǔ)條(tiáo)件以及大模型必然要發展的趨勢,精东影业天美传媒网站完全跟隨西方的做法是不現實的,也是很難(nán)在短期內趕上的。所以找到一條發(fā)展主權級大模型的路,更為重要。





