AI盡頭是電力,隨著AI技術(shù)的廣泛應(yīng)用和深入發(fā)展,其背后的算力需求激增,進(jìn)而引發(fā)了全球?qū)?shù)據(jù)中心及計算設(shè)備能耗激增的廣泛關(guān)注。據(jù)權(quán)威統(tǒng)計數(shù)據(jù)顯示,AI技術(shù)的普及與應(yīng)用已顯著推動了全球數(shù)據(jù)中心能耗的攀升,成為能源特別是電力消耗的一大推手,這也是人們在追求科技進(jìn)步的同時,需要亟待解決的重要議題。
全球AI耗電現(xiàn)狀
總體來看,伴隨著人工智能技術(shù)的迅猛發(fā)展,以及產(chǎn)業(yè)指數(shù)級增長,作為重要支撐的數(shù)據(jù)中心耗電總量和占比大幅上升。據(jù)測算,AI大語言模型GPT-3一次訓(xùn)練的耗電量就達(dá)1287兆瓦時,大概相當(dāng)于3000輛特斯拉電動汽車共同開跑、每輛車跑20萬英里所耗電量的總和。ChatGPT按每天響應(yīng)約2億個請求計算,這一過程消耗超過50萬度電。國際能源署2024年1月發(fā)布報告稱,2022年全球數(shù)據(jù)中心的總耗電量約460太瓦時(1太瓦時=1×10?千瓦時=10億度),約占全球用電量的2%;到2026年,這一數(shù)據(jù)將超過1000太瓦時,大約是整個日本2022年全年的用電量。與此同時,大量的碳排放和數(shù)百萬加侖淡水的消耗也不容小覷。
歐美等國家AI耗電形勢嚴(yán)峻。以跨國公司數(shù)據(jù)中心“扎堆”的愛爾蘭為例,數(shù)據(jù)中心的耗電量已超過該國所有城市家庭用電量的總和,占比約為21%。波士頓咨詢集團(tuán)則預(yù)計,到2030年,美國數(shù)據(jù)中心的用電量將是2022年的三倍,而這一增幅主要來自人工智能。OpenAI首席執(zhí)行官薩姆·奧特曼和特斯拉首席執(zhí)行官馬斯克都曾多次表達(dá)了對電力供應(yīng)的擔(dān)憂。
從中國來看,AI耗能問題也是日益嚴(yán)重。2022年全年,我國數(shù)據(jù)中心耗電量達(dá)到2700億千瓦時,占全社會用電量約3%。預(yù)計到2025年,這一占比將提升至5%,到2030年全國數(shù)據(jù)中心耗電量將接近4000億千瓦時,數(shù)據(jù)中心的節(jié)能降耗迫在眉睫。數(shù)據(jù)中心是數(shù)字經(jīng)濟(jì)發(fā)展的基石,從全國一體化大數(shù)據(jù)中心體系構(gòu)想到部署“東數(shù)西算”,數(shù)字中國戰(zhàn)略持續(xù)深化落地,算力不斷提高,必然需要更高的能源電力,7×24小時連續(xù)運行,電力成本占運營總成本的60%—70%,規(guī)模增長迅速。伴隨著我國產(chǎn)業(yè)轉(zhuǎn)型升級和數(shù)據(jù)中心規(guī)模不斷擴(kuò)大,耗電量會持續(xù)攀升。
總之,人工智能及支撐它的數(shù)據(jù)中心所帶來的耗電問題困擾著全世界,是制約人工智能技術(shù)飛速發(fā)展的主要障礙之一。
AI為何成為耗電大戶
AI成為耗電大戶的原因比較復(fù)雜,涉及數(shù)據(jù)處理、計算需求、芯片技術(shù)、算力中心等多個方面。
首先,從芯片上分析,大語言模型需要巨大的算力支撐,特別是擁有并行計算能力的GPU(圖形處理器)。在大模型訓(xùn)練過程中,需要多塊GPU接連不斷運轉(zhuǎn),一塊GPU的能耗比CPU(中央處理器)高出10—15倍。如一塊英偉達(dá)A100GPU功耗為400瓦。GPT-3訓(xùn)練用到了1024塊A100芯片,而GPT-4更攀升至25000塊,后續(xù)將更新至H100、B200,型號的提升和數(shù)量的激增導(dǎo)致能耗顯著增加。到2027年,英偉達(dá)將推出150萬臺A100服務(wù)器,其中95%被應(yīng)用于AI行業(yè)。每一臺服務(wù)器如果內(nèi)置8塊A100芯片,以1240萬塊A100芯片的耗電量進(jìn)行估算,耗電量將高達(dá)85—134太瓦時,這個已接近瑞典或荷蘭全年總用電量,相當(dāng)于當(dāng)前全球用電量的0.5%。
其次,從運行機(jī)制上分析。GPU架構(gòu)在AI計算中雖具備并行處理優(yōu)勢,非常適合AI算法,可以節(jié)省計算時間,但其當(dāng)前利用率較低(32%—36%),且故障率高,導(dǎo)致訓(xùn)練周期長,如GPT-4訓(xùn)練耗時長達(dá)90—100天,進(jìn)而引發(fā)長期的能源消耗。相比之下,CPU歷經(jīng)近80年發(fā)展,技術(shù)成熟且節(jié)能高效;而GPU架構(gòu)出現(xiàn)不到30年,尚存利用率低與差錯率高的挑戰(zhàn),這導(dǎo)致了能源消耗的增加。因此,優(yōu)化GPU架構(gòu)以提高其效率和穩(wěn)定性,對于減少能源消耗至關(guān)重要。
最后,大語言模型遵從規(guī)模效應(yīng),隨著參數(shù)和數(shù)據(jù)規(guī)模的提高,大模型的智能表現(xiàn)將出現(xiàn)躍升。因此,各大公司都在不斷地擴(kuò)大模型規(guī)模,這給電能消耗帶來了巨大的壓力。如果大模型所用到的算力集中在一個數(shù)據(jù)中心里,在有限時空范圍內(nèi)進(jìn)行訓(xùn)練,會給局部電網(wǎng)帶來非常大的用電負(fù)荷,甚至導(dǎo)致整個電網(wǎng)的崩潰。
AI耗電問題的解決方案
雖然AI的耗電量在社會總用電量中的占比不大,但與家庭用電量相比,已經(jīng)非??捎^了,而且增速太快,如果不加以控制,將導(dǎo)致巨大能源壓力。因此如何應(yīng)對人工智能帶來的巨大能耗,是業(yè)界一直高度重視的問題。
首先,在技術(shù)層面,通過各種方法降低對芯片的功耗需求是業(yè)界努力的方向。英偉達(dá)、谷歌公司等做了很多的嘗試與努力,通過優(yōu)化算法模型,如犧牲一點性能以大大減少計算資源和時間,進(jìn)而帶來能耗效率的大幅提升;用光纖連接芯片,減少原有芯片外部的電力驅(qū)動和電光/光電轉(zhuǎn)換環(huán)節(jié),從而減少能耗;研發(fā)高效的芯片級散熱技術(shù)將散熱效率提升百倍;積極研發(fā)新型計算和傳輸架構(gòu)以提升計算機(jī)處理速度并降低能耗;等等。
其次,數(shù)據(jù)中心的能耗可以通過精心布局加以優(yōu)化。如針對能耗中的散熱問題,從最初的風(fēng)冷,到現(xiàn)在的液冷,各家企業(yè)都在嘗試各種方法為數(shù)據(jù)中心散熱:微軟曾嘗試部署海下數(shù)據(jù)中心,F(xiàn)acebook數(shù)據(jù)中心選址在北極圈附近,阿里云千島湖數(shù)據(jù)中心使用深層湖水制冷等,我國很多企業(yè)則把數(shù)據(jù)中心布局在水電資源豐富的西南地區(qū)。“東數(shù)西算”的原則也是對數(shù)據(jù)與算力進(jìn)行合理匹配,將大量的算力資源部署到西部地區(qū),以降低能耗。
再次,在新能源層面,建立多樣化的能源利用體系。集中力量開發(fā)太陽能、風(fēng)能等可再生能源,擴(kuò)大應(yīng)用并加強(qiáng)儲能技術(shù)研發(fā),確保穩(wěn)定供電。鼓勵企業(yè)探索建設(shè)分布式光伏發(fā)電、燃?xì)夥植际焦┠艿扰涮紫到y(tǒng),引導(dǎo)新型數(shù)據(jù)中心向新能源發(fā)電側(cè)建設(shè),就地消納新能源,推動新型數(shù)據(jù)中心高效利用清潔能源和可再生能源、優(yōu)化用能結(jié)構(gòu),助力信息通信行業(yè)實現(xiàn)碳達(dá)峰碳中和目標(biāo)。同時,探索核聚變等前沿技術(shù)作為長遠(yuǎn)清潔能源。
最后,在政策層面,制定嚴(yán)格的節(jié)能政策與標(biāo)準(zhǔn),對AI系統(tǒng)的能效實施有效監(jiān)管,以激勵企業(yè)采用高效低能耗的計算技術(shù)與硬件設(shè)備;積極推廣綠色數(shù)據(jù)中心建設(shè),倡導(dǎo)采用高效冷卻、能源回收技術(shù),并鼓勵數(shù)據(jù)中心采用可再生能源供電;建立健全電力消耗監(jiān)管機(jī)制,實時監(jiān)控并數(shù)據(jù)分析AI系統(tǒng)的能耗情況,提高能源管理水平,減少不必要的浪費;加強(qiáng)國際合作與交流,共同應(yīng)對AI技術(shù)帶來的能源挑戰(zhàn),分享成功經(jīng)驗、技術(shù)與資源,推動全球范圍內(nèi)節(jié)能標(biāo)準(zhǔn)的制定與實施,以實現(xiàn)能源利用的優(yōu)化與升級,減少對傳統(tǒng)電力的依賴,全面促進(jìn)人工智能產(chǎn)業(yè)的綠色低碳發(fā)展。