AI行業又一次走到了十字路口。高昂的算力成本,利如紙薄的定制化商業模式,讓AI公司集體深陷「負利潤」的窘境。
企業往往寄希望于AI的能力,實現數字化躍遷,但作為新一代基礎設施,AI行業本身也遭遇了新的難題:算法從研發到落地部署都需要巨額成本的投入,且大量的算法在應用落地上并不順利。
如果從源頭來看,云計算或許就是一劑良藥,因為它能提供更低成本的算力和低門檻的開發服務,算法研發能力不足的企業還能直接在云上調用云廠商提供的算法,無需重復造輪子。
作為知名的市場分析機構,Gartner早早嗅到了這一趨勢,他們從2020年就開始發布《云AI開發者服務關鍵能力報告》,在Gartner看來,AI與云的結合將愈加密切,AI云服務的能力也將成為AI產業的重要指標。
令人欣慰的是,中國企業已經壓中了這一趨勢,在今年的報告里,阿里語言AI技術高居全球第二,超越亞馬遜AWS、微軟等企業,正式進入世界第一梯隊。
也正因如此,AI行業的前景依舊被廣泛看好。Gartner報告提到,到2025年,70%的新應用程序將集成AI模型,而云AI服務能降低AI應用的開發門檻。這意味著云計算將成為陣痛期AI的最大變量。
給AI兜底的,為什么會是云?
AI商業化面前的兩座大山:算力成本、項目成本
早在2017年,學術界和工業界在最具影響力的AI頂會CVPR上就對深度學習的問題展開了激烈的討論。
討論的焦點在于,深度學習的“大數據+大算力”范式需要巨大的成本支撐,這必然成為AI商業化的最大阻力。
“深度學習確實在語音、圖像識別等數據中,比傳統的AI方法更精準,這也是它成為引領第三波AI浪潮的關鍵,只不過深度學習是把雙刃劍,它對燃料(算力、數據、能耗)的消耗,尤其是對算力的需求,遠超傳統方法。好比以前只吃兩個饅頭就能活下去,現在為了活得更好,卻又受到食材的限制,只能選擇天天吃昂貴的和牛。雖然更有營養,但這顯然不可持續。”多位AI專家告訴雷峰網。
由于AI的計算成本和能耗成本一直居高不下,在不少注重效益的研究者眼里,AI深度學習一度成了野蠻和暴力的代名詞。
2012年,谷歌利用16000塊芯片,讓AI觀看數百萬段YouTube視頻來識別出貓,即便如此仍錯誤百出,還不如人類眼睛的一瞥高效。
2016年,AlphaGo擊敗圍棋冠軍李世石的人機大戰中,AlphaGo每局棋需消耗約100萬瓦的電能。相比之下,人腦消耗的功率僅20瓦,只有AlphaGo的5萬分之一。
2018年之后,Transformer以及Bert等催生了預訓練大模型的誕生,雖然讓AI的性能變得更強,但所需的算力也大幅攀升。專門搭建一個這樣的集群,對于大部分中小企業來說是難以承受的。
「算力」的供不應求,讓其成為整個AI領域的稀缺資源。這也是不少學術界AI大牛紛紛涌入谷歌、微軟、阿里等大型科技企業的主要原因,這類企業擁有豐富的業務場景,且有近乎取之不盡的算力資源。
AI所面臨的問題還不僅于此,在商業落地過程中:企業不得不為每一個場景定制專屬解決方案,這無形中增加了企業的開發成本,利潤也因此被壓縮。
早期的創業公司都迷信于“研發SDK,先標準化,再規;,薄利多銷,以量取勝”的商業設想。但現實很骨感,當AI公司們拿著SDK沖進行業里才發現,習慣了重型定制化貼身服務的B端客戶們,需要的不是單個的開發包,也不具備集成SDK的能力,他們需要的是一套定制化的解決方案。一套SDK包打天下的夢想就此破滅。
SDK走天下夢碎后,AI公司們開始從輕變重,走高度定制化解決方案的路子。但充滿個性化定制的項目制模式,極易讓企業滑進虧損的漩渦獲客周期長、實施成本高、重人力交付……成本的高企導致利潤微薄,甚至一不小心做得越多,虧得越多。
標準化美夢易碎,定制化困局難解,AI企業在商業落地上左右為難。
事實證明,由算力成本和項目成本制造的兩條后腿,正在讓AI步履蹣跚。
而要卸下這兩條后腿,就要打破固有思路,走上一條新的道路。專家們向雷峰網分析道,頂尖高校和頭部科技公司現在的探索方向就是:從基礎理論層面,用創新算法讓AI本身變得更精益、更聰明;在工程層面,則需要讓AI研發的成本變得更低。
云計算,為什么是解開“AI成本困局”的良藥
毫無疑問,AI的成本問題,算力是最大的癥結之一,也是破局的最大突破口。
通過算力集群的規;,降低單位算力成本,是一條清晰的、具有一定可行性的道路。
在早期,AI所需算力并不高,CPU足以應對。但隨著深度學習時代的到來,高質量的AI算法背后往往有驚人的數據量,此時訓練所需的數據,規模已遠超當年,更“強悍”的GPU逐漸登上歷史舞臺,成為AI算力的主流。
而當深度學習逐漸加深,模型的規模越來越大,單個GPU已無法滿足算力。這時候,GPU并行的算力集群就顯得尤為重要。大規模的算力集群,不僅能有效降低GPU采購成本,還能通過集群優勢提升計算性能。
但此時新的問題又浮現了:有資源≠天然就用得好資源。如果企業沒有合理高效的資源管理,GPU并行的算力集群自身屬性再強,也無法自動鍛造出優質AI大模型,更無從承載一個體驗尚佳的AI應用。企業如今所面對的AI算力困境,包含著眾多瑣碎痛點:
如果沒有算力線性擴展能力,100臺機器可能還比不上1臺機器的性能,大量的時間就會消耗在非計算開銷里。
如果沒有提升資源利用率的能力,昂貴的GPU集群很容易利用率不足10%。
業務發展速度難以預測,項目來了需要快速投入,等線下購買到資源,很容易錯過機會窗口。
GPU卡故障率高,企業要騰出手來處理IaaS運維等苦活、累活。
GPU幾乎半年更新一代,如果隨時更換成最新型號,成本居高不下,舊卡又會被閑置。
此時,云上開發AI這一方案被擺上桌面,云計算本身具有的彈性、共享性和互通性等特性正與這些痛點匹配。企業可以借助云計算隨時隨地按需靈活擴縮容,進而提升算力效率、降低AI研發成本,基礎設施層的運維等問題也可以交由更專業的云廠商處理。
這讓企業在AI領域模型越演進越復雜,算力需求越來越強的大背景下,可以揚長避短,充分利用市場上已有的技術紅利去自我賦能,提升自身業務迭代效率。
以阿里云為代表的國內互聯網云廠商,早已提前布局,并將這一系列技術對外服務。
阿里云張北數據中心,可容納百萬臺服務器
值得一提的是,不同于AI獨角獸們專注to B、to G,這批提供云AI服務的互聯網云巨頭,自身往往擁有海量的場景業務,可以使算力集群得到高飽和使用,分攤GPU的折舊成本,從而避免GPU集群算力閑置的問題。
這一做法,與谷歌的案例有異曲同工之妙。谷歌前CEO施密特曾談到,谷歌搜索之所以能在競爭中占有優勢,關鍵因素之一在于成本低。
“Google的運營成本只有微軟和雅虎的幾分之一,一次搜索服務的成本只有零點幾美分。節省下來的錢,Google可以購買更多的服務器、提升運算性能,如此一來,在與競爭對手相同的單位價格下,Google可用更多的硬件和算法,實現更好的搜索質量。”
真正一流的技術和科技公司,最先應該做的事是利用技術實現自身的降本增效,只有把生產要素的成本降下來,才能做到真正意義上的進入行業。
這種通過降低自身生產成本,提升計算資源的利用效率,把邊際效應最大化,用最低的成本,走向規;瘧,這是科技產業落地發展的最佳路徑。
除了算力問題,云AI服務也可以有效降低AI應用的開發門檻。以阿里為例,其機器學習平臺PAI、達摩院研發的基礎算法模型以及各種訓練的加速框架等,從低門檻、全鏈路角度出發,高效滿足了AI算法的開發需求。
云廠商扛起AI產業化重擔
跳出技術層面,在商業層面,云計算也在幫助AI產業加速破局。
目前國內AI產業主要有三條演進路徑,從項目制出發:一條是最難獲取高利潤的多行業拓展模式,為了快速鋪大攤子、做大規模,或者尋求業務突破而進入到金融、醫療、零售等數個領域,多線作戰;一條是專注于一個垂直行業,把方案和服務做深做透,進而尋求在某一領域里實現平臺化;還有一條是先聚焦于算法的打磨,做好算法的產品化,再依托云平臺將算法對外服務,并用云平臺的基礎設施能力幫助企業研發算法。
國內AI產業演進的三條路徑
而以阿里云為代表的頭部互聯網云廠商,在AI領域正朝著最良性的第三條道路邁進。
這種模式的好處在于,基于云平臺的底座,不僅可以免去大部分本地化部署的枷鎖,還能提供低成本的自研算法研發,快速為算法研發能力弱的企業服務,例如達摩院研發的視覺、語音、NLP等算法就在阿里云上對外服務。同時,云上的計算、存儲、網絡、機器學習平臺等還能為具備算法研發能力的企業提供AI研發和落地的全鏈路支持。
這條將云與AI完美結合的路徑,已經初有成效。以毫末智行為例,這家公司將算法訓練任務放到阿里云上,利用后者的對象存儲OSS和小文件存儲CPFS,可實現海量數據冷熱分層存儲和高效的數據流通,基于彈性GPU實例在機器學習平臺PAI上進行云上分布式模型訓練,吞吐性能提升110%,模型成熟度在短時間內大幅提高。據介紹,這樣的訓練效率最高可提升70%,整體成本降低約20%。
過去十幾年里,云計算憑借在算力成本和商業上的雙重優勢,以DNA復制般的速度進入到各行各業,如今,其在通用計算領域中已被驗證過的價值正在被復制到AI領域,助力AI沖破落地瓶頸,實現萬千普惠。
Gartner也毫不掩飾對這一趨勢的預判,其最新的AI云服務報告指出,到2025年,人工智能軟件市場規模將達到1348億美元,而云AI服務是其中不可或缺的核心推力之一。
事實上,回顧半個多世紀里人工智能產業一路走來的潮起潮落,每一次低谷崛起都伴隨著某一新變量帶來的突破。如今,云計算正在成為眼下被寄予厚望的最大變量,這一次,將AI產業推向正軌的責任被使命般地交到了云廠商的肩上。雷峰網