![]() 「香港飛龍」標誌 本文内容: 如果您希望可以時常見面,歡迎標星收藏哦~來源:本文編譯自zach,謝謝。四月下旬,資金最雄厚的AI芯片初創公司之一SambaNova Systems大幅偏離了最初的目標。與許多其他AI芯片初創公司一樣,SambaNova最初希望爲訓練和推理提供統一的架構。但從今年開始,他們放棄了訓練的雄心,裁掉了15%的員工,並將全部精力放在AI推理上。而且,他們並非第一家做出這種轉變的公司。2017 年,Groq 還在吹噓他們的訓練性能,但到了2022 年,他們完全專注於推理基準。Cerebras CS-1 最初主要用於訓練工作負載,但CS-2 和後來的版本將重點轉向了推理。SambaNova 似乎是第一代 AI 芯片初創公司中最後一箇仍然認真專注於訓練的公司,但這種情況終於發生了變化。那麼,爲什麼所有這些初創公司都從訓練轉向了推理呢?幸運的是,作爲 SambaNova 的前員工(指代本文作者zach,該作者自稱 2019 年至 2021 年期間在 SambaNova Systems 工作),我(指代本文作者zach,下同)有一些內部人士的見解。SambaNova 非常重視在其硬件上訓練模型。他們發佈了關於如何在硬件上進行訓練的文章,吹噓其訓練性能,並在官方文檔中討論了訓練問題。包括我在內的許多分析師和外部觀察家都認爲,SambaNova 憑藉單芯片同時滿足推理和訓練市場的需求,相較於 Groq 等競爭對手擁有獨特的優勢,而 Groq 是最早轉向推理領域的初創公司之一。SambaNova 還投入了大量時間和精力來實現高效的訓練。我在 2019 年至 2021 年期間在公司工作,花費了大量時間爲NAdam 優化器實現內核,NAdam 優化器是一種基於動量的優化器,常用於訓練大型神經網絡。我們針對訓練設計和優化了硬件和軟件功能,公司內部和外部的信息都表明,對訓練的支持是我們價值主張的關鍵組成部分。現在,SambaNova 突然放棄了大部分工作,轉而專注於推理。我認爲他們這樣做主要有三個原因:推理是一箇更容易解決的問題;推理可能比訓練擁有更大的市場;以及英偉達在 AI 訓練芯片領域的絕對主導地位。推理是一箇更容易、更大的市場許多分析師認爲,人工智能推理的市場規模可能是人工智能訓練市場的十倍。直觀地說,這是有道理的。通常,你只訓練一次模型,然後使用該模型進行許多次推理。每次運行推理的成本遠遠低於模型的整個訓練過程——但如果你使用同一個模型運行推理足夠多次,它就會成爲服務該模型的主要成本。如果人工智能的未來是少數幾個大型模型,每個模型都具有相當大的推理量,那麼推理市場將使訓練市場相形見絀。但如果許多組織最終訓練自己的定製模型,這種未來可能不會實現。但即使推理最終不會成爲比訓練更大的市場,也有一些技術原因使得推理對於 AI 芯片初創公司來說更容易應對。在訓練模型時,你需要在該模型中運行大量訓練數據,在模型運行過程中收集梯度信息,並使用這些梯度來更新模型的權重。這個過程使模型能夠學習。它也極其佔用內存,因爲你需要緩存所有這些梯度以及其他值,例如模型的激活值。因此,爲了高效地進行訓練,需要一箇複雜的內存層次結構,其中包含片上 SRAM、封裝內 HBM 和片外 DDR。AI初創公司很難獲得 HBM ,也很難將 HBM 集成到高性能系統中——因此,許多 AI 芯片(如Groq和d-Matrix)不具備高效訓練大型模型所需的 HBM 或 DDR 容量或帶寬。推理則不存在這個問題。在推理過程中,梯度無需存儲,激活函數使用後即可丟棄。這大大減少了推理作爲工作負載的內存佔用,並降低了僅用於推理的芯片所需的內存層次結構的複雜性。另一箇挑戰是芯片間聯網。訓練過程中生成的所有梯度都需要在訓練過程中使用的每個芯片上同步。這意味着你需要一箇龐大、複雜、全對全的網絡才能高效地進行訓練。另一方面,推理是一種前饋操作,每個芯片只與推理流水線中的下一個芯片通信。 許多初創公司的AI芯片的網絡功能有限,這使得它們不太適合用於訓練所需的全連接性,但足以應付推理工作負載。另一方面,英偉達非常出色地解決了AI訓練所需的內存和網絡挑戰。Nvidia 非常擅長訓練自2012 年 AlexNet 發佈以來,Nvidia 一直是推理和訓練的首選硬件。由於 CUDA 賦予 GPU 的多功能性,它們能夠執行訓練和推理所需的所有操作。在過去十年中,Nvidia 不僅專注於構建針對機器學習工作負載的超優化芯片,還一直在優化其整個內存和網絡堆棧,以支持大規模訓練和推理。由於每個芯片上都擁有大量的 HBM ,Nvidia 硬件能夠輕鬆高效地緩存每個訓練步驟生成的所有梯度更新。藉助NVLink等縱向擴展技術和Infiniband等橫向擴展技術,Nvidia 硬件能夠處理在每個訓練步驟完成後更新大型神經網絡所有權重所需的全對全網絡 (all-to-all) 連接。而Groq和d-Matrix等僅專注於推理的競爭對手則缺乏與 Nvidia 在訓練領域競爭所需的內存和網絡能力。但SambaNova 芯片確實有 HBM。SambaNova芯片在服務器級和機架級都擁有點對點網絡。爲什麼它們不能像 Nvidia 那樣處理訓練問題呢?事實證明,Nvidia 不僅擁有 HBM 和網絡技術來提升訓練性能。他們在低精度訓練方面投入了大量精力,而頂級人工智能實驗室也投入了大量精力來調整算法超參數,使其能夠更好地適應 Nvidia 低精度訓練硬件的特定複雜性。從 Nvidia 芯片轉向 SambaNova 芯片進行訓練,需要修改極其敏感的訓練代碼,以便在全新的硬件上運行,這會帶來一系列全新的隱患。對於大型 GPT-4 規模的模型來說,這樣做的成本和風險是巨大的。SambaNova 轉向推理領域證明,即使一家 AI 芯片初創公司能夠提供與英偉達競爭的內存和網絡能力,也不足以在訓練市場上與這家巨頭抗衡。如果一家初創公司想在訓練領域挑戰英偉達,他們需要提供令人矚目的訓練性能,從而克服英偉達在訓練市場的惰性。而到目前爲止,還沒有人能夠做到這一點。https://www.zach.be/p/why-is-sambanova-giving-up-on-ai半導體精品公衆號推薦專注半導體領域更多原創內容關注全球半導體產業動向與趨勢*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4025期內容,歡迎關注。『半導體第一垂直媒體』實時 專業 原創 深度公衆號ID:icbank喜歡我們的內容就點“在看”分享給小夥伴哦 (本文内容不代表本站观点。) --------------------------------- |