![]() 香港飛龍.online 官方授權發布的第4代「香港飛龍」標誌 本文内容: 如果您希望可以時常見面,歡迎標星收藏哦~來源:內容編譯自AMD。AMD週四證實,已收購UntetherAI的員工,UntetherAI是一家AI推理芯片開發商,其產品據稱比邊緣環境和企業數據中心的競爭對手產品速度更快、更節能。AMD發言人在一份聲明中告訴CRN:“AMD已達成戰略協議,將從UntetherAI收購一支優秀的AI硬件和軟件工程師團隊。”該代表補充道:“此次交易將爲AMD帶來一支世界一流的工程師團隊,致力於提升公司的AI編譯器和內核開發能力,並增強我們的數字和SoC設計、設計驗證和產品集成能力。我們非常高興地歡迎該團隊以其獨特的專業知識加入AMD。”AMD發言人拒絕透露該交易的財務細節。UntetherAI高管鮑勃·比奇勒(BobBeachler)發表聲明稱,作爲交易的一部分,該初創公司“將不再提供或支持我們的speedAI產品和imAIgine軟件開發套件”UntetherAI的產品和策略當我們上次關注UntetherAI是在2021年時,這家AI推理硬件初創公司剛剛獲得1.25億美元的融資,而這距離該公司正式推出其第一代runAI200設備及其獨特的內存推理方法已經過去了一年。第五輪融資遠超這家成立四年的公司此前籌集的2700萬美元,使UntetherAI的總融資額達到1.52億美元。在本週舉行的HotChips34線上會議上,業界得以一窺這家初創公司如何運用這筆新獲得的資金。UntetherAI推出了用於AI推理工作負載的第二代內存架構speedAI240設備,其內部代號爲“Boqueria”。該架構旨在提高能源效率和密度,並配備空間架構,使設計人員能夠將其擴展到更小或更大的設備,並以某種方式互連,以處理最大的自然語言處理模型。該公司最初的runAI200推理加速器採用臺積電16納米工藝製造,提供500INT8TOPs性能、每瓦8TOPs的能效和200MB的SRAM。新款“Boqueria”芯片採用臺積電7納米工藝製造,具有2petaflops的FP8性能(相當於每瓦30teraflops)和238MB的SRAM內存。UntetherAI產品和硬件架構副總裁、曾在賽靈思和Altera等公司任職的資深人士RobertBeachler在HotChips大會的演講中表示:“藉助Boqueria,我們正在解決AI推理面臨的三大關鍵挑戰。首先,它的內存計算結構提供了無與倫比的能效,從而能夠提升神經網絡的吞吐量和加速能力。它是一種可擴展的空間架構,使我們能夠製造更小和更大的設備,並將它們互連在一起,從而擴展到最大的自然語言處理模型。此外,由於我們選擇了合適的計算粒度,我們能夠支持當今的神經網絡架構,併爲未來的神經網絡做好準備。”它還支持多種數據類型,使組織能夠在準確性和吞吐量之間進行權衡,以滿足其應用程序的特定需求,Beachler說。UntetherAI擁有一支擁有深厚加速器經驗的團隊,成立於2018年,並進入了人工智能推理領域,該領域不僅擠滿了谷歌、Nvidia和微軟等老牌公司,還有Cerebras、SambaNova、Graphcore和CelestialAI等一大批初創公司,所有這些公司都希望在人工智能和機器學習市場獲得發展。正如我們在2020年該公司重出江湖時深入探討的那樣,該公司的一箇關鍵差異化優勢在於其內存計算架構。正如Beachler在HotChips上所解釋的那樣,神經網絡計算中90%的能耗來自於從外部存儲器或內部緩存中移動數據。傳統的馮·諾依曼近內存架構效率低下,總線又長又窄,緩存也很大。另一方面,內存架構能耗低,但這種設計也會降低性能。“我們是內存計算領域的先驅,將計算元件直接連接到存儲單元。這是人工智能加速的最佳點。”他說道,並補充道,“內存計算採用標準的數字邏輯工藝和標準的SRAM單元,但由於數據從存儲單元到實際計算元件的傳輸距離非常短,因此能效極高……我們在Untether所做的,實際上是儘可能提高數據傳輸的效率,並將計算放在數據所在的地方。我們還構建了架構,使其在必要的粒度級別上擁有適量的計算能力,並專門針對神經網絡加速進行了定製。”對於speedAI240設備,UntetherAI還實現了兩種不同的AP格式——一種是4位尾數版本,稱爲FP8p(精度),另一種是FP8r(範圍)。該公司表示,這爲跨不同網絡(例如ResNet-50等卷積網絡和BERT-Base等轉換網絡)的推理提供了最佳的準確度和吞吐量。通過這些FP8實現,與BF16數據類型相比,該公司發現準確度損失不到1%的十分之一,吞吐量和能效提高了四倍。內存架構的基礎是內存庫。Boqueria的第二代內存庫可容納兩個1.35GHz7納米RISC-V處理器,使speedAI240設備擁有1,435個核心。每個RISC-V處理器管理四個行控制器,每個控制器獨立運行。Boqueria還支持外部內存,通過兩個x64端口和PCI-ExpressGen5接口,可支持32GBLPDDR5內存,用於主機和芯片間的連接。Bleacher表示,UntetherAI通過添加各種指令對RISC-V芯片進行了改造,以使其適應AI推理的需求。UntetherAI聯合創始人兼首席技術官MartinSnelgrove概述了speedAI架構的層次結構,從低功耗SRAM陣列和處理單元,到高效的數據傳輸設計,其中包括一種名爲“肩袖”的通信設計,用於引導存儲體內部和存儲體之間的通信。此外,還有一箇高帶寬片上網絡(NOC)圍繞芯片外圍運行。“這不是現成的NOC,”Snelgrove說。“它的設計是爲了提高能源效率。數據會以儘可能短的距離發送,這意味着會消耗盡可能少的能量,並且管理員可以選擇設置任何利用方式。”Beachler表示speedAI的空間架構推動了它的擴展能力。他說:“我們可以減少芯片上內存條的數量,以適應不同的外形尺寸和功耗要求。在我們的整個Boqueria系列中,我們將從一些1瓦的設備一直擴展到基礎設施級設備的B4。這使我們能夠滿足多種不同的性價比和外形尺寸需求。我們將推出一系列從單瓦.m2到PCI-Express的卡。我們擁有非常靈活的I/O環,這使得它能夠支持chiplet,因此對於那些希望將die-to-die與SoC直接集成的用戶來說,我們也具備這種能力。”他表示,UntetherAI能夠將六臺Boqueria設備安裝到一張PCI-Express卡上,從而驅動大量SRAM功能,以擴展到最大的語言模型。他還補充道:“憑藉我們的芯片間和卡間互連技術,我們現在可以實現非常強大的服務器。此外,我們還配備了外部LPDDR5,爲芯片提供了巨大的存儲空間。總而言之,這種可擴展性使我們能夠在標準PCI-Express尺寸下提供最佳性能和能效。”UntetherAI還提供了ImAIgineSDK,該SDK能夠從TensorFlow和PyTorch等常見機器學習框架中提取神經網絡,並“將其精簡爲在這些RISC-V處理器上運行的內核代碼”,Beachler表示。“我們提供預先創建的神經網絡模型,但大多數客戶都擁有自己已經訓練好的神經網絡。我們提供自動量化功能,將其精簡爲所需的數據類型。”供應商還負責編譯和映射到內核代碼、將內核放置到芯片上的物理分配以及自動互連。此外,還有一套分析工具,一旦供應商獲得編程文件,就可以將其放入芯片中,並通過具有基於C或Python的API的運行時對其進行控制,以便集成到企業更大的機器學習框架中。AMD還收購了一家軟件公司與此同期,AMD收購還收購了軟件公司Brium,強化開放AI軟件生態系統。AMD在官方博客中表示,公司致力於構建高性能、開放的AI軟件生態系統,賦能開發者,推動創新。今天,我們非常高興地宣佈收購Brium,這支團隊匯聚了世界一流的編譯器和AI軟件專家,在機器學習、AI推理和性能優化方面擁有深厚的專業知識,邁出了新的一步。Brium帶來了先進的軟件功能,增強了我們在整個堆棧中提供高度優化的AI解決方案的能力。他們在編譯器技術、模型執行框架和端到端AI推理優化方面的工作將在提升我們AI平臺的效率和靈活性方面發揮關鍵作用。此次收購鞏固了我們長期創新的基礎。它體現了我們對人工智能的戰略承諾,尤其是對構建智能應用未來的開發者的承諾。這也是繼收購SiloAI、Nod.ai和Mipsology之後,我們一系列定向投資的最新舉措,這些投資共同提升了我們支持開源軟件生態系統的能力,並在AMD硬件上提供優化的性能。Brium的獨特之處在於其能夠在模型到達硬件之前優化整個推理堆棧。這減少了對特定硬件配置的依賴,並在廣泛的部署中實現了更快、更高效的開箱即用AI性能。憑藉在編譯器開發和分佈式機器學習基礎架構方面的豐富經驗,該團隊將立即爲OpenAITriton、WAVEDSL和SHARK/IREE等關鍵項目做出貢獻。這項工作對於在AMDInstinct™GPU上更快、更高效地執行AI模型至關重要。通過專注於MXFP4和FP6等新的精度格式,我們正在使我們的AI平臺能夠更有效地處理訓練和推理中出現的工作負載,幫助開發人員在保持效率和成本效益的同時實現更高的性能。人工智能正以驚人的速度發展,開發者需要一箇不僅強大,而且靈活開放的生態系統。收購Brium將通過引入深厚的專業知識來加速支持我們AI軟件堆棧的開源工具的發展,從而強化這一願景。Brium在庫、編譯器、構建系統、分佈式系統和機器學習技術方面擁有豐富的經驗,並具備獨特的跨領域能力,能夠在整個產品線中創造強大的協同效應。這種深度的拓展使我們能夠爲開發者和客戶提供更全面、更集成的解決方案。隨着人工智能在醫療保健、生命科學、金融和製造等行業日益重要,AMD致力於滿足這些垂直領域客戶的特殊需求。此次收購Brium帶來的專業知識正是推進這一使命所需的。他們成功將深度圖庫(DGL)移植到AMDInstinct平臺,清晰地展現了他們如何在健康科學領域實現尖端人工智能應用。這種領域專業知識增強了我們爲高價值行業提供優化解決方案的能力,拓寬了我們的市場覆蓋範圍,並鞏固了我們在各行各業作爲值得信賴的合作伙伴的地位。此次收購是AMD使命的又一重要進展,即爲開發者提供開放、可擴展的AI軟件平臺,充分釋放我們硬件的潛力。展望未來,我們將繼續投資於人才、工具和技術,以增強我們支持AI開發者社區的能力,並助力各行各業實現突破。這不僅僅是軟件方面的努力,更是致力於爲客戶提供真正的價值,推動AMD平臺的普及,並助力定義AI計算的新時代。我們熱烈歡迎Brium加入AMD,並期待與Brium攜手加速創新。我們秉持着對開放性和開發者至上理唸的共同承諾,正在推動各行各業的AI發展,不斷突破無限可能。半導體精品公衆號推薦專注半導體領域更多原創內容關注全球半導體產業動向與趨勢*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4057期內容,歡迎關注。『半導體第一垂直媒體』實時專業原創深度公衆號ID:icbank喜歡我們的內容就點“在看”分享給小夥伴哦 (本文内容不代表本站观点。) --------------------------------- |