人工智能公司Cerebras Systems正在推出有史以來最大的半導體芯片“晶圓級引擎”(WSE,Wafer Scale Engine)。這款芯片每邊寬約22厘米(約8.5英寸),比一臺iPad還要大。

(圖源:Cerebras Systems)
Cerebras Wafer Scale Engine擁有1.2萬億個晶體管。這是什么概念?1971年,英特爾首款4004處理器擁有2300個晶體管,最近的AMD處理器擁有320億個晶體管。如今Cerebras Systems則成為打破紀錄的那顆新星!
WSE還包含3,000倍的高速片上存儲器,并且具有10,000倍的存儲器帶寬。
其芯片尺寸是英偉達“V100”芯片的57倍,擁有的存儲器電路達到18千兆字節,是“V100”的3000倍。

這塊芯片面積達到了46,225平方毫米,而英偉達旗艦GPU“Titan V”的核心面積也僅有815平方毫米。
這款里程碑式的芯片來自Andrew Feldman領導的團隊,后者曾創建微型服務器公司SeaMicro,并以3.34億美元的價格出售給AMD后,又到AMD做了兩年半的副總裁。該公司位于美國加州,擁有194名員工。自成立以來,Cerebras Systems已經悄然完成三輪融資,籌集1.12億美元,估值飆升至8.6億美元,其投資者包括了Benchmark,以及AMD前CTO Fred Weber、OpenAI科學家Ilya Sutskever等業界大牛。
雖然一直行事低調,Cerebras Systems的偉大項目終于還是浮出了水面:他們想將所有數據都保存在一個巨大的芯片上,以便加快系統運行速度,節省數據在芯片之間傳遞所造成的不必要的消耗。Cerebras表示,WSE可以把處理復雜數據所需的時間從幾個月縮短到幾分鐘。總結來看,WSE芯片具有三大特征:超強AI算力、高效存儲、高帶寬通信。
芯片尺寸在AI中非常重要,因為更大面積的芯片可以更快地處理信息,在更短的時間內得出答案。減少洞察時間或“培訓時間”,使研究人員能夠測試更多想法,使用更多數據并解決新問題。谷歌、Facebook、OpenAI、騰訊、百度和許多其他頭部企業和參與者認為,當下人工智能的基本限制就在于——培訓模型需要很長時間。因此可以說,縮短培訓時間,就消除了整個行業進步的一大核心瓶頸。
當然,芯片制造商通常不會制造如此大的芯片。在單個晶片上,在制造過程中通常會發生一些瑕疵。如果一種瑕疵會導致芯片發生故障,那么晶圓上的一些瑕疵就可能導致一些芯片報廢。實際制造產量僅占實際工作芯片的百分比。如果晶圓上只有一個芯片,它有瑕疵的幾率是100%,而瑕疵會使芯片報廢。但Cerebras的芯片是冗余式的設計,一種瑕疵不會讓整個芯片陷入“癱瘓”。如果有的核心出了問題,內部鏈接可以跳過壞掉的核心。這種方法大大降低了芯片的制造成本。
WSE超級芯片專為AI設計而設計,包含了基礎創新,通過解決過去限制芯片尺寸數十年的技術挑戰——例如交叉光罩(cross-reticle)連接、成品率、功率輸送和封裝,從而推動了最先進技術的發展。
“每個架構決策都是為了優化AI工作的性能。結果是,Cerebras WSE根據工作量提供了數百或數千倍的現有解決方案的性能,只需很小的功耗和空間。”Cerebras首席執行官Feldman表示,“WSE訓練AI系統的速度可以比現有硬件快100-1000倍。”
通過加速神經網絡訓練的所有元素,實現了這些性能提升。神經網絡是多級計算反饋回路。輸入在循環中移動越快,循環學習的速度——或“訓練”——就會越快。在循環更快地實現移動輸入的方法,關鍵在于加速循環內的計算和通信。
Linley Group首席分析師Linley Gwennap在一份聲明中說:“Cerebras憑借其晶圓級技術實現了巨大的飛躍,在單片硅上實現了比任何人想象的更多的處理性能。”“為了實現這一壯舉,該公司已經解決了一系列艱辛的工程挑戰,這些挑戰幾十年來阻礙了該行業,包括實施高速芯片到芯片通信,解決制造缺陷,封裝如此大的芯片,以及提供高密度電源和冷卻。通過將各種學科的頂級工程師聚集在一起,Cerebras在短短幾年內創造了新技術并交付了一個產品,這是一項令人印象深刻的成就。“
芯片面積比最大的圖形處理單元多56.7倍,Cerebras WSE提供更多內核進行計算,更多內存靠近內核,因此內核可以高效運行。由于這些大量的內核和內存位于單個芯片上,因此所有通信都保留在芯片上,這意味著它的低延遲通信帶寬是巨大的,在此基礎上內核組可以以最高效率進行協作。
WSE面積為46,225平方毫米,包含400,000個AI優化、無緩存、無開銷的計算內核,和18千兆字節(Gigabytes)的本地、分布式、超高速SRAM內存,作為內存層次結構的唯一級別。內存帶寬為9 PByte/S。這些內核通過細粒度,全硬件,片上網狀連接通信網絡連接在一起,可提供每秒100 petabits的總帶寬。更多內核、更多本地內存和低延遲高帶寬結構,共同構成了加速AI工作的最佳架構。

(圖源:Cerebras Systems)
“雖然AI在一般意義上使用,但沒有兩個數據集或AI任務是相同的。新的人工智能工作負載不斷涌現,數據集繼續增長,“Tirias Research首席分析師兼創始人Jim McGregor在一份聲明中表示。“隨著人工智能的發展,硅和平臺解決方案也在不斷發展。Cerebras WSE是半導體和平臺設計領域令人驚嘆的工程成就,可在單晶圓級解決方案中提供超級計算機的計算、高性能存儲器和帶寬。
這些公司表示,如果沒有多年與全球最大的半導體代工廠或合約制造商臺積電及先進工藝技術的領導者密切合作,那么Cerebras WSE的創紀錄成就是不可能實現的。WSE由臺積電基于其先進的16nm工藝技術制造。
“我們非常高興與Cerebras Systems合作制造Cerebras Wafer Scale Engine,這是晶圓級開發的行業里程碑,”臺積電運營部門高級副總裁J.K. Wang表示:“臺積電的卓越制造和對質量的嚴格關注使我們能夠滿足嚴格的缺陷密度要求,以支持Cerebras創新設計前所未有的芯片尺寸。”
核心,更多的核心
WSE包含400,000個AI優化的計算核心。被稱為稀疏線性代數核心(Sparse Linear Algebra Cores)的SLAC,計算核心靈活,可編程,并針對支持所有神經網絡計算的稀疏線性代數進行了優化。SLAC的可編程性,確保內核可以在不斷變化的機器學習領域中運行所有神經網絡算法。
由于SLAC針對神經網絡計算基元(compute primitives)進行了優化,因此它們可實現業界最優的利用率——通常是圖形處理單元的3-4倍。此外,WSE核心包括Cerebras發明的稀疏性收集技術,以加速稀疏工作負載(包含0的工作負載)的計算性能,如深度學習。
Zeros在深度學習計算中很普遍。通常,要相乘的向量和矩陣中的大多數元素都是0。然而,搭載0相當于是在浪費硅、功率和時間,因為沒有新的信息。
由于圖形處理單元和張量處理單元是密集的執行引擎,它們被設計為永遠不會遇到0的引擎,即使遇到也會算上每個元素。當50-98%的數據為零時,如深度學習中的情況一樣,大多數乘法運算都被浪費了。想象一下,當你的大部分步驟沒有讓你走向終點時,試圖快速前進完全就是在浪費精力。而Cerebras的稀疏線性代數核不會乘以零,所有零數據都會被過濾掉,并且可以在硬件中跳過,從而可以在其位置上完成有用的工作。
內存
內存是每個計算機體系結構的關鍵組件。更接近計算的內存轉換為更快的計算,更低的延遲和更好的數據移動功效。高性能深度學習需要大量計算,并且頻繁訪問數據。這需要計算核心和存儲器之間的緊密接近,這在圖形處理單元中并非如此,其中絕大多數存儲器是緩慢且遠離的(片外)。
而WSE包含更多內核,具有比迄今為止任何芯片更多的本地內存,并且在12小時內可以通過其核心訪問18 GB的片上內存。WSE上的核心本地內存集合可提供每秒9 PB的內存帶寬——比領先的圖形處理單元多3,000倍的片上內存和10,000倍的內存帶寬。
通信結構
Swarm通信結構是WSE上使用的處理器間通信結構,它以傳統通信技術的功耗的一小部分實現突破性帶寬和低延遲。Swarm提供低延遲、高帶寬的2D網格,可連接WSE上的所有400,000個核心,每秒帶寬為100 petabits。Swarm支持單字活動消息,可以通過接收內核來處理,而無需任何軟件使用。
Cerebras WSE的總帶寬為每秒100 petabits。不需要諸如TCP/IP和MPI之類的通信軟件,因此避免了它們的性能損失。該架構中的通信能量成本遠低于每比特1焦耳,這比圖形處理單元低近兩個數量級。通過結合大量帶寬和極低的延遲,Swarm通信結構使Cerebras WSE能夠比任何當前可用的解決方案更快地學習。
目前,Cerebras如何讓40萬個內核高效協同仍有待觀察,不過從結果來看,Cerebras做了相當振奮人心的嘗試,未來潛力讓人期待!
責任編輯:Rex_08










營業執照公示信息