展望2018 AI芯片領(lǐng)域:眾多廠商追隨深度學(xué)習(xí)
Gwennap表示,Graphcore(英國(guó)布里斯托爾)和Cerebras(美國(guó)加州洛斯阿爾托)是訓(xùn)練芯片領(lǐng)域值得關(guān)注的兩家初創(chuàng)公司,因?yàn)檫@兩家公司籌集的資金最多,而且似乎擁有最好的團(tuán)隊(duì)。由Google前芯片設(shè)計(jì)師創(chuàng)立的初創(chuàng)公司Groq聲稱(chēng),它將在2018年推出一款推理芯片,在總體操作和每秒推論方面都會(huì)以4倍的優(yōu)勢(shì)擊敗競(jìng)爭(zhēng)對(duì)手。
英特爾的Nervana是一個(gè)大型的線性代數(shù)加速器,位于4個(gè)8-Gb HBM2內(nèi)存堆棧旁的硅中介層上。來(lái)源:Hennessy和Patterson,“計(jì)算機(jī)體系結(jié)構(gòu):一種定量方法”
英特爾代號(hào)為“Lake Crest”的Nervana(上圖)是最受關(guān)注的定制設(shè)計(jì)之一。它執(zhí)行16位矩陣操作,數(shù)據(jù)共享指令集中提供的單個(gè)5位指數(shù)。
與Nvidia Volta一樣,Lake Crest邏輯器件位于4個(gè)HBM2高帶寬內(nèi)存堆棧旁邊的TSMC CoWoS(襯底上芯片上芯片)中介層上。這些芯片被設(shè)計(jì)成網(wǎng)狀,提供5到10倍于Volta的性能。
雖然去年微軟在深度神經(jīng)網(wǎng)絡(luò)上使用了FPGA,但Patterson仍然對(duì)這種方法持懷疑態(tài)度。 “你為[FPGA的]靈活性付出了很多代價(jià);編程真的很難,”他說(shuō)。
Gwennap在去年年底的一項(xiàng)分析中指出,DSP也將發(fā)揮作用。Cadence、Ceva和Synopsys都提供面向神經(jīng)網(wǎng)絡(luò)的DSP內(nèi)核,他說(shuō)。
加速器缺乏共同的基準(zhǔn)
這些芯片即將到來(lái)時(shí),架構(gòu)師們卻還不確定如何評(píng)估這些芯片。
Patterson回憶說(shuō),就像RISC處理器的早期,“每個(gè)公司都會(huì)說(shuō),'你不要相信別人的基準(zhǔn),但是你可以相信我的',這可不太好。”
那個(gè)時(shí)候,RISC廠商們?cè)赟PEC基準(zhǔn)測(cè)試中進(jìn)行合作。現(xiàn)在,深度神經(jīng)網(wǎng)絡(luò)加速器需要自己定義的測(cè)試套件,涵蓋各種數(shù)據(jù)類(lèi)型的訓(xùn)練和推理,以及獨(dú)立芯片和集群芯片。
聽(tīng)到這個(gè)呼吁,Transaction Processing Performance Council(TPC)在12月12日宣布成立了一個(gè)工作組來(lái)定義機(jī)器學(xué)習(xí)的硬件和軟件基準(zhǔn)。TCP是由20多個(gè)頂級(jí)服務(wù)器和軟件制造商組成的團(tuán)體。TPC-AI委員會(huì)主席Raghu Nambiar表示,這么做的目標(biāo)是創(chuàng)建各種測(cè)試,并且這些測(cè)試不關(guān)乎加速器是CPU還是GPU。但是,這個(gè)團(tuán)隊(duì)的成員名單和時(shí)間框架還在不斷變化之中。
百度在2016年9月發(fā)布了一個(gè)基于其深度學(xué)習(xí)工作負(fù)載的開(kāi)放源代碼基準(zhǔn)測(cè)試工具,使用32位浮點(diǎn)數(shù)學(xué)做訓(xùn)練任務(wù)。百度在6月份更新了DeepBench以涵蓋推理工作和16位數(shù)學(xué)的使用。
由哈佛大學(xué)研究人員發(fā)表的Fathom套件中,定義了8個(gè)人工智能工作負(fù)載,支持整數(shù)和浮點(diǎn)數(shù)據(jù)。Patterson表示:“這是一個(gè)開(kāi)始,但是要獲得一個(gè)讓人感覺(jué)舒適的、全面的基準(zhǔn)測(cè)試套件還需要更多的工作。”
“如果我們致力于打造一個(gè)很好的基準(zhǔn),那么所有用在這個(gè)工程上的錢(qián)都是物有所值的。”
除了基準(zhǔn)之外,工程師還需要追蹤仍在演變的神經(jīng)網(wǎng)絡(luò)算法,以確保他們的設(shè)計(jì)不會(huì)被淘汰。
