<ins id="jxy61"><option id="jxy61"><menu id="jxy61"></menu></option></ins>
          1. 煉數成金 門戶 大數據 超級計算 查看內容

            Google第四代TPU 細節曝光!MLPerf榜單決戰英偉達A100

            2020-7-30 17:06| 發布者: 煉數成金_小數| 查看: 68180| 評論: 0|來自: 新智元

            摘要: 2018年,谷歌在其年度 I/O 開發者大會上宣布了第三代產品,在今天上午剛剛揭開了第四代TPU產品的神秘面紗,該產品目前尚處于研發階段。MLPerf 最新發布的一套人工智能性能基準指標顯示,第四代 TPU集群大幅超越了第 ...
            2018年,谷歌在其年度 I/O 開發者大會上宣布了第三代產品,在今天上午剛剛揭開了第四代TPU產品的神秘面紗,該產品目前尚處于研發階段。
             
            MLPerf 發布的一套人工智能性能基準指標顯示,第四代 TPU集群大幅超越了第三代 TPU的能力,甚至在目標檢測、圖像分類、自然語言處理、機器翻譯和推薦基準等方面,部分能力超越了英偉達發布的 A100。
            MLPerf是致力于機器學習硬件、軟件和服務的訓練和推理性能測試的組織,在AI業界頗受芯片巨頭的關注。MLPerf組織囊括了該行業中的70多個知名企業和機構,包括英特爾、英偉達、Google、亞馬遜、阿里巴巴和百度、微軟、斯坦福大學在內。
             

            谷歌第四代 TPU 的平均性能是上一代2.7 倍
            沒有最強,只有更強!
             
            谷歌稱其第四代 TPU 提供的每秒浮點運算次數是第三代 TPU 的兩倍多,第三代 TPU 的每秒矩陣乘法相當于1萬億次浮點運算。
             
            在內存帶寬方面,也表現出了「顯著」的增長,芯片從內存中獲取數據進行處理的速度、執行專門計算的能力都有所提高。谷歌表示,總體而言,第四代 TPU 的性能在去年的 MLPerf 基準測試中比第三代 TPU 的性能平均提高了2.7倍。
             
            TPU是谷歌在2015年推出的神經網絡專用芯片,為優化自身的TensorFlow機器學習框架而打造,跟GPU不同,谷歌TPU是一種ASIC芯片方案,屬于專門定制的芯片,研發成本極高。
             
            谷歌的處理器是專門為加速人工智能而開發的應用集成電路(asic)。它們是液體冷卻的,可以插入服務器機架; 可以提供高達100petaflops 的計算能力; 還可以支持谷歌產品,如谷歌搜索、谷歌照片、谷歌翻譯、谷歌助理、谷歌郵箱和谷歌云計算人工智能API。
             
            谷歌人工智能軟件工程師 Naveen Kumar 在一篇博客文章中寫道: 「這表明我們致力于推進機器學習研究和工程的規;,并通過谷歌開源軟件、谷歌產品和谷歌云將這些進步傳遞給用戶」。

            「機器學習模型的快速訓練對于研究和工程團隊來說至關重要,意味著團隊可以提供以前無法實現的新產品、服務和研究突破!
             
            ImageNet圖像分類任務,256個TPU1.82分鐘完成訓練
            今年的 MLPerf 結果顯示,谷歌的第四代TPU幾乎無可挑剔。在一個圖像分類任務中,用 ImageNet 數據集訓練ResNet-50 v1.5達到75.90% 的準確率,256個第四代 TPUs 可以在1.82分鐘內完成。
             
            這個速度是什么概念,幾乎相當于768個英偉達 A100顯卡和192 個AMD Epyc 7742 CPU 內核(1.06分鐘)和512個華為 ai 優化的 ascen910芯片與128個英特爾至強鉑金8168內核(1.56分鐘)的速度。
             
            第四代TPU的訓練時間為0.48分鐘,打敗了第三代TPU,但這或許只是因為第三代是4096個TPU串聯的原因。
             
            第四代 TPU 在運行 Mask R-CNN 模型時獲得了最強的效果,Mask R-CNN 模型是用于自動駕駛等領域的圖像分割 AI,其訓練速度是第三代TPU的 3.7 倍。

            目標檢測任務四代TPU略微領先
            在 MLPerf 的「重量級」目標檢測類別中,第四代 TPU略微領先。一個參考模型(Mask R-CNN)用 COCO 語料庫在256個第四代TPU上進行9.95分鐘的訓練,接近512個第三代TPU的時間(8.13分鐘)。
             
            在WMT 英德翻譯數據集上訓練 Transformer 模型,256個第四代 TPU 在0.78分鐘內完成。4,096個第三代 TPU要發花費 0.35分鐘,480個 Nvidia A100(外加256個 AMD Epyc 7742 CPU 內核)要花費0.62分鐘。
             
            第四代TPU在維基百科等大型語料庫上訓練 BERT 模型時也表現良好。使用256個第四代 TPU的訓練時間為1.82分鐘,僅比使用4096個第三代 TPUs 的0.39分鐘稍慢。同時,使用 Nvidia 硬件0.81分鐘就能完成訓練,但需要2048塊 A100卡和512塊 AMD Epyc 7742 CPU 內核。
             
            的 MLPerf ,包括新的和修改過的基準測試--推薦系統和強化學習,對于 TPU來說是喜憂參半。
             
            由64個第四代 TPU 組成的集群在推薦任務中表現良好,花了1.12分鐘在 Criteo AI 實驗室的 1TB 點擊率日志數據集訓練了一個模型,而八塊 Nvidia A100卡和兩塊 AMD Epyc 7742 CPU 核心用了3.33分鐘才完成訓練。
             
            但英偉達在強化學習方向上取得了領先,用256塊 A100卡和64塊 AMD Epyc 7742 CPU 核心,用了29.7分鐘,成功訓練了一款簡化版圍棋模型,獲勝率達到50% ,而256個第四代 TPU一共花了150.95分鐘。
             
            需要注意的一點是,Nvidia 的硬件基準是 Facebook 的 PyTorch 框架和 Nvidia 自己的框架,而不是 Google 的 TensorFlow,第三代和第四代的 TPU 都使用了 TensorFlow、 JAX 和 Lingvo。雖然這可能對結果有些影響,但在基準測試中還是能看出第四代 TPU 有著明顯優勢。

            參考鏈接:
            https://venturebeat.com/2020/07/29/google-claims-its-new-tpus-are-2-7-times-faster-than-the-previous-generation/

            聲明:文章收集于網絡,版權歸原作者所有,為傳播信息而發,如有侵權,請聯系小編刪除,謝謝!

            歡迎加入本站公開興趣群
            軟件開發技術群
            興趣范圍包括:Java,C/C++,Python,PHP,Ruby,shell等各種語言開發經驗交流,各種框架使用,外包項目機會,學習、培訓、跳槽等交流
            QQ群:26931708

            Hadoop源代碼研究群
            興趣范圍包括:Hadoop源代碼解讀,改進,優化,分布式系統場景定制,與Hadoop有關的各種開源項目,總之就是玩轉Hadoop
            QQ群:288410967 

            鮮花

            握手

            雷人

            路過

            雞蛋

            相關閱讀

            最新評論

            熱門頻道

            • 大數據

            即將開課

             

            GMT+8, 2021-4-30 19:54 , Processed in 0.180122 second(s), 24 queries .

            年轻人手机在线观看