北米時間2017年5月10日NVIDIAの総帥であるJensen(Jen-Hsun) Huang(ジェンスン・フアン)氏は,GTC 2017の基調講演で,新世代GPUアーキテクチャ「Volta」ベースとなる数値演算アクセラレータTesla V100」を発表した。


 Huang氏が明らかにしたところによると,Tesla V100のGPUはTSMCの12nmプロセス技術を採用して製造され,815mm2のダイサイズ210トランジスタを集積。CUDA Core数は5120基に達するとのことだ。Pascal世代の最上位GPUである「GP100」だとダイサイズが610mm2,CUDA Core数が3584基なので,文句なしにNVIDIA史上最大のプロセッサとなる。

 組み合わせるメモリSamsung Electronicsと共同で開発したという積層タイプHBM2)で,帯域幅は900GB/s。また,独自インタフェース「NVLink」は第2世代へと進化し,300GB/sの帯域幅を確保しているという。TDP(Thermal Design Power)は300Wとのことだ。


 演算性能はFP64(倍精度浮動小数点演算)が7.5 TFLOPS,FP32(単精度浮動小数点演算)が15 TFLOPS。さらにTesla V100は深層学習アクセラレーションを行うため4x4のマトリックス演算を行う「New Tensor Core」を持ち,これにより最大120 TFLOPSの演算性能を実現するとのことだ。Huang氏は,このNew Tensor Coreによって,Google深層学習フレームワークTensor Flow」は従来比で12倍の速度で処理できると語っていた。
 もっとも,New Tensor Coreと言っても,CUDA Coreとは別に何か独立した演算コアが存在するわけではないようだ。CUDA Coreを拡張してTensor Coreとして機能するような仕組みにしてあるのではないかと思われる。


 Tesla V100搭載製品としては,既存の深層学習マシン「DGX-1」をべースに,8基のプロセッサをTesla V100へ入れ替えた「DGX-1 With Tesla V100」と,「パーソナルスーパーコンピュータ」として訴求され,4基のTesla V100を搭載する「DGX Station」,そして8基のTesla V100を搭載するクラウドサーバー「HGX-1」が発表となった。
 DGX-1 With Tesla V100は深層学習において960 Tensor TFLOPSの演算性能を持ち,「サーバー400台分の能力を持つ」(Huang氏)という。


 なお,Tesla V100は深層学習専用のアクセラレータというわけではなく,汎用的な数値演算やグラフィックスのアクセラレーションにも利用できるという。その実例としてHuang氏は,「FINAL FANTASY XV」と世界感を共有するフルCG映画「KINGS GLAIVE FINAL FANTASY XV」のグラフィックスデモも披露している。


 またHuang氏は,PCI Expressカード型のTesla V100,「FHHL」(Full Hight, Half Length)も発表している。「CDカードサイズ」(Huang氏)でパッシブ冷却方式を採用するカードTesla V100は,深層学習においてSkylake世代のCPUに対して15〜20倍の性能を持つとのこと。「3000ドルでコンピュータTesla V100を追加できる」とも氏は語っていたので,カード版の価格はその程度に設定される可能性が高い。





リンクGTC公式Webサイト(英語)

リンクGTC 2017の基調講演Live blog(英語)


―――――――――――――――――――――――――――――
記事URLhttp://www.4gamer.net/games/208/G020859/20170511001/
→この記事を4Gamerで読む(※画像などがすべてある完全版です)
―――――――――――――――――――――――――――――
関連タイトル
HARDWARE Volta(開発コードネーム)

―――――――――――――――――――――――――――――
Copyright (C) 2000-2017 Aetas, Inc. All rights reserved.

[GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積