オススメ機能: お気に入り; 記事履歴; ランキング

記事検索
ゲームタイトル/メーカー名検索
詳細な検索へ

ハードウェア: レビュー; テストレポート; インタビュー; ムービー; ドライバ; ベンチマークレギュレーション

AC

アナログ

▼その他 PSV 3DS

Volta（開発コードネーム）

NVIDIA

Volta（開発コードネーム）

ニュース（20）
特集（2）
レビュー（1）
ムービー（3）

お気に入りタイトル/ワード

タイトル/ワード名（記事数）

最近記事を読んだタイトル/ワード

タイトル/ワード名（記事数）

週刊連載

Features

発売スケジュール

LINEで4Gamerアカウントを登録

［GTC 2018］西川善司の3DGE：Voltaの熟成を狙うNVIDIAは，サーバー向けやAI用途への拡大を進める

特集記事一覧

注目のレビュー

注目のムービー

問い合わせ

メディアパートナー

トップ>HARDWARE>GPU>Volta（開発コードネーム）

2018/03/30 00:00

イベント

［GTC 2018］西川善司の3DGE：Voltaの熟成を狙うNVIDIAは，サーバー向けやAI用途への拡大を進める

ライター：西川善司

　北米時間2018年3月27日，NVIDIAが主催する開発者向けイベント「GPU Technology Conference 2018」（以下，GTC 2018）で，同社創業者兼CEOであるJensen Huang（ジェンスン・フアン）氏が，恒例の基調講演に立った。

　GPU Technology Conference（以下，GTC）では2016年まで，GPUアーキテクチャのロードマップ開陳が定例行事となっていたのだが，それまでの「GPU関連技術会議」からディープラーニングとAI，自動運転のイベント的な色彩がぐっと濃くなった2017年，氏はより具体的なGPU技術の応用について語り，GPUロードマップを明らかにしなかった（関連記事）。ならば今年はどうかというと，その方向性が明確になったと言え，つまりロードマップの披露はまたしてもなかったわけだが，ならNVIDIAの総帥は年に一度のイベントで何を語ったのか。今回は，筆者なりの重み付けに基づいて，考察を交えつつも内容を紹介してみたい。

会場は例年どおりのSan Jose McEnery Convention Centerだが，GTC 2018の総セッション数は600を超え，会場のキャパシティを超えつつある。実際，2018年は周辺ホテルの宴会場まで活用しているので，セッションの合間に移動するだけでも忙しい。右はお馴染みの革ジャン姿でステージに登場したHuang氏。終始笑顔でジョークを連発しながら話を進めていたが，それが原因かどうかはともかく，基調講演は終了予定時刻より30分以上も長引いた

メモリを倍増したマイナーチェンジ版GV100を披露も，

GPUアーキテクチャの刷新はなし

　GPUロードマップの話がなかっただけで，GPUの話がなかったわけではもちろんない。まずは，4Gamer読者にとって一番の関心事であるGPUの話から始めよう。

Quadro GV100

　NVIDIAは2016年にPascal世代の「Tesla P100」とそのGPUである「GP100」，2017年にはVolta世代の「Tesla V100」とそのGPUである「GV100」といった具合に，2年連続でGTCにおいてTeslaの新作とそこに載るGPUを発表していた。それだけに，GTC 2018でもと期待は高まっていたが，蓋を開けてみれば，出てきたのはHBM2メモリの容量をGV100比で2倍の32GBにしたマイナーチェンジ版GPU「Tesla V100 32GB」と，同GPUが載る「Tesla V100 32GB」「Quadro GV100」だけだった（関連記事）。Quadro GV100のほうは「Volta世代初のQuadro」として価値があるものの，GPUアーキテクチャ的には肩すかしな感が否めない。

Volta世代初のワークステーション向けグラフィックスカードとなるQuadro GV100は，「NVLink 2」を活用することでデュアルカード構成も取ることができる。Huang氏は，NVLink 2接続により，2基のGPUを1基のGPUとして扱えるとアピールしていた

　Tesla V100のベースとなっているGV100は，「ローカルメモリとしてのHBM2をGPUダイの周辺4か所に実装したパッケージ」を採用しているのだが，1か所あたりのHBM2容量は4GBだった。それに対してHBM2容量32GB版GV100では，1か所あたりのHBM2容量を2倍の8GBにすることで，総容量も2倍にしたわけだ。
　NVIDIAによると，HBM2容量32GB版GV100のGPUコアは2017年モデルのGV100と同一だという。つまり，Tesla V100 32GBの演算性能自体は，従来のTesla V100からまったく変わらないということになる。

HBM2容量32GB版GV100が載ったTesla V100 32GBのCGイメージ。GPUコア自体はTesla V100時代とまったく同じだそうだ

　GP100，GV100と，基調講演に合わせて順調にGPUアーキテクチャの刷新を行ってきたNVIDIAが，2018年は新アーキテクチャがないと聞くと，「いよいよNVIDIAも足踏みか」と思うかもしれないが，実は無理もないことだったりする。

　GV100は，半導体製造事業者のTSMCがNVIDIA GPU専用に用意したプロセス技術「12nm FFN」（FFN：FinFET NVIDIA custom）を用いて製造されている。ところが，ダイサイズが815mm²もあるGV100は，Huang氏も自負するように，「地球上に現存する最新最先端の露光装置が一括で露光できる最大限界のサイズ」となっているため，半導体のダイサイズをこれ以上大きくするわけにはいかないのだ。

　GV100のサイズを維持したままトランジスタ数を増やすためには，製造プロセスの微細化が不可欠となる。最近のNVIDIA製トップエンドGPUにおける総トランジスタ数は，世代ごとに約1.4倍の増加量を示していた。そのため，約210億トランジスタを集積したGV100の“次”では約300億トランジスタ前後に達することが見込まれるわけだが，この規模のプロセッサを製造できるプロセス技術の選択肢が現在のところ存在しない。なのでNVIDIAとしても，今回はGV100のマイナーチェンジに留めるしかなかったのだと思われる。

　気になるリリース時期だが，Tesla V100 32GBとQuadro GV100はいずれも4月発売予定となっている。
　GV100搭載の製品と言えばGeForce Driverで動作する「TITAN V」もあるので，「こちらもHBM2容量32GB版へ切り替わったりするの？」と思うかもしれないが，その点についてHuang氏が基調講演でわざわざ「TITAN Vが品切れになっていて申し訳ない。この問題はいずれ解決する」と述べていた点は興味深いところだ。希望的観測を加味して深読みするなら，TITAN VもHBM2容量32GB版として4月以降にモデルチェンジする可能性はあるだろう。

Quadro GV100の製品イメージ。カードの側面側にNVLink用のインタフェースが2系統あるが，それとは別に「SYNC」「STEREO」も確認できる。SYNCのほうは，複数台のグラフィックスカードから複数枚のディスプレイに映像を同時出力するとき表示がずれないよう同期を取る「Quadro G-SYNC」用だろう。STEREOは，立体視用技術「Quadro Quad Buffered Professional Stereo Technology」用のインタフェースと思われる（関連リンク）

GV100を相互接続する「NVSwitch」と，16基のGPUを実際につないだGPUサーバー「DGX-2」も発表に

　ハードウェア回りで大きな発表はもうひとつあった。
　それが，最大で16基のGV100を相互接続できるインターコネクト技術「NVSwitch」だ。チップセットの一種という理解でも構わない。

NVSwitchのイメージ

16基のGV100をNVSwitchで結んだイメージ。この場合，NVSwitchは12基必要になる

　NVSwitchを使ったシステムでは，GPU間でデータのやり取りを，リングバスのようなバケツリレー方式によることなく，当該GPU間で直接行える。GPUごとのローカルメモリへもシームレスにアクセスできるようになっており，同一のメモリアドレスへ複数のGPUが同時にアクセスすることで競合が起こることを防ぐ不可分操作は，NVSwitchが担当するそうだ。

NVLinkとNVSwitchの違い

　基調講演におけるNVSwitchの説明は，細部を省略していたものだったので，少し噛み砕いて解説しよう。
　NVSwitchは1基あたり18リンク分のGPU相互接続機能を持っており，1リンクの内訳は，片方向あたり25Gbpsの帯域幅を持った双方向伝送路が8レーンとなっている。つまり，NVSwitchあたりの最大データ転送速度は，

25Gbps×2（※双方向）×8レーン×18リンク＝7200Gbps

となる。“GB換算”で900GB/sだ。

　一方のGV100側は6リンク分のNVLinkインタフェースを持っている。なので，

900GB/s÷（18リンク÷6リンク）＝300GB/s

という計算式から，NVSwitchを介したGPU間伝送の帯域幅は上り下りの双方向合わせて300GB/sということになるわけだ。

NVSwitchを経由したGPUとGPU間のデータ伝送速度は，300GB/sに達する

　そんなNVSwitchを12基まとめ，16基のHBM2容量32GB版GV100を相互接続させたシステムとなるのが，3月28日の記事で速報をお伝えしている「DGX-2」だ。

Huang氏はDGX-2を“世界最大のGPU”と表現していた

DGX-2の発表をノリノリで行うHuang氏。最初は「これがDGX-2だ！」とQuadro GV100を掲げ，「間違えちゃった。こっちだな」と，ベールに覆われた台に近づく。近づいたら近づいたで「このベールもCEOの俺自身で剥がすのかい？」という具合だった

ついに姿を現したDGX-2。右に見えるのがDGX-2の筐体で，左は，8基のGPUを実装した1クラスタ分のモジュールだ。左のモジュール2段重ねで2つ，右側の筐体に収納している

　HBM2容量32GB版GV100のCUDA Core数は5120基なので，DGX-2の総CUDA Core数は16倍の8万1920基。NVIDIAが主張する理論演算性能値は性能をGPUの数で単純に掛けたものになるため，よって，単精度浮動小数点演算性能値（FP32）は15.7 TFLOPS×16基＝251.2 TFLOPS，行列計算専用プロセッサ「Tensor Core」による総演算性能値は125 TFLOPS×16 GPU＝2000 TFLOPSとなる。
　Huang氏はTensor Coreによる総演算性能値を2 PFLOPS（ペタフロップス，＝2000 TFLOPS）としていたが，計算式的としてはこんな感じだ。

DGX-2の分解図。「CGではなく実機を分解して撮影したんだ」とHuang氏。CPUはXeon Platinumが2基で，合計16基のGPUとはPCI Express経由で接続している

　総メモリ容量は32GB×16 GPU＝512GBで，Aggregate bandwidth（総メモリ帯域幅）は14.4TBに達すると，Huang氏はアピールしていた。ただ，実効メモリ性能はGPUあたりのメモリ性能を上回れないため，GV100の公称メモリ帯域幅である900GB/sと理解するのが正しいと思う。

　ところで，DGX-2は16基のGPUを搭載するシステムだが，実際の構成は，6基のNVSwitchで8基のGPUを相互接続した単位を1クラスタとして，クラスタ同士を従来のNVLink（※NVLink Plane Card）で相互接続することにより2クラスタ構成としている。DGX-2の「2」には，「2世代め」「2倍の性能」という意味だけでなく，「2クラスタ構成」という意味も込めてある可能性はあるだろう。

　DGX-2のリリースは2018年第3四半期の予定で，価格は39万9000ドル（約4254万円）とのこと。HBM2容量16GB版GV100を8基使った「DGX-1」が約15万ドルだったので少々割高に思えなくもないが，GPU数と総メモリ容量が倍増したことを考えると，妥当な設定なのかもしれない。

DGX-2の価格は150万ドル！　と驚かせておいて（左），「ウソです。びっくりした？　ホントは39万9000ドルです」とHuang氏（右）。今年の基調講演は終始このノリである（笑）

リアルタイムのゲームグラフィックスではなく，映像製作の効率改善で紹介されたRTX

画像集 No.020のサムネイル画像 / ［GTC 2018］西川善司の3DGE：Voltaの熟成を狙うNVIDIAは，サーバー向けやAI用途への拡大を進める

　ソフトウェア回りでHuang氏が最も時間を割いたのは，GDC 2018で発表となったリアルタイムレイトレーシング技術「RTX Technology」（以下，RTX）の話題だ。
　「RTXとは何か」は筆者の連載バックナンバーを参照してほしいが，簡単におさらいしておくと，MicrosoftはGDCでDirectXにレイトレーシングのパイプラインを統合し，それを「DirectX Raytracing」（以下，DXR）として発表したのだが，そのNVIDIA版ランタイムにあたるものがRTXである。

RTXは，DXRのランタイムであると同時に，NVIDIA独自のレイトレーシングエンジン「OptiX」のランタイムでもある。Vulkanからは，拡張API経由でRTXを利用可能だ

従来のレンダリング手法であるラスタライズ法で描画される映像と，レイトレーシング法で描画される映像の違いを説明するHuang氏

　GDC 2018における発表では「ゲームグラフィックスにレイトレーシングの活用が始まる」というメッセージを強くアピールしていたNVIDIAだが，GTC 2018の基調講演だと，そちらはむしろ控えめ。ここでの説明は，「映像製作業界のレンダリングコストを下げる」という用途に焦点を当てたものだった。
　つまり，RTXを用いることで，レイトレーシングによるレンダリング速度が従来よりも大幅に短縮されるため，従来よりも低コストで映像製作を行えるようになるというアピールである。

　Huang氏は講演で，「コストは5分の1に，レンダリングサーバーの設置面積は7分の1に，消費電力も7分の1になる」と主張したうえで，「More you buy GPUs, more you save！」（GPUをいっぱい買って節約しよう！）と叫び，聴衆の笑いを誘っていた。
　余談だが，Huang氏はどうも「GPUをいっぱい買って節約」のフレーズが気に入っているようで，最近はことあるごとに繰り返していたりする。

「RTXとQuadro GV100を使えば，コストは5分の1，レンダリングサーバー設置面積は7分の1，消費電力も7分の1になる！　合言葉は『GPUをいっぱい買って節約』だ！」とHuang氏

DGX-2の話題でも，Huang氏は「DGX-2を導入すれば，機械学習ベースのAIサーバーのコストは8分の1，設置面積は60分の1！　消費電力は18分の1に！　合言葉は『GPUをいっぱい買って節約』だ！」といった具合。今回のHuang氏は，終始ノリノリのコメディアンといったところか。しかもちょっとくどめ（笑）

GPUコンピューティングに関連した発表も

　GPUコンピューティング（GPGPU）と呼ばれる，GPUを汎用目的に応用する用途は，近年のNVIDIAが最も力を入れている分野である。ビジュアルコンピューティングや機械学習ベースの人工知能（AI），自動運転といったものがその代表例だが，今回の基調講演でもHuang氏は，数多くの発表や事例紹介を行っていた。かいつまんで紹介しておこう。

　まずは，医療機関向けのビジュアルコンピューティングシステム（Medical imaging supercomputer）「Project Clara」である。
　肉体を切り開いたりせずに体内の様子を可視化する技術には，超音波画像診断法や磁気共鳴映像法（MRI），コンピュータ断層撮影法（CT）などがある。ただ，これらの手法で得られる画像や映像は，基本的に白黒の映像だ。そこで，機械学習で蓄積した情報の応用によって白黒映像をカラー化したり，体内の器官ごとに色分けしたり，あるいは疾患部を見分けやすいようにマーキングしたりできるよう，NVIDIAはProject Claraの開発を進めているという。

医療機関向けのビジュアルコンピューティングシステムとして，NVIDIAは，Project Claraの開発を進めている

　次に，機械学習ベースのAI関連の発表は2つあった。
　1つは，NVIDIA製GPU用の機械学習ライブラリ「TensorRT」が新バージョンの「TensorRT4」となり，Googleの機械学習ライブラリ「TensorFlow」と相互連携が取れるようになったことだ。これにより，機械学習ベースのAI開発をNVIDIA製GPU上で効率よく行えるようになるという。

TensorRT4が発表となった

　2つめは，コンテナ化したアプリケーションの自動展開や自動運用に対応したオープンソースのプラットフォーム「Kubernetes」（クーベネティス）に，NVIDIAのGPUサーバーが対応したことだ。基調講演でHuang氏は，仮想マシンで展開したアプリケーションによる推論実行がGPUで高速に処理される様子を披露していた。

オープンソースのコンテナオーケストレーションシステムKubernetesに，NVIDIAのGPUサーバーが対応した

画像集 No.028のサムネイル画像 / ［GTC 2018］西川善司の3DGE：Voltaの熟成を狙うNVIDIAは，サーバー向けやAI用途への拡大を進める

　自動運転技術関連の発表における目玉は，「DRIVE Constellation」というシステムだ。
　これは，自動運転AIの訓練を仮想世界で行うためのもので，「DRIVE Sim」と「DRIVE Pegasus」という2つのシステムから成る。

DRIVE Constellationシステムのイメージ

　DRIVE Simは，現実世界の道路状況に近いシチュエーションを，リアルタイムのCGで再現した走行映像だけでなく，レーダーやライダー（LIDAR）といった自動運転に必要な各種センサー情報と合わせて出力できるシステムだ。

仮想世界での交通状況をCGで再現するDRIVE Sim。映像だけでなく，周辺環境を把握するための各種センサーの情報も出力するのがポイントだ

　2つめのDRIVE Pegasusは，すでに発表済みの自動運転AI開発プラットフォームである。
　ようするに，仮想世界の道路や他車，歩行者などをDRIVE Simが作り出し，その仮想空間内を「DRIVE Pegasus上に実装した自動運転AI」に走らせることにより，学習を積ませようというわけだ。

　GTC 2018の開幕直前に，シェアライドサービスであるUberの自動運転AI開発車が人身事故を引き起こし，この事故で被害者は死亡してしまった。
　この事故と直接の関係はないものの，自動運転技術に関わる業界各社では現在，「路上実験をやる前に事前の学習を十分に行うべき」という風潮になりつつあり，NVIDIAの発表したDRIVE Constellationは，そうした流れに合致する。実際に事故が起きても命や財産を失うことのない「仮想世界ベースの訓練システム」は，今後，重要度を増していくことになるに違いない。

NVIDIAの複数同時参加型VRシステム「Project Holodeck」を使って，自動運転技術の開発車両を人間が遠隔操縦するデモも披露された（左）。ようは，自動運転の監視役を遠隔操作で行えるようにするための実験だ。VR画面ではロボットが座っているように見えるが，実際はロボットではなく，遠隔操縦中の人間だ（右）

左は誰も乗っていないのにステアリングが動いて走行中の自動車。場所はGTC 2018の会場にほど近い駐車場だそうだが，この自動車はHolodeckのVR空間を経由して遠隔操作されている。右は駐車に成功したところ

Volta世代のGeForceはいつ出るのか

　冒頭で，GPUロードマップの開陳はなかったという話をしたが，実のところ，「自動運転関連技術の将来製品」に関してだけは，ロードマップの公開があった。

　先述した自動運転AI開発プラットフォームのDRIVE Pegasusは，NVIDIA製SoC（System-on-a-Chip）である「DRIVE Xavier」とVolta世代の単体GPUを2基ずつ搭載したシステムになっている。それが，次世代のSoC――今はもう「Tegra」とは呼ばなくなってしまったが，系統としてはTegra系の次世代SoC――である「Orin」（オーリン）になると，同等の性能を2チップに集約できるというのが新情報だ。
　ただ，Orinの概要や登場時期は明らかになっていない。

NVIDIAの自動運転AI用プラットフォームのロードマップ。右上に小さく，次世代SoCのOrinが描かれている

　というわけで，製造プロセス技術の微細化という大きなハードルもあり，GPUの具体的な進化についてはほとんど明らかにならなかった今回のGTC 2018だが，なら4Gamer読者にとって最大の関心事項である「GeForce GTX 10シリーズの次はいつなのか」がまるで見えないかというと，実はそうでもない。
　2018年の秋にはDXRが正式リリースとなる見込みで，RTXがVolta世代以降のGPUを要求していることからして，秋までには出るというのが筆者の見解だ。
　次の大きなイベントは，6月のCOMPUTEX TAIPEI 2018とE3 2018なので，このあたりには動きがありそうだが，どうだろうか。