ニュース
「GeForce GTX TITAN」登場。500円玉より大きなモンスターGPUの“性能以外”を徹底解説
![]() |
| GeForce GTX TITANカードのイメージ |
![]() |
| GeForce GTX TITANは「Built to Power the World's First Gaming Supercomputers」(世界で初めて,ゲーム用スーパーコンピュータのために作られた)GPUだという |
本稿では,そんなGeForce GTX TITANについて,アジア太平洋地域の報道関係者向けに実施された電話会議と,配布されたレビュワーズガイドから見えてきた,特別版GeForce GTXの製品概要を明らかにしてみたい。
GeForce GTX TITANの中身はTesla K20Xそのもの
2688基のCUDA Coreを搭載するモンスターGPU
![]() |
| GeForce GTX TITAN GPU。パッケージではなく,ダイサイズを500円玉と比較することになったのは今回が初めてだ。具体的なサイズは後述する |
![]() |
| Tesla K20X |
氏はまず,GeForce GTX TITANでなぜスーパーコンピュータから名前を取ってきたのかという話から始めたが,そもそもの話として,Titanスーパーコンピュータには,GPUベースの数値演算アクセラレータ「Tesla K20X」が採用されている。そして,このTesla K20Xが採用するGPUコアは,第2世代Keplerアーキテクチャの「GK110」なのだが,「GeForce GTX TITANのGPUコアは,Tesla K20Xと同じGK110だ」(Waller氏)。つまりは,最速のスーパーコンピュータに採用されているTesla K20XそのものをGeForceに転用しているから,その名にあやかったというわけなのである。
……GeForce GTX 600シリーズとはあまりに立ち位置が異なるため,安易に700番台の型番を与えることができなかった,という可能性もあるだろうが。
ともあれ,スーパーコンピュータ市場向けとして,「一般ユーザーから手の届きやすい価格」という制約なしに開発されたため,そのトランジスタ数は71億に達している。Waller氏は「IntelのCore i7と比べて3倍の規模を持つ」として,GK110が,世界最大規模のプロセッサであることを強調していたが,間違いなく,超がつくレベルのビッグチップである。
![]() スーパーコンピュータ500傑リスト「TOP500」の2012年11月版で第1位となったTitanが,GeForce GTX TITANの由来となっている |
![]() LSI(集積回路)の規模はCore i7の3倍だというスライド。実際,約71億トランジスタというのは,おそらく半導体史上最大だろう |
![]() |
Tesla K20Xのときに明らかとなったように,GK110のフルスペックでは15基のSMXを搭載する。そのため,Tesla K20X,そして今回のGeForce GTX TITANは,歩留まり向上のため,SMX 1基の不良を許容した製品ということになるだろう。
![]() |
いま話が出たROP処理を行うのは,ROPユニットを8基一組としたROPパーティションで,その数は6基。ROPユニットの総数は48基だ。組み合わされるメモリコントローラは64bit×6で,合計384bitインタフェースとなる。ROP数,メモリインタフェースとも,GeForce GTX 680比で1.5倍の規模だ。
以上の情報を踏まえ,4Gamerで独自に推測したGeForce GTX TITANのブロック図が下のものとなる。
![]() |
![]() |
| 容量6GBのグラフィックスメモリによる恩恵もあり,「いまあるすべてのゲームを高解像度でプレイできる」(Waller氏)。GeForce GTX TITANの3-way SLIシステムは,Crysis 3を,1920×1080ドットの3画面でマトモにプレイできる唯一の選択肢だという |
![]() |
| PCI Express補助電源コネクタは6ピン+8ピン |
話を戻そう。GeForce GTX TITANのコアクロックは837MHzで,ブーストクロックは876MHz。L2キャッシュ容量は1536KBだ。また,グラフィックスメモリ容量は6GBで,動作クロック6GHz相当(データレート6Gbps,実クロック1.5GHz)のGDDR5メモリチップが組み合わされるため,L2キャッシュ容量とグラフィックスメモリ容量はGeForce GTX 680比で3倍という計算になる(※グラフィックスメモリクロックは同じ)。
PCI Express補助電源コネクタは6ピン+8ピンで,TDP(Thermal Design Power,熱設計消費電力)は250W。GeForce GTX 680だと順に6ピン×2,195Wだったので,さすがに大メシ食らいとなっているが,まあ,この規模のGPUが持つTDP値としては極端に高いというわけでもない。
「Tesla K20Xと完全に同じ」ではないGeForce GTX TITAN。キーワードは「倍精度」
![]() |
最も大きな違いは演算性能で,GeForce GTX TITANが持つ単精度浮動小数点数(Single Precision Floating-Point)の演算性能が4.5 TFLOPS,倍精度浮動小数点数(Double Precision Floating-Point)が1.31 TFLOPSとされているのに対し,Tesla K20Xだと,順に3.95 TFLOPS,1.3 TFLOPS(もしくは1.31 TFLOPS)となっているのだ(表)。
![]() |
仮にGeForce GTX TITANとTesla K20Xで動作クロックが異なるのだとすれば――Tesla K20Xの動作クロックは公表されていない――GeForce GTX TITANは倍精度浮動小数点数演算プロセッサ(以下,DP)の値も大きくなければおかしいが,実のところこのカラクリは,GeForce GTX TITANにおけるDPの標準動作クロックにある。GeForce GTX TITANの標準設定では,DPがコアクロック比8分の1のクロックで動作するようになっているのだ。
これがどういう意味なのかを理解するには,GK104とGK110というGPUコアの違いを振り返ってみる必要がある。
第1世代Keplerアーキテクチャの最上位GPUコアとして,GeForce GTX 680などに採用されるGK104コアは,専用のDPを持っていない。倍精度浮動小数点数の演算実行は単精度浮動小数点数演算プロセッサ(以下,SP)としてのCUDA Coreを用いて行う都合上(※),1クロックあたりの倍精度浮動小数点演算性能は,単精度のそれに対して24分の1になる。
※GeForce GTX TITANのレビュワーズガイドには,「GK104コアはSMXあたり8基のDPを搭載する」と書かれている。しかし本文でも指摘しているように,GK104には専用のDPはなく,CUDA Coreを使って浮動小数点演算を行うとされているので,この表現は奇妙だ。NVIDIAはこのあたりを端折って「GK104は8基のDPを搭載」とした可能性がある。
それに対し,GK110は専用のDPを持つ。Tesla K20シリーズのホワイトペーパーによれば,DPの数はSMXあたり64基となっている。そして,1クロックあたりの倍精度浮動小数点演算性能は単精度比で3分の1。なので,Tesla K20シリーズの場合,倍精度浮動小数点演算性能は単精度比で3分の1となるわけだが,GeForce GTX TITANの場合は,「DPがコアクロック比8分の1のクロックで動作する」のが効いてくる。 3分の1×8分の1 で,クロックあたりの倍精度浮動小数点演算性能は単精度比24分の1,つまり,GK104と変わらなくなるのだ。
![]() |
![]() |
こういう仕様になっているのはおそらく,ゲームにおいて重要になることがほとんどないDPの動作クロックを落とすことにより,消費電力的&熱的余裕を確保し,GPU全体の動作クロックを引き上げるためだろう。であれば,仕様上の単精度浮動小数点演算性能が高いのも納得できる。
![]() |
ただし,上でも述べたとおり,そこまで倍精度浮動小数点演算性能が求められるケースというのは,ゲームにおいては極めてまれだ。DPをフルスピードで実行すると,発熱のためグラフィックス性能はむしろ性能が低下する可能性が高く,実際,NVIDIAも「全体の動作クロックが低下する(ため,3D性能が落ちる)」と注意を呼びかけていたりする。
![]() |
NVIDIAは,Fermiアーキテクチャで,あまりにも数値演算プロセッサに寄り過ぎたLSI設計を行い,3Dゲームで性能を上げるのに苦労した過去がある。Tesla K20XそのものであるGeForce GTX TITANも,当然のことながら数値演算プロセッサの色彩が濃いわけだが,今回,動作モードを切り替えられるようにしてあるのは,Fermiの反省が生きていると言えそうだ。
「グラフィックス処理用途でDPの性能はそれほど重要ではないから,性能を落として,その分の余裕をグラフィックス性能引き上げに割り振る」というのは理に適っている。CUDAやOpenCLアプリケーションを使いたいなら,DPをフルスピードに切り替えればいいだけなのだから,実使用上の問題もないだろう。
いずれにせよ,工場出荷状態で使う限り,GeForce GTX TITANのGK110は,KeplerアーキテクチャのGeForceとして,単純に「CUDA Core数が1.75倍になっ(て,メモリ周りも強化され)たGK104」として動作することになる。
「ならなぜ,単純にCUDA Core数を倍増させたGK104を作らないのか」という疑問はもっともだが,NVIDIAはその戦略上,コンシューマ向けのGPUと設計を共有することで,スーパーコンピュータ向けのアクセラレータを安価に供給しようとしている。仮にCUDA Core数が2688基の強化版GK104を作ったとしても,それでは倍精度浮動小数点演算性能を上げられないから,スーパーコンピュータの導入コストを下げるというNVIDIAの目的には合致しないのだ。
温度ターゲットが追加された「GPU Boost 2.0」など新要素が追加される
GeForce GTX TITANは,グラフィックス処理に最適化されたTesla K20Xということで,グラフィックス処理に向けた機能が2つ「GPU Boost 2.0」「Display Overclocking」として用意されている。順に見ていこう。
■GPU Boost 2.0
まずはGPU Boost 2.0からだが,その説明へ入る前に,GeForce GTX 660以上のGeForce GTX 600シリーズに採用されている初代GPU Boost(以下,GPU Boost 1.0)をおさらいしておこう。
GPU Boost 1.0は,グラフィックスカードの消費電力が,あらかじめ設定された「Power Target」(電力ターゲット)に達していないとき,「余力がある」と判断し,自動的に適切な「GPUコアクロックとGPUコア電圧の組み合わせ」を選択して,性能を引き上げる仕組みだった。挙動はGeForce GTX 680のレビュー記事後編で細かくチェックしているので,興味のある人は参照してほしいと思う。
そしてGPU Boost 2.0では,GPU Boost 1.0の仕組みに加え,次に示す2つの機能が追加されている。
- 「Temperature Target」(温度ターゲット)によるクロックの引き上げ
- 最大コア電圧のロック解除による「OverVoltage」(昇圧)
順に見ていくと,Temperature Targetでは,GPUコアの温度に余力がある限り,高いクロックに引き上げることが可能になっている。合わせて,ピーク時のコア電圧上限も変更されており,温度や消費電力に余力がある場合,GPU Boost 1.0以上の高いクロックが得られるようになっているという。
以下,スライドを見ながら説明してみたい。
![]() |
ちなみにTemparature Targetは,NVIDIAが規定する「安全な範囲」で,ユーザーが変更できる。より高いGPU温度(と,より大きな動作音)を許容するのであれば,より高いブーストクロックを狙えるようになっているわけだ。
また,GPU Boost 1.0から引き続き,Power Targetも調整できるようになっているが,こちらは若干の変更が入っている。たとえばGeForce GTX 680の場合,TDPは195Wなのに対し,Power Targetの100%設定は170Wとなっており,これが分かりにくさを生んでいたが,GPU BoostではTDP――最新の“NVIDIA語”だと,TDPはカードレベルの最大消費電力と同義――がPower Targetの100%として設定されるに至った。そして,GeForce GTX TITANの場合,リファレンスでは最大106%設定が行えるようになっているので,消費電力では250W×1.06で最大265Wを設定できるようになっている。
なお,Temparature TargetとPower Targetの設定はリンクしているとのこと。具体的には,Temparature Targeの設定を引き上げることで高クロック動作が狙えるが,上限は設定されているPower Targetまでだそうだ。つまり,Temparature TargetとともにPower Targetを調節しないと,思うようなクロックの上昇は得られない場合もあるということだろう。
![]() |
もちろん,性能を引き上げるだけでなく,低動作音寄りの設定も,Temparature Targetから可能だ。たとえば,Temparature Targetを引き上げたとき,同時にファン回転数を引き上げる温度も高めに設定しておけば,より静かなゲームPCの実現も可能になるというわけである。
![]() |
![]() |
もう1つのOverVoltageは,「壊れてしまう可能性を十分理解し,自己責任で行うのであれば,最大コア電圧のロックを外し,より高いコア電圧の上限を設定できる」ことを指している。
■Display Overclocking
2つめのDisplay Overclocking(ディスプレイオーバークロッキング)は,ディスプレイとの垂直同期(Vsync)が有効のときに利用できる機能だ。NVIDIAによれば,「GPUが60fpsを大きく超えるフレームレートでコンスタントに描画できるとき,一般的なディスプレイの垂直リフレッシュレート(=同期クロック)を,60Hzよりも上に引き上げる」ものだという。
![]() |
![]() |
垂直同期を有効にしつつ,60fpsを超えるフレームレートを得たいのであれば,垂直リフレッシュレート120Hz対応のディスプレイがあれば済む話だが,すべてのゲーマーが垂直120Hzに対応したディスプレイを持っているわけではない。そしてその場合,画面のテアリング(tearing,ティアリングともいう)を防ごうとすれば,垂直同期を有効にせざるを得ず,結果として,GPU側の性能がどんなに高くても,フレームレートは60fpsで頭打ちになってしまう。
そこで,カードベンダー各社からリリースされる予定となっているGeForce GTX TITAN用のオーバークロックツールでは,この「垂直リフレッシュレート60Hz」という制限を,「リフレッシュレートのオーバークロック」によって70〜80Hz程度にまで引き上げてしまおうというのである。
もちろん,世にあるすべてのディスプレイでDisplay Overclockingを行えるわけではないそうで,仮に対応していたとしても,ディスプレイ内部の回路に与える中長期的な影響がどの程度あるかは未知数だということ。完全に自己責任となるが,NVIDIAの言うとおりのことが本当にできるなら,試してみる価値はあるかもしれない。
![]() |
スケーラビリティと電力効率の高さが謳われるGeForce GTX TITANの実機を“剥いて”チェック
というわけで,ここからは入手したGeForce GTX TITANカードをチェックしていきたいと思うが,ポリカーボネート(アクリル樹脂)の窓が設けられた2スロット仕様のGPUクーラー搭載するその外観は,「GeForce GTX 690」カードとよく似ている。カード長は10.5インチ(266.7mm)で,GeForce GTX 690の11インチ(279.4mm)と比べると若干短く,また,搭載するGPUの数が異なるため,ファンの位置が変更されてはいるが,デザインの方向性は同じと述べていいだろう。
![]() |
![]() |
![]() |
![]() |
![]() |
カードの後方にも放熱フィンはあるのだが,GPUの熱自体は,カード後方に用意されたファンによるエアフローで,カードの外へ一直線に排気される仕掛けになっている。GPUクーラーの冷却には,Vapor Chamber(ヴェイパーチャンバー,ヒートパイプと同じ原理で動作するヒートシンク技術)仕様のパッシブヒートシンクが用意され,電源部や(GPUと同じ面に置かれている)メモリチップなどは,補強板およびファン台座も兼ねたアルミダイキャストのヒートシンクに覆われている。
![]() |
![]() |
下の写真は,GPUクーラーを完全に取り外した状態だ。Vapor ChamberベースのGPU用パッシブヒートシンクが独立していることと,アルミダイカストのクーラーがカード全体を覆うようになっていることが分かる。
なお,レビュワーズガイドによると,「thermal interface material」と呼ばれる素材には,信越化学工業製のものが使われているそうだ。おそらく放熱シートのことを指すのではないかと思われるが,このような新素材採用効果もあって,GeForce GTX 680比でGPUクーラーは2倍の冷却能力を持つに至っているという。
![]() |
![]() |
![]() |
ようやく基板だ。71億トランジスタを集積するGK110チップのダイサイズは公表されていないが,デジタルノギスで計測したところ23.46(W)×24.32(D)mmだった。本稿の序盤で500円玉と比べた写真もお届けしているが,サイズの数字を見ると,あらためてその巨大さに驚かされる。
![]() |
![]() |
GPUを取り囲むように配されたグラフィックスメモリチップは,Samsung Electronics製の2Gbit GDDR5。GPU側の面に12枚,裏側に12枚の計24枚で,総容量6GBを実現している。カードの背面側にクーラーはないので,こちらはPCケース内のエアフローに冷却を頼ることになるのだろう。
なお,メモリチップは0.3ns(=6Gbps)仕様なので,動作クロック面での余裕はなさそうである。
![]() |
![]() |
![]() |
ちなみに,GPUを支えるメインの6フェーズには発熱の低さで定評のあるDriver MOSFETが採用されていた。
超小型ゲームPCから3-way SLIシステムまでがターゲットとなるGeForce GTX TITAN。気になるその性能は……?
![]() |
公開されている小型PCのサイズは,下に示したスライドのとおり,相当に小さそうだが,そのような小型筐体にも対応できる理由のひとつには,「新たに採用した制御アルゴリズムによって高度な温度制御が可能になっている」(Waller氏)ことがあるようだ。TDP自体は250Wと決して低くないので,冷却システムだけでなく,制御アルゴリズム関連のブレイクスルーが,小型PCへの対応を可能にした面は確かに大きいかもしれない。
![]() |
![]() |
なお,999ドルのシングルGPUが持つその実力だが,現在4Gamerでは,入手した個体を用いて性能検証中だ。結果は近いうちにお伝えできるはずなので,お楽しみに。
![]() |
GeForce公式Webサイト(英語)
NVIDIA日本語公式Webサイト
- 関連タイトル:
TITAN - 関連タイトル:
NVIDIA RTX,Quadro,Tesla
- この記事のURL:
Copyright(C)2013 NVIDIA Corporation
Copyright(C)2010 NVIDIA Corporation



































































