※見出しをクリックすると記事が読めます
東京ゲームショウ号外を自動表示しない
TGS 2017
号外No.3
東京ゲームショウまとめ読み!9月22日〜24日の3日間,東京ゲームショウ号外をお届け 特設ページへ
異色のコラボで新たな可能性が広がる
「とある魔術の電脳戦機」
亙 重郎氏インタビュー
注目作の新情報が明らかになったステージイベント
ドラゴンボール ファイターズ
project one-room(仮)
DEAD OR ALIVE Xtreme Venus Vacation
新作「アイドルマスター ステラステージ」の実機プレイが初公開
「IM@S GAME SHOW 2017」レポート
スマホ向けの新作が続々登場
ポポロクロイス物語
〜ナルシアの涙と妖精の笛
ソード・アート・オンライン
インテグラル・ファクター
VRの進化形?
VRに匂いをもたらす
「VAQSO VR」
VR HMD+サイクルトレーナーの
「Zwift VR」
オススメ機能
Twitter
お気に入り
記事履歴
ランキング
4Gamer.net
TOP
PC
Xbox
PS4
PSV
Switch
3DS
スマホ
女性向け
VR
ハードウェア
ハードウェア
レビュー
テストレポート
インタビュー
ムービー
ドライバ
ベンチマークレギュレーション
AC
アナログ
パッケージ
GeForce GTX 400
  • NVIDIA
  • 発表日:2010/03/26
  • Amazonで買う
お気に入りタイトル/ワード

タイトル/ワード名(記事数)

最近記事を読んだタイトル/ワード

タイトル/ワード名(記事数)

LINEで4Gamerアカウントを登録
QRコードでLINEの4Gamer
アカウントを友達登録すると
月〜金の週5回,21時に厳選
ニュースをお届けします!
※購読にはLINEアプリが必要です
特集記事一覧
注目のレビュー
注目のムービー
印刷2009/10/01 05:00

ニュース

NVIDIA,DirectX 11世代の次世代GPU「Fermi」を予告〜30億トランジスタ,512シェーダプロセッサ!

報道関係者向けの事前説明会で,Fermiについて解説する,NVIDIAのJohn Nickolls(ジョン・ニコルズ)氏(Director of Architecture, NVIDIA)
 日本時間2009年10月1日5:00,NVIDIAは,DirectX 11世代となる次世代GPU「Fermi」(フェルミ,開発コードネーム)アーキテクチャの存在を公表した。「GeForce GTX 200」(以下,GTX 200)を実現するGT200コアの開発コードネームが「Tesla」だった過去の事例を踏まえると,HPC(High Performance Computing)市場向けのGPGPU製品としては,Fermiが製品名になる可能性もありそうである一方,コンシューマ市場向けには,GeForceファミリーのモデルナンバーが与えられる可能性が高そうだ。
 ちなみに,このFermiという名称は,イタリア生まれのノーベル物理学賞受賞者,Enrico Fermi(エンリコ・フェルミ)氏の名から取られたもの。原子番号100の放射元素「Fermium」(フェルミウム)も,氏の名前に由来している。

 本稿では,速報として,要点だけをシンプルに伝えることにしたい。


次世代NVIDIA GPUは総トランジスタ数30億!

シェーダプロセッサ総数512基の大艦巨砲型


 Fermiは,40nmプロセス技術を採用して製造されるGPUで,総トランジスタ数は驚きの30億超9月23日に発表された,AMDの「ATI Radeon HD 5800」シリーズが20億トランジスタなので,規模は1.5倍ということになる。
 従来,「Streaming Processor」あるいは「Processor Core」と呼ばれていたシェーダプロセッサは,今回「CUDA Core」に名称が改められたが,その数は512基だ。GT200コアを採用していた「GeForce GTX 280」(や「GeForce GTX 285」)だと240基だったので,2倍以上(2.13倍)である。最終製品のコアクロックやシェーダクロックは,現在のところ明らかになっていない。

 ブロックダイアグラムは下に示したとおりだ。

Fermiのブロックダイアグラム

GeForce GTX 280のブロックダイアグラム(※GTX 200シリーズの解説記事より再掲)
GeForce GTX 400
 右に示したのは,GTX 200シリーズのベースモデルとなる「GeForce GTX 280」のブロックダイアグラム。色が似通っていることもあって,一見,シェーダプロセッサ数が増えただけのような印象も受ける。
 しかし今回のFermiでは,アーキテクチャに大きな変更があるのだ。GTX 200シリーズでは,

  • 1基の命令デコードユニット(IU:Instruction Unit)
  • 8基のシェーダプロセッサ(SP:Streaming Processor)
  • 1基のLocal Memory(LM)

を,「Streaming Multi-Processor」(SM)とし,さらにSMを3基集めたものを「Thread Processor Cluster」(TPC)としていた。
 これに対しFermiでは,まず,TPCという階層が排除されている。これはTPCとSM,それぞれの役割を統合して,上層の制御をシンプルにするためだろう。

 さらにFermiでは,1基のSMに,GeForce GTX 200シリーズ比で4倍となる32基ものシェーダプロセッサ(以下便宜的にSPと表記)を内包するようにし,しかもIUは“2発式”を組み込んだ。さらに,LMはL1キャッシュ兼用の64KBとなっている。GTX 200時代は,8基のSP(=1基のSM)当たり16KBのLMが割り当てられていたので,単純な等分計算で考えると,L1キャッシュを兼用する分だけ,Fermiで1基当たりのLM量は減ったことにになるが,これは「実際のCUDAアプリケーションやグラフィックスアプリケーションにおけるLMの使われ方に対応させたリファイン」という見方が正しいようだ。
 なおFermiでは,容量64KBのLM兼L1キャッシュについて,動作させるアプリケーションに応じて,「L1キャッシュ16KB+LM 48KB」「L1キャッシュ48KB+LM 16KB」の2モードを選択的に利用できるようになった。各CUDA CoreがLMを介して高度な連携を図る必要のあるGPGPUアプリケーションでは,LM容量重視で前者,逆にメモリへの局所アクセスが頻発するグラフィックス処理では,キャッシュ容量重視の後者が適合すると推察される。

SMのブロックダイアグラム。「Core」の群れの上に見えるIU部には,スケジューラとディスパッチのユニットを2基ずつ搭載することで,2発式となった。下端の「64K Configurable Cache / Shared Memory」は,L1キャッシュとLMの合計値を示している

 まとめると,Fermiでは,

1SM=2IU+32SP+1LM

という構造になっている。そしてFermi全体でのSM総数は16基なので,

32SP×16=512SP

ということなのだ。やや繰り返し気味になるが,GTX 200シリーズだと,TPCが10基,SP総数は240基だった。


GPGPU向けに大きく拡張された演算ユニット

メモリはついにGDDR5採用へ


 各CUDA Coreには,1基の32bit浮動小数点(FP32)スカラ演算器,32bit整数(Int32)スカラ演算器が内包される。メモリアクセスを司るロード/ストアユニット(Load/Store Unit)はSM当たり16基,超越関数ユニット(Special Function Unit,指数,対数,三角関数などを取り扱うユニット)は4基で,これらは1基のSMを構成する32基のSP達で共用される格好だ。

 一方,GTX 200シリーズで内包されていた,1SM当たり1基の64bit浮動小数点(FP64)スカラ演算器は,Fermiで姿を消している。その代わり,Fermiでは各SP内のFP32スカラ演算器が2クロックを要して(≒ループして)FP64演算をこなすようになった。専用演算器はなくなったが,SPが大幅に増加しているので,トータル的にFP64パフォーマンスは向上するという理屈である。

CUDA Coreのブロックダイアグラム

 各SP内のFP32スカラ演算器は,Int32スカラ演算器と並列に動作できる。また,その演算精度はIEEE 754-2008準拠となり,さらにFP32,FP64両対応のFused Multiply Add(FMA)命令にも対応する。各SPはアドレス空間の64bitアドレッシングが可能となったとのことだが,これは,GPGPU向けの拡張だと見ていいだろう。
 ところでIEEE 754-2008とは,浮動小数点演算における誤差の丸め方の規定,計算時の例外処理事例などを,近代のHPC環境に合わせて規定した規格。FMAとは,厳格な精度規定がなされた積和算手法のことだ。

 Fermiのキャッシュ関連のアーキテクチャでGTX 200シリーズから大きく変わった点としては,もう一つ,大容量768KBのL2キャッシュ搭載が挙げられる。これは,16基のSM(≒512基のSP)すべてから共用されるキャッシュメモリである。
 FermiベースのGeForceでいうとグラフィックスメモリに当たるメモリには,駆動クロックの4倍のデータレートのメモリ帯域幅が得られる,GDDR5が採用される。GeForceファミリーの中上位モデルでは,コスト的な理由を掲げて,長らくGDDR3を採用し続けてきたが,ついにFermi世代ではGDDR5が採用されるわけだ。
 FermiベースのHPC向けGPGPU製品では,メモリシステムにECC(Error Checking and Correcting)が組み込まれるとのこと。これはデータ信頼性が重視されるHPCに配慮した仕様だろう。

 メモリクロックは未公開だが,メモリバス幅は384bitと発表されている。64bit×6ブロックで384bitという構成になるはずなので,ROP(Rendering Output Pipeline)ユニットは6基ということになるはずだ。
 ただし,NVIDIAのROPユニットは1クロックで複数ピクセルの出力を行うので,実際のクロック当たりピクセルスループットは不明。仮に,GTX 200から変わらず,ROPユニット1基の出力が1クロック当たり4ピクセル+4Zの出力だったとすると,24基(=4ピクセル×6ROPs)相当ということになり,GTX 280比でスペックダウンとなるが,ここについては,最終的な仕様を見てみるまで判断できない。

※GT200コアにおいては,3SMが1TPCを構成し,そしてTPCが10基連なる仕様となっている。なお「MAD」は「Multiple ADd」(積和演算)の意


実際の製品発表はいつか?

GTC期間中の続報にも期待


 今回,次世代GPUについて情報公開を許可されたのは,このあたりまで。
 米国時間9月30日から10月2日までの日程で,NVIDIAは,自社製GPU技術を広く活用していくための技術交流会議「GPU Technology Conference 2009」(GTC 2009)を開催中だが,今回の発表が,このイベントを盛り上げるための話題作りであることは明白。その意味では,Fermiベースとなる実際のGeForce製品やGPGPU製品についての詳細,もしくは何らかの続報が,会期中に公開される可能性についても期待は高まるところだ。
 続報があり次第,お届けしよう。
  • 関連タイトル:

    GeForce GTX 400

  • この記事のURL:
line
4Gamer.net最新情報
最新記事一覧へ新着記事10件
トピックス
スペシャルコンテンツ
注目記事ランキング
集計:09月24日〜09月25日