オススメ機能
Twitter
お気に入り
記事履歴
ランキング
お気に入りタイトル/ワード

タイトル/ワード名(記事数)

最近記事を読んだタイトル/ワード

タイトル/ワード名(記事数)

LINEで4Gamerアカウントを登録
NVIDIA,ディープラーニング向け数値演算アクセラレータ「Tesla P40」「Tesla P4」を発表
特集記事一覧
注目のレビュー
注目のムービー

メディアパートナー

印刷2016/09/13 14:51

ニュース

NVIDIA,ディープラーニング向け数値演算アクセラレータ「Tesla P40」「Tesla P4」を発表

 2016年9月13日,NVIDIAは,Pascalアーキテクチャベースのサーバーおよびデータセンター向け数値演算アクセラレータ「Tesla P40」と「Tesla P4」を発表した。これらは,中国・北京で開かれているイベント「GTC China 2016」において登場したもので,グラフィックスメモリにGDDR5メモリ,CPUとの接続インタフェースにPCI Expressを採用した,ディープラーニング向けの拡張カード製品となっている。
 NVIDIAによると,Tesla P40は2016年10月,Tesla P4は2016年11月に出荷を開始する予定とのことだ。

Quadro & Tesla
Tesla P40
Quadro & Tesla
Tesla P4

 NVIDIAの開発者向けBlogに掲載されたスペック情報を見ると,Tesla P40のGPUコアは「GP102」,Tesla P4は「GP104」だ。
 GP102コアは,「NVIDIA TITAN X」や「Quadro P6000」が採用するコアで,3840基のCUDA Core数や384bitのメモリインタフェース,約12 TFLOPSの浮動小数点演算性能などといったスペックは,Quadro P6000と同じだ。
 つまりTesla P40はフルスペック版GP102ベースの製品ということになるが,面白いのはメモリバス帯域幅が346GB/sと,少なくともNVIDIA TITAN Xの480GB/sと比べると大幅に低くなっているところだ。NVIDIA TITAN XやQuadro P6000はGDDR5Xメモリを採用するのに対し,Tesla P40はGDDR5を採用する――メモリバス帯域幅から逆算するに,動作クロックは8GHz強相当だろう――ので,こういう仕様の違いが生じていることは押さえておきたい。

 一方のTesla P4だが,GP104コアでCUDA Core数が2560基というのは,「GeForce GTX 1080」や「Quadro P5000」とまったく同じである。ゆえに,GP104コアを使った数値演算アクセラレータ製品と見てよかろう。
 ただ,こちらも採用するグラフィックスメモリチップはGDDR5となっており,メモリバス帯域幅はGeForce GTX 1080の約320GB/sと比べて低い,192GB/sとなっている。逆算すると,動作クロックは6GHz相当といったところか。

 は,そんなTesla P40およびTesla P4のスペックを,Maxwell世代の前モデルに当たる「Tesla M40」「Tesla M4」(関連記事),および「GP100」コアを採用したPCI Express x16接続版「Tesla P100」と比較したものである。


 どちらの製品も,ゲーマーが直接購入するようなものではないが,Pascalアーキテクチャを採用した派生品としてこういうものがあることを覚えておくのは,損ではないだろう。

NVIDIA公式Blogの当該ポスト



#### 以下,リリースより ####

新たなNVIDIA Pascal GPUがディープラーニングの推論を加速
Tesla P4とP40アクセラレーター、45倍速いAIを実現
TensorRTとDeepStreamソフトウェアが動画推論のAIを促進

2016年9月13日−中国・北京−GPUテクノロジ・カンファレンス(中国)−NVIDIAは本日、新たなPascalアーキテクチャをベースにしたディープラーニング・プラットフォーム、GPUアクセラレーターNVIDIA Tesla P4とP40、さらに新しいソフトウェアを発表しました。これにより、人工知能(AI)サービス向けの推論を生成するワークロードの高速化において、効率やスピードが大幅に向上します。

音声起動アシスタントやスパムメール・フィルター、さらに映画や製品をお勧めするレコメンデーション・エンジンなど、現在のAIサービスはますます複雑になっており、1年前のニューラル・ネットワークと比べ最大で10倍の演算を必要としています。現在のCPUベースのテクノロジは、最新のAIサービスに必要なリアルタイムでの反応を提供できず、貧弱なユーザー・エクスペリエンスにつながっています。

Tesla P4とP40は、ユーザーやデバイスからのクエリに反応して、トレーニングされたディープ・ニューラル・ネットワークを使って音声や画像、テキストを認識する「推論」を行うよう特別に設計されています。Pascalアーキテクチャをベースに、これらのGPUは8ビット(INT8)演算をベースとした特殊な推論命令を備え、CPUより45倍、発表されてから1年も経っていないGPUソリューションより4倍速い反応が可能となります。

Tesla P4は、データセンターにとって最高のエネルギー効率を実現します。スモール・フォーム・ファクタや、50ワットという低消費電力でどんなサーバーにもフィットし、実稼働ワークロードでの推論におけるエネルギー効率をCPUと比べ40倍向上させることができます。動画を推論するワークロードの場合、Tesla P4を1個搭載した1台のサーバーは、13個のCPUを搭載したサーバーと同等のパフォーマンスを発揮し、サーバーや電力などにかかる総所有コストを8倍以上削減できます。

Tesla P40は、ディープラーニングのワークロードに最高のスループットを実現します。INT8命令で1秒あたり47テラ・オペレーション(TOPS)の推論パフォーマンスを誇り、Tesla P40アクセラレーターを8個搭載したサーバーは、140個以上のCPUを搭載したサーバーと同等のパフォーマンスを発揮します(5)。CPUサーバー1台が約5,000ドルの場合、サーバー取得費用が65万ドル以上削減できることになります。

NVIDIAのアクセラレーテッド・コンピューティング担当のゼネラル・マネジャーであるイアン・バック(Ian Buck)は、次のように述べています。「Tesla P100そして今回加わったTesla P4とP40で、NVIDIAはデータセンター向けで唯一のエンドツーエンドとなるディープラーニング・プラットフォームを提供することになり、AIの計り知れないパワーが幅広い業界で活用できるようになります。トレーニングに必要な時間は数日から数時間に短縮され、洞察は瞬時に引き出されます。そして、AIを活用したサービスを利用している消費者にリアルタイムで反応することが可能になります。」

より迅速な推論のソフトウェア・ツール
Tesla P4およびP40を補完するのは、AIの推論を加速させるための2つの革新的なソフトウェア、NVIDIA TensorRTとNVIDIA DeepStream SDKです。

TensorRTは、最も複雑なネットワークで即時の反応を提供する製品の展開に向けてディープラーニング・モデルを最適化するために作られたライブラリです。トレーニングされたニューラル・ネット(32ビットまたは16ビットのオペレーションで定義)を使い精度を下げたINT8オペレーションに最適化することで、ディープラーニングのアプリケーションのスループットおよび効率を最大化します。

リアルタイムでビデオ・ストリームを処理する場合、デュアルCPUなら7つのストリームのところを、NVIDIA DeepStream SDKはPascalサーバーのパワーを活用して、最大93のHDビデオ・ストリームを同時にデコード・分析します(6)。これは、自動運転車両、対話型ロボット、広告のフィルタや表示などのアプリケーション向けにビデオ・コンテンツを大きな規模で理解するという、AIにおける最大の課題の1つに対処しています。ディープラーニングをビデオ・アプリケーションに統合することで、企業はこれまで不可能だったスマートで革新的なビデオ・サービスを提供できるようになります。

顧客にとっての大きな躍進
NVIDIAの顧客各社は、最高のコンピューティング・パフォーマンスを要する、これまでよりさらに革新的なAIサービスを提供しています。

Baidu(百度)のシニア・リサーチャーであるグレッグ・ディアモス(Greg Diamos)氏は、次のように述べています。「お客様一人ひとりにシンプルかつ反応性に優れたユーザ・エクスペリエンスを提供することは、当社にとって非常に大切です。当社のDeep Speech 2システムのようにAIを活用したサービスを提供するため、当社はNVIDIA GPUを実稼働で展開しましたが、GPU使用のおかげで、アクセラレーターを搭載していないサーバーではできなかったであろうレベルでの反応性を実現できています。INT8機能を備えたPascalでさらに大きな前進が可能となるので、ユーザの皆様によりよい体験を提供することを楽しみにしています。」

仕様
Tesla P4およびP40 GPUの仕様は以下のとおりです。

仕様 Tesla P4 Tesla P40
単精度FLOPS* 5.5 12
INT8 TOPS
(1秒あたりテラオペレーション)*
22 47
CUDAコア 2,560 3,840
GPU GDDR5 メモリ 8GB 24GB
メモリ帯域幅 192GB/s 346GB/s
電力 50ワット以上 250ワット
ブーストクロックがオンの場合

提供時期
NVIDIA Tesla P4は11月、Tesla P40は10月に提供開始となる予定で、ODM、OEM、チャネル・パートナーにより提供される認定サーバーに搭載されます。

  • 関連タイトル:

    Quadro & Tesla

  • この記事のURL:
4Gamer.net最新情報
プラットフォーム別新着記事
総合新着記事
企画記事
トピックス
スペシャルコンテンツ
注目記事ランキング
集計:05月22日〜05月23日