※見出しをクリックすると記事が読めます
東京ゲームショウ号外を自動表示しない
オススメ機能
Twitter
お気に入り
記事履歴
ランキング
4Gamer.net
TOP
PC
Xbox
PS4
PSV
Switch
3DS
スマホ
女性向け
VR
ハードウェア
ハードウェア
レビュー
テストレポート
インタビュー
ムービー
ドライバ
ベンチマークレギュレーション
AC
アナログ
お気に入りタイトル/ワード

タイトル/ワード名(記事数)

最近記事を読んだタイトル/ワード

タイトル/ワード名(記事数)

LINEで4Gamerアカウントを登録
QRコードでLINEの4Gamer
アカウントを友達登録すると
月〜金の週5回,21時に厳選
ニュースをお届けします!
※購読にはLINEアプリが必要です
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する
特集記事一覧
注目のレビュー
注目のムービー
印刷2015/08/29 19:17

イベント

[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

松尾 豊氏(東京大学大学院准教授,人工知能学会倫理委員長)
 CEDEC 2015最終日の2015年8月28日,「人工知能の未来 -- ディープラーニングの先にあるもの」と題した招待講演が行われた。東京大学大学院准教授で,人工知能学会の倫理委員長を務める松尾 豊氏が,ディープラーニングの成果の意味と,その将来を語るといった内容で,ぶっちゃけるとゲームに関する話題はほぼゼロなのだが,昨今のディープラーニングブームを受けて多く,のゲーム開発者が講演に聞き入っていた。ディープラーニングの未来はどうなるのだろうか,その内容をまとめてみたい。

 ディープラーニングがどのような技術なのかについては,以下の記事が詳しいので,あわせて読んでいただければ幸いだ。

関連記事:
[GTC 2015]GPUが機械学習型AIを人間より賢くする? NVIDIA CEOによるGTC 2015基調講演レポート


画像認識率で人間を超えてしまったディープラーニング


 ディープラーニングはいま大変なブームである。学会とITを含む産業界の双方が盛り上がっているのが特徴で,学術側では大量の論文が出されている一方,産業界側ではディープラーニングをビジネスに結びつける動きが始まっている。つまり研究と応用が平行してものすごい勢いで進んでいるわけだ。
 もっとも,過去の人工知能ブームをご存じで「また一過性で終わるのでは」と見ている方もそれなりに多いのではないかと思う。過去においても,人工知能がすごいと喧伝されたものの,蓋を開けてみればたいしたことができずブームが去っていったという事例があるからだ。

 CEDEC 2015における松尾氏の講演は,ディープラーニングが「今度こそ本物」であるとアピールする内容だ。ではどこが本物なのだろうか?

余談だが松尾氏は学会誌「人工知能」の表紙にスライドのような絵を使ったことがネットで炎上騒ぎとなり,「その功績が認められて」(松尾氏)人工知能学会倫理委員長に就任したそうである
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する [CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 人工知能は1950年代に研究がスタートしており,そろそろ60年の歳月がたとうとしている古い分野だ。そうした中で松尾氏は今回のディープラーニングこそ「(人工知能の歴史)50年来のブレイクスルーを成し遂げた画期的な技術」と強調する。

人工知能研究は過去に2度のブームがあった。3度めとなる今回のブームは「50年来のブレイクスルー」であると松尾氏は強調する
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する [CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 どこがブレイクスルーなのかというと,それは人工知能が学習する能力を獲得している点にある。下のスライドのように「表現獲得」などと言われるのだが,ちょっと分かりにくいかもしれない。ゲームの人工知能で例えるなら,たとえば人工知能で動くキャラクターがマップを移動する際に「ここは通れる,ここは通れない」ということをデザイナーが指定する必要がある。ゲームAIはデザイナーの指定から目的の場所までの移動経路を算出してキャラクターが移動するという形だ。

 一方,学習が可能な人工知能なら,マップを与えるとキャラクターが試行錯誤の末に通れる地形と通れない地形を知り,それに基づいて行動することが可能になる。こうなると,キャラクターが新たな地形に遭遇しても,これまでの学習に基づいて通れるか通れないが判断するといったこともできるようになる。

これまでの人工知能には,データから特徴を取り出したり(素体抽出),データにない例外に対応できたり(フレーム問題),その特徴が何であるかを判断したり(シンボルグラウンディング問題)といったことができなかった
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 機械学習と一口に言ってもいくつか方法があるが,その中で脚光を浴びている手法の一つがディープラーニングである。ディープラーニングはニューラルネットワーク(擬似神経細胞:ニューロンのネットワーク)の大規模版で,松尾氏はその概要をざっくりと解説してくれた。

 下のスライドはAuto encoderと呼ばれるシンプルな3層のニューラルネットワークで,下の列が入力,上の列が出力になる。このネットワークの入力に,たとえば3という数字のイメージを与えて出力に同じイメージが出てくるようにすると,中間のニューロン(スライドで隠れ層と書かれているところ)に数字のイメージの特徴点が現れる。
 なにか意味がないことをやっているように思えるかもしれないが,Auto encoderのポイントは学習によってイメージの特徴が抽出できたというところだ。

3層のネットワークからなるAuto encoder。入力と出力に同じイメージが出てくるようにすると中間にイメージの特徴が現れる
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 この3層のネットワークの出力を入力に戻し,さらにネットワークを積み重ねていったのがディープラーニングである。こうすることで,上位の層で「このイメージは何であるか」という概念が獲得できるようになる。
 概念というとすごく分かりにくいが,具体的にはディープラーニングに画像の学習を行わせると,上位の層には,学習したものと似た画像によく反応するニューロンが現れるようになる。つまり学習させたあと,いろいろな画像を入力してやると,自分が学習した画像に似ている,似ていないということが判断できるようになるのである。

ネットワークの出力を入力に戻し,積み重ねていったものがディープラーニング
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 ディープラーニングの初期の成果として有名なのが2012年に発表されたGoogleの研究だ。これは12層のニューラルネットワークにインターネット上にある人や猫の顔の画像を大量に入力してやった結果,人や猫の顔の画像が判別できるようになったというものである。

大量の顔画像を学習させた結果,下の層で顔の特徴点が抽出され,上の層には人や猫の顔らしい画像に反応するニューロンが現れるようになった
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 画像認識は,ディープラーニング以前からコンピュータの一つの課題として多くの研究が行われてきた分野で,松尾氏によると学会による画像認識のコンテストも開催されてきたという。従来型の画像認識は「10年間,一生懸命研究してやっと認識率が1%向上する」(松尾氏)程度で,極めて難度が高い課題と考えられてきた。
 だが,ディープラーニングの登場によって一気に10%も認識率が向上してしまったという。「ディープラーニングは画像認識において10年分のイノベーションを実現してしまった。画像認識の研究者は,この結果に衝撃を受けた」(松尾氏)とのことだ。

2012年に行われた画像認識のコンテストLarge Scale Visual Recognition Challengeの結果。上位2つがディープラーニングで,従来型の画像認識に対して誤認率が10%も減っていることが分かる
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 Googleの成果から3年が経過して,ディープラーニングの画像認識精度はすでに人間を超えてしまっているのだそうだ。コンテストに使われる画像は人間でも5%程度の誤認があるそうだが,2015年にはGoogleやMicrosoftのディープラーニングが5%を切る誤認率を叩きだしている。

ディープラーニング前後の認識率の伸び。2015年には人間よりも誤認が少ない画像認識が登場した
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 さらに2015年には,約2億枚の画像から800万人の人間を見分けるという恐るべき成果もニュースになった。認識精度は99%以上というとんでもないもので,こうなってくると人間には不可能なことが実現できていると言っていいだろう。そもそも人間が約2億枚の画像を見分けるなど,時間的にも体力的にも無理で,仮に可能だったとしてもやりたがる人はいないだろう。

人間を超えたディープラーニング。2億枚の画像から800万人の顔を見分けるという離れ業を成し遂げた
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

ディープラーニングが誤認してしまった顔の例
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する [CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 ニューラルネットワークを使った画像認識は,実のところ新しいアイデアではなく,最初期には,1979年に福島邦彦博士が電子通信学会に発表した「ネオコグニトロン」というものがある。これは現在のディープラーニングのアイデアに極めて近いのだが,これまでは計算機のパワーが足らなかったり,ニューラルネットワーク自体がなかなか難しいという事情があって進歩が停滞していた。
 しかし,人間を超える画像認識が可能になった今,「コンピュータで知能が実現できるという初期仮説に立ち戻るべきだ」と松尾氏は主張する。

[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 松尾氏はさらっと言ってのけたのだが,ここは議論があるところかもしれない。これはあとの話にもつながるが,ディープラーニングはいまのところ概念を獲得できたという段階で,獲得した概念が何であるかという意味を捉えることができたわけではないのだ。たとえば,顔の概念は獲得できるが,顔が持つの意味をコンピュータが理解できたわけではない。

 この限界を示すいい例は機械翻訳だろう。現状,機械翻訳には統計的手法が使われており,ラテン語系の言語間の翻訳はそこそこ精度が上がっているが,日本語から英語あるいは英語から日本語の翻訳の精度はまだかなり低い。
 というのは,日本語と英語は単語や文法が大きく異なっており,統計的手法だけで自然な訳語が得られないためだ。このような,大きく異なる言語の翻訳を行うには,文章の意味を把握し,意味から翻訳を行う必要があるが,意味を把握することはディープラーニングを含め,現在の人工知能には難しい。

 そもそも論として「意味を理解する主体は何者であるのか」という根源的な問いがある。意味を理解することができる人間の大脳は,約200億のニューロンがあり,1つのニューロンあたり約8000本のシナプスによる複雑怪奇なネットワークを作り出している。シナプスの接続数は観測できる星の数より多い,といったらその規模が分かるだろうか。

 しかも,この大脳ネットワークは多分にアナログ的で,ネットワークが取りうる状態はおそらく無限だろう。無限の状態を取りうる大脳と似たネットワークをコンピュータ上に作れるのだろうか? これはなかなか難しい問題で,人間の知能とは一体何なのかという哲学にも関わってくるところではないだろうか。


ディープラーニングは日本を飛躍させる


 さて,松尾氏は講演の後半,ディープラーニングがもたらす未来について話を広げていった。下のスライドは松尾氏が考える今後の人工知能の発展を示したものだ。
 現在はディープラーニングによって画像などの学習と認識ができるようになった段階で,スライドの(1)をクリアしたところだ。

 だが,静止画の認識率が人間を超えているのに「動画になるととたんに認識できなくなる」(松尾氏)という問題がある。それを解決するのが(2)のマルチモーダルである。動画やセンサーなど時間変化を持つ入力から特徴を取り出して学習するというもので「この分野はいま研究者が盛んに取り組んでいて,そう遠くない将来実現するはず」(松尾氏)とのことだ。

 3番めの行動というのは,たとえば自動車の自動運転のようなものを思い浮かべると分かりやすい。カメラなどのセンサーから取り込んだ情報から,次にどう動くべきか決めるというような知能である。

 4番めのインタラクションは環境との相互作用,そして5番めの言葉とのひもづけと6番めの言語からの知識獲得は,先に筆者が指摘した言語,意味といった部分に関わる難度の高い人工知能になってくる。
 これらのうち,実は3番めや4番めはゲームAIとも関わりが深いところで,ゲームキャラクタの自律行動,自律判断といった面からゲームAIでも試行錯誤が行われているので,リアルなAIとゲームのAIの研究が相互作用できる分野かもしれない。

松尾氏が示す人工知能の今後の進展
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 現状では画像認識しかできないとはいえ,人間を超えた部分を持つディープラーニングだけに応用は多岐にわたる。下のスライドは松尾氏が提案するディープラーニングの応用だが,面白いなと思ったのは「情報システムのセキュリティ」の部分だ。サーバーのアクセスパターンを学習してパターンから外れるとアラートを出す,といったことが可能になれば,セキュリティの向上にかなり効果がありそうな気がする。

 実際,クレジットカードの代わりに顔を使って支払いを行うという試みがすでに行われているそうだ。顔で支払いができれば「たとえばコンビニに入って飲み物とパンを取って出たら,その場で(何もしなくてもお金が)引き落とされる」(松尾氏)というようなことも可能になる。

 こうしたディープラーニングの応用は一見進んでないように見えるが,それはディープラーニングの発展があまりにも速すぎたためだと松尾氏は指摘していた。「あまりにも進歩が速すぎたため産業界がついてこれない,そういう状況がある」(松尾氏)というが,実際,Googleが成果を上げた2012年から,まだ3年しか経っていないわけで,社会への応用,マネタイズといった部分がまだ見えないのは仕方がないかもしれない。

松尾氏があげるディープラーニングの応用。ざっと上げただけでもこれだけの応用が考えられるしている
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 そんなディープラーニングは日本にとって大きなチャンスだと松尾氏は主張する。その理由は,まずディープラーニングは新しい市場を作るものではなく,現状を改良,改善するものだからだそうだ。「日本はインターネットのように新しい市場を作り出すことは苦手だが,改良や改善は得意だ。ディープラーニングは改良や改善に役立つ日本向きの技術」だという。機械学習を生産技術などにつなげていければ,労働人口の減少を補うこともできるので,その面でも日本向きかもしれない。

 さらに「第二次人工知能ブームを覚えている人が上にいるのも利点」とのことだ。1980年代のブームで人工知能を学んだ人が上役になっているため,理解を得やすいのが利点だというのだが,これは弱点にもなりそうな気もする。その世代はブームが一過性だったことも覚えているので,懐疑的にもなるかもしれないからだ。

 そんなディープラーニングだが,ロボットなどに使う研究はすでに始まっていて,2つほど例が紹介されたのでスライドで示しておきたい。

ディープラーニングでレゴブロックの組み立て方を学習したロボット。不器用に動くのが人間の子供の動きにそっくりで,ちょっと気味が悪い感じもするが,それだけリアルということでもある
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

コンピュータ上のコースで,お互いに衝突しないようカートを動かす学習を行い,さらにその手法をリアル世界のカートでも応用したところ,どちらも学習後にカートを衝突させずにコースが走れるようになったという例
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する [CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 もちろん日本でも産官学をあげてディープラーニングに関する動きがスタートしている。たとえばドワンゴが研究所を立ちあげるとか,国が支援する研究が始まるかもといった段階にある。
 遅きに失したんじゃないの,と言う人もいるかもしれないが,松尾氏によれば決してそんなことはないという。ディープラーニングはまだ始まったばかりの技術で,2012年の成果からたった3年しか経っていないからだ。日本には人工知能の研究者が多いというアドバンテージもあるので,松尾氏は「3年の遅れなどすぐに取り戻せる」と強調していた。

日本でもディープラーニングに関わる様々な動きがスタートしている
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

ディープラーニングは日本にアドバンテージがあるため,遅れは取り戻せると松尾氏は語った
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する

 というようなわけだが,じゃあゲームは? と聞きたくもなるんじゃなかろうか。松尾氏はゲームについて一切語らなかったのだが,ディープラーニングのゲームへの応用はまさにCEDECに集まったゲーム開発者やデザイナーが考えるべきことということかもしれない。松尾氏が語るようにディープラーニングはまだ始まったばかり。アイデア募集中というステージなので,読者もゲームにどう応用するか夢想してみるのも楽しいだろう。
  • この記事のURL:
line
4Gamer.net最新情報
最新記事一覧へ新着記事10件
トピックス
スペシャルコンテンツ
注目記事ランキング
集計:09月22日〜09月23日