オススメ機能
Twitter
お気に入り
記事履歴
ランキング
お気に入りタイトル/ワード

タイトル/ワード名(記事数)

最近記事を読んだタイトル/ワード

タイトル/ワード名(記事数)

LINEで4Gamerアカウントを登録
Access Accepted第664回:リップシンクが日本語にも対応。声の質まで変わる次世代の音声技術とは
特集記事一覧
注目のレビュー
注目のムービー

メディアパートナー

印刷2020/10/26 00:00

業界動向

Access Accepted第664回:リップシンクが日本語にも対応。声の質まで変わる次世代の音声技術とは

画像集#001のサムネイル/Access Accepted第664回:リップシンクが日本語にも対応。声の質まで変わる次世代の音声技術とは

 ゲームをよくプレイする人にとって,カットシーンでのキャラクターの「口パク」はおなじみのものだろう。最近のタイトルではこの「口パク」に向けたリップシンク技術の開発が進み,日本語を含め,さまざまな言語を自然に話すキャラクターが生まれつつある。今回は,そんな最新技術を,「サイバーパンク 2077」やUbisoft Entertainmentの最新タイトルなどに絡めてお伝えしたい。


日本語をナチュラルに話す海外ゲームのキャラクター


 カナダのトロントに拠点を置く3Dアニメーション用ミドルウェアのデベロッパ,JALI Researchが,2020年8月にオンラインで開催された「SIGGRAPH 2020」におけるプレゼンテーションの模様を,先頃YouTubeで公開した。「『サイバーパンク 2077』の,表情豊かなアニメーションと複数言語のスピーチについて」(JALI Driven Expressive Facial Animation & Multilingual Speech in CYBERPUNK 2077)と題された講演には,JALI Researchのクリス・ランドレス(Chris Landreth)氏ピフ・エドワーズ(Pif Edwards)氏と共に,CD Projekt REDでキャラクターアニメーションディレクターを務めるマテウス・ポプラフスキー(Mateusz Popławski)氏が登壇した。


 2017年に設立されたJALI Researchは,ゲーマーにとってはあまりなじみがないメーカーかもしれないが,アニメーション業界ではよく知られた存在のようだ。10人ほどのメンバーが設立した小さなスタジオで,スタッフの多くがトロント大学の研究機関であるDynamic Graphics Projectに在籍する研究者であり,毎年のようにSIGGRAPHで研究の成果を発表するという少数精鋭ぶりを誇っている。ちなみにランドレス氏は,同社の共同設立者であるカラン・シン(Karan Singh)氏と共に,現在でもCGキャラクターアニメーションのスタンダードとして使われているAutodeskのツール「Maya」の開発に携わった人物でもある。

「サイバーパンク 2077」に登場するレディースギャング「モクシース」のメンバー,ジュディ。ゲームでは恋愛対象の1人にもなるという
画像集#002のサムネイル/Access Accepted第664回:リップシンクが日本語にも対応。声の質まで変わる次世代の音声技術とは
 「ウィッチャー 3: ワイルドハント」(2015年)を,すべての面で超えることを目指したCD Projekt REDの野心的なプロジェクト「サイバーパンク 2077」。キャラクターアニメーションを担当するポプラフスキー氏は当初から,「疑似的な筋肉によって表情までをも生み出す,前作以上のリップシンク技術」を模索していたという。
 多数のキャラクターが登場する「サイバーパンク 2077」では,それぞれのキャラクターを演じる役者の表情などをパフォーマンスキャプチャしていては時間も資金も膨大になる。また,サポートが予定されていた10言語について,英語以外でも手を抜きたくはなかった。そんなときに見つけたのが,ランドレス氏らが2016年にSIGGRAPHで発表した論文だった。

 JALI Research設立のきっかけにもなった彼らの理論に基づくソフトウェアは,機械学習(マシンラーニング)ではなく,ルールベースのAIだった。具体的には,特定の言語で口がどのように広がるのか,唇がどのように動くのか,舌がどのような形になるのかという「ルール」を決め,そのルールのうえに「音量」「音調」,そして(声帯から音が発せられる)「タイミング」を分析して顔の筋肉の動きを調整していくというものだ。

ソフトウェアの音声デモを収録したJALI Researchの映像デモより。同じヨーロッパ系の言語でもそれぞれに異なる特徴を持つ発音は,表情にまで影響するという。また,デフォルトで日本語に対応するだけでなく,よりナチュラルなリップシンクが表現されているのは日本人にとって嬉しい話だ
画像集#003のサムネイル/Access Accepted第664回:リップシンクが日本語にも対応。声の質まで変わる次世代の音声技術とは

 原理的にソフトウェアが対応できる言語があらかじめ決まってしまうため,広範囲での利用はできないものの,対応する言語についてはルールベースAIほうがカスタマイズしやすい利点がある。実際,AIの訓練には「ウィッチャー 3」で使われた,対応10言語それぞれに40時間を超える声優の録音データが使用された。ちなみに日本語は,発話の際にほとんど眉間を動かさないといった言語的特徴を持つことが見つかったという。プレゼンテーションで紹介されたデモ映像を見れば,日本語を話す者から見てもうまく調整されていることが確認できるだろう。


よりナチュラルに,多様性を表現するための技術


 多言語に対応したリップシンクは,「サイバーパンク 2077」が初というわけではなく,2019年3月23日に掲載したGDC 2019レポートでも紹介したように,Ubisoft Montrealの研究部門であるUbisoft La Forgeがすでに,「SoundMatching AI System」を独自開発している。こちらは唇の動きを再現した膨大なモデルデータを用意して,発話に対する適切なアニメーションを機械学習で合わせていくという手法だ。
 この技術の一部は,すでに「アサシンクリード オデッセイ」「フォーオナー」にも使われており,おそらく今後の作品でも改良を加えられながら活用されていくだろう。公開されたトレイラーから判断する限り,JALIのソフトウェアのように眉間や目の周囲の筋肉まで動くものではないようだが,より幅広い言語に対応できるのが利点と言えそうだ。


 本連載読者の大半は,おそらく海外ゲームのカットシーンだけでなく,外国映画やCGアニメなども見ているはずだ。声優が話し終わっているのに役者やキャラクターの口パクが続いていたり,唇の形が明らかに「お」なのに,「い」と聞こえたりすることへの違和感はとくに顕著に感じられるが,そのまま訳すと明らかに原文より長くなってしまったり,録音現場で映像にマッチした言い回しに変更したりなど,さまざまな問題が発生し,そのつど対処していても,そうした問題は残る。

 松たか子さんの歌った「アナと雪の女王」の主題歌「Let It Go」は世界的にも高く評価されたが,アナの唇の動きが日本語に対応していればさらに素晴らしいものになっただろう。それができないのは,言うまでもなくCGアニメがプリレンダリングされた「固定された映像」だからであり,その点は実写映画と同じだ。ハリウッドで制作された映像の言語は基本的に英語であり,翻訳家や声優は,英語で話す俳優やCGキャラクターに別の言語を合わせていくことになる。

 JALI Researchのサンプルに利用されている「サイバーパンク 2077」のアニメーションデモでも,英語が「Slow, deep breaths」(ゆっくり,深呼吸しなさいよ)なのに,日本語だけ「大丈夫」になっているあたりに,そうした翻訳作業の難しさが窺える。とはいえ,JALI ResearchやUbisoft La ForgeのAIを使った新しい技術は,声優や翻訳家のプレッシャーを大きく軽減するものになるだろう。

1人の声優の声が,数万,数百万のキャラクターに利用されるという,考えてみればかなり未来的なオーディオ技術を使った「ウォッチドッグス レギオン」。この技術自体は日本語音声にも対応するとのことなので,耳でもしっかり楽しんでみたい
画像集#004のサムネイル/Access Accepted第664回:リップシンクが日本語にも対応。声の質まで変わる次世代の音声技術とは

 リップシンク技術やAIと直接は関係ないが,Ubisoftが10月29日の発売を予定している「ウォッチドッグス レギオン」の新技術にも注目する必要がありそうだ。この作品は,大手メーカーが予算をかけた大作としては珍しく,主人公らしい人物が存在せず,「若者から老人まで,ロンドンに住む数百万人のキャラクター誰もが主人公になる」という挑戦的なゲームシステムが採用されている。声優が演じ分けるとしても限界があるため,キャラクターの音声の自動生成システムは,この作品の重要な課題になったという。
 そのためUbisoftは,「ポッシュ」と呼ばれるイギリス上流階級の「山の手言葉」や,労働者階級の訛りである「コックニー」,スコットランドやアイルランド系の方言,ジャマイカ移民のクレオール言語が混じった「パトア」など,さまざまな言語の持つアクセントを,ネイティブの声優から収録し,専用のボイスチェンジャーを使って登場キャラクターの体格や年齢に合わせた声色に変化させるというシステムを「ウォッチドッグス レギオン」で使った。筆者は,こうしたシステムの前例を知らず,まさに前代未聞のとんでもない手法だろう。

画像集#006のサムネイル/Access Accepted第664回:リップシンクが日本語にも対応。声の質まで変わる次世代の音声技術とは

 さすがに日本語版でロンドンの多様な方言をうまく表現するのは困難だと思うが,このボイスチェンジャー技術によって多彩なキャラクターを実現し,これまでになかったゲームシステムの採用を可能としたことで,より豊かなゲーム体験ができるようになったわけだ。こうした新たな音声技術が次世代コンシューマ機の登場に合わせて使われ始めているのは,我々にとって嬉しい限りだろう。ぜひ,「サイバーパンク 2077」や「ウォッチドッグス レギオン」を,目で楽しむだけでなく耳でも満喫してほしい。

著者紹介:奥谷海人
 4Gamer海外特派員。サンフランシスコ在住のゲームジャーナリストで,本連載「奥谷海人のAccess Accepted」は,2004年の開始以来,4Gamerで最も長く続く連載記事。欧米ゲーム業界に知り合いも多く,またゲームイベントの取材などを通じて,欧米ゲーム業界の“今”をウォッチし続けている。
  • この記事のURL:
4Gamer.net最新情報
プラットフォーム別新着記事
総合新着記事
企画記事
スペシャルコンテンツ
注目記事ランキング
集計:03月18日〜03月19日