CEDEC 2019の2日目である2019年9月5日ヤマハは,「感性をAI化!? サウンドデザインへのAI活用法とその未来 -SURROUND:AIにおける適用事例-」と題したセッションを行った。担当したのはヤマハで「SURROUND:AI」の開発に携わった藤澤森茂氏と湯山雄太氏である。

 そもそもSURROUND:AIとは,ヤマハ製のAVアンプが搭載する技術のことで,これ自体はゲームに直接関わるものではない。しかし,本セッション明らかとなったSURROUND:AIの仕組みは,ゲーム分野でも応用が利きそうな話であったので,概要をざっくりと紹介してみたい。



■音場創生に取り組んだ30年分のノウハウを込めたSURROUND:AI

 マルチチャンネルサラウンドサウンドに対応するゲームタイトルは,今では非常に多い。対応タイトルそれなりのサウンド環境でプレイしたことがある読者も少なくないだろう。ゆえに,サラウンドサウンド技術が作り出すリアル環境音が,ゲームリアリティを大幅に高めることを理解している人は多いと思う。
 マルチチャンネルサラウンドサウンド対応のヘッドセットや,PC用サウンドカードの付属ソフトウェアには,たいていの場合,再生するタイトルコンテンツに適した音場を作り出す機能が備わっている。たとえば,再生時に「ホール」を選択すると,コンサートホールで演奏を聞いているかのような音場が得られるといった機能だ。

 藤澤氏は,こうした機能を,音場を創り出すという意味で「音場創生」と呼んでいたが,氏によると「ヤマハは,過去30年にわたって音場創生に取り組んできた」そうである。実際,筆者が知る限り,ヤマハは家庭用オーディオ機器に初めて「Digital Signal Processor」(DSP)を搭載した企業であり,DSPを使ってAVアンプや音響機器などにリアルな音場を創り出す機能を搭載していた先駆者と言っていい。

 さて,それでは音場をどうやって創り出すのかを説明したのが以下のスライドだ。このスライドはホールを例にしたもので,音を聴く人の耳には,ステージから直接聞こえる音のほかに,ホールの壁面から反射してくる音や残響音が入ってくることを示している。


 そんなホールの音場を家庭で再現するために,記録した音をもとにして残響音が発生する音源をマルチチャンネルシステムで仮想的に作り出して再生することをヤマハは行っているそうだ。藤澤氏によると,ヤマハは,世界中のホールで測定した音場のデータを持っており,それをもとにマルチチャンネルシステム100種類以上の仮想音源を創り出すことでリアルな音場を再現しているそうである。

 上述の例は,ホールという現実にある建物の音響を再現した例だが,創生という言葉が使われているとおり,単に現実の音響を再現するだけでない。映画やゲームの臨場感を高める音場を創り出すためにも,この技術が使われているという。ヤマハがAVアンプに搭載してきた機能「CINEMA DSP」がそれだ。


 コンテンツの臨場感を高める音場とは何かを示したのが,次のスライドである。映画やゲームサウンドは,キャラクターセリフ効果音BGMというおおむね3種類の要素で成り立っている。それぞれの要素に対してコンテンツに適した音場を創り出すことによって,コンテンツにより没入できるようにしようというのがCINEMA DSPの狙いであるという。


 ゲームの場合,ゲーム開発側のサウンドエンジニアが,プレイヤーに聞かせたいサウンドの設計を行っている。そのサウンドを,AVアンプ側の機能で手を加えるのは認められるか否かという疑問も出てくるだろう。藤澤氏は,そうした疑問の答えを求めてスクウェア・エニックスサウンドエンジニアとやり取りして,その結果をCEDEC 2010で発表したことがあるという。
 ざっくり言うと,「AVアンプの音場効果はゲームにとってもプラスになる」との結論に至ったそうだ。


 ただ,サウンドに詳しくないゲーマーにとっては,AVアンプヘッドセットが用意している音場から,何を選べばいいのかわからないというのが大きな問題であろう。CINEMA DSPの場合,「調子に乗って,30以上も音場のプログラムを作ってしまった」(藤澤氏)そうで,映画向けの音場だけでも,ドラマやSF,アドベンチャースタンダードといった具合に数多く存在するとのこと。これだけいろいろあると,どれが適切なのかユーザーが悩むことも当然あるだろう。「どれを選んでもしっくりこない」という経験をした人もいるかもしれない。
 たとえばアクション映画を例にすると,常に効果音が鳴り響いているわけではないし,セリフが重要になるシーンもある。アクション映画だからアクション用の音場を選んだとしても,全編通してそれが最適とは言い切れないわけだ。


 CINEMA DSPが抱えていた課題を解決するものとして,ヤマハ2018年に市場投入した機能がSURROUND:AIだ。AI技術を使って,コンテンツシーンリアルタイムに解析することで,そのシーンに最適な音場を自動選択するというのがSURROUND:AIの要点である。



■意外にシンプルSURROUND:AIの仕組み

 SURROUND:AIがどのような仕組みを採用しているのかの説明を担当したのが湯山氏だ。
 SURROUND:AIの開発は,湯山氏が現在の部署に異動した2015年スタートしたそうだ。AVアンプに入ってくるのは音の情報だけなので,音だけでシーンを推定しなければならないというのが,SURROUND:AIを開発するにあたっての大きなハードルであったという。

 そこで湯山氏らは,当初,音の特徴量を抽出してルールベースシーンを判別する手法を試みたそうだ。ここで言うルールベースを簡単に説明すると,「特徴量がこうならアクションシーン,こうなら台詞のシーン」といった具合に,設定したルールシーンを分けていく方法だ。
 しかし,この方法では誤判定が多すぎたうえに,判別の限界も見えていたので,諦めざるを得なかったそうである。

 湯山氏は,解決策を求めて数か月ほど,業務で映画を見続けたそうだ。映画好きにはうらやましいように思えるが,実際にはそうではなく「シーンチェックするために,2時間の映画を4時間くらいかけてみるということをやっていた」(湯山氏)そうで,かなり大変な作業だったようだ。


 その結果,湯山氏が到達した結論は意外なほどシンプルなもので,各チャンネルの音量がシーンと相関しているというアイデアだった。簡単な例を挙げるなら「セリフが重要なシーンは,フロントスピーカーの音量が一番大きいはず」というわけだ。
 実際のSURROUND:AIでは,0.2秒ごとに各チャンネルの音量を測定して,シーンを判定しているという。AVアンプが搭載するプロセッサの処理性能は,50MIPS程度しかないそうで,その性能でリアルタイムシーンを判定しなければならないため,処理の単純さも重要だったそうだ。音量だけでシーンが判定できれば処理量も小さくて済む。これもチャンネルの音量を判定に使う大きな動機になったと,湯山氏は説明していた。


 各チャンネルの音量がどの程度であれば,どのシーンに該当するかを判別するために,AI処理を使ったのがSURROUND:AIの大きな特徴だ。
 SURROUND:AIでは「Support Vector Machine」(以下,SVM)という手法を使っているという。SVMは,最近流行りのディープラーニングなどに比べると,やや古典的なAIの手法の1つだ。あるデータセットを持つオブジェクトクラス分けするといった課題を処理するために使う手法で,すでにクラス分けが済んだオブジェクトを用意したうえで,それを学習させてクラス分けを行うためのデータセットにおけるしきい値を導くといったものだ。学習のためにクラス分けを済ませたオブジェクトが必要なので「教師あり学習」に分類されるAIである。

 SVMでは,データベースを構築するために教師となる分類済みのデータが必要になるのだが,データは人間が用意せざるを得ない。サンプルになる映画のシーンを手作業でラベル付け(※アノテーション)していき,それをSVMに学習させるわけだ。それだけでも大変な作業だが,湯山氏によると,音量の測定が0.2秒ごとであるためノイズが生じやすく,ノイズが生じるたびに手作業で取り除くという作業も必要だったそうで,かなり大変だったようだ。

 それに加えて興味深いのは,アノテーションの作業は1人で行わなければならないと湯山氏が強調していた点だ。というのも,「複数の人がアノテーションを行うと(シーンの)判断がブレるために,いい結果が得られない」そうである。というわけなので,たった1人で多数の映画のアノテーションを行う必要があったので,なおさら大変だったろうことは想像に難くない。


 このように,シーンの判断に各チャンネルの音量を使用したり,AI処理にSVMを使ったりといったSURROUND:AIの仕組みがセッション明らかになったので,その気になれば他社でも真似できそうだなと思える。ただ,ヤマハが仕組みをここまで明らかにできるのは,データを作る部分がSURROUND:AIのキモになっているからだろう。仮に他社が真似しようとしても,データを作る部分がハードルになって簡単には真似できないというわけだ。


 このような手法により,SURROUND:AIは音だけでシーンの判別したうえで,リアルタイムに音場を切り替えている。ただ,実装にあたっては,音場の切り替わりが不自然にならないような工夫も施しているそうだ。
 湯山氏らは当初,「可能な限り短時間で音場を切り替えれば不自然にならないのでは」と予想して実装したところ,実際にはかなり不自然になってしまったそうである。そこでSURROUND:AIでは,秒単位の時間をかけてゆっくりと音場を切り替えることもあるということだった。



ゲームサウンドにもAIを

 今回のセッションでは,「FINAL FANTASY XV」のプレイ動画を使ったSURROUND:AIのデモも行われた。権利の関係で画像は掲載できないのだが,なかなか興味深かったのは,戦闘中や移動中にキャラクターセリフを言うと,SURROUND:AIがシーンの変化を検出していたところだ。ゲームでは,シーンに関係なくキャラクターが喋ることもあるので,変わっていなくてもシーンが変わったと検出してしまうことがあるようだった。

 ただ,それでも不自然にならないのがSURROUND:AIの賢いところで,時間をかけて音場を切り替えていることが奏功しているのかなという印象だった。


 SURROUND:AIの概要は以上のとおりだが,藤澤氏らは,AIとゲームサウンドというテーマゲームサウンドの開発者ともディスカッションを行ったそうで,そこで出たアイデアを紹介した。

1.繰り返し作業をAIに!
2.弟子AIを作る
3.クオリティの底上げ



 サウンド開発者から出てきたアイデアで興味深いのは,「弟子AIを作る」とだろうか。ゲームサウンド開発も,ノウハウが支配している部分が大きいそうだが,そのノウハウをAIで抽出できればノウハウの継承に役立つうえ,自分自身でノウハウを客観視できるというアイデアはなかなかおもしろい。

 SURROUND:AIが採用した,音声チャンネルの音量とシーンの相関や,SVMの応用といった仕組みは,ゲームのロジックに活かせるかもしれないと思う。ゲームにおけるAIの応用例として,興味深いセッションであった。

リンクCEDEC 2019のセッション情報ページ
リンクヤマハ公式Webサイト


―――――――――――――――――――――――――――――
記事URLhttps://www.4gamer.net/games/999/G999902/20190910059/
→この記事を4Gamerで読む(※画像などがすべてある完全版です)

―――――――――――――――――――――――――――――
Copyright (C) 2000-2019 Aetas, Inc. All rights reserved.

[CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか