【元記事をASCII.jpで読む】

 日本マイクロソフトが11月8日~9日に開催した開発者向けイベント「Microsoft Tech Summit 2017」では、講演の日本語音声をリアルタイム機械翻訳して英語字幕を表示していた。もちろん翻訳エンジンはマイクロソフト自慢の「Microsoft Translator」を使っているのだが、日本語音声認識の部分は国産のサードパーティー製だ。

 イベントで使用したのは、富士通ソーシアルサイエンスラボラトリ(富士通SSL)が販売するリアルタイム自動翻訳システム「FUJITSU Software Live Talk」。発話者の発言を音声認識・多言語翻訳して、リアルタイムに字幕を配信する(今回のイベントでは字幕を壇上のスライドに表示していたが、字幕を遠隔地の複数端末に同時配信することも可能)。日本語、英語、中国語など全19言語間の音声認識・自動翻訳に対応している。

 Live Talkでは、多言語音声認識とテキスト化に「Microsoft Cognitive Services」の「Bing Speech API」、多言語翻訳には「Translator Text API」を使用している。ただし、日本語の音声認識については、アドバンスト・メディアの音声認識エンジン「AmiVoice」を採用している。リアルタイムに翻訳結果を返す仕組みは富士通SSLの独自技術ということだ。Tech Summitに合わせて技術用語や製品の固有名詞を辞書登録しており、講演ではかなり精度の高い英訳がなされていた。

 Bing Speech APIは日本語音声認識にも対応しているのだが、まだ国産ソフトに精度が及ばないようだ。Cognitive Serviceの音声認識機能や翻訳機能はOfficeアプリにも実装が進み、ビジネスユーザーが簡単に使えるテクノロジーになってきた。だからこそ、日本語認識の精度は特に頑張ってほしい。来年のTech SummitではMicrosoft Cognitive Servicesが華麗に日本語を扱う様を期待したい。

Tech Summit講演の英語字幕、日本語認識は国産ソフト「AmiVoice」を使用