第4次ロボットブームの到来で、米中を中心に熾烈(しれつ)な開発競争が繰り広げられている。背景にあるのは「生成AIの進展」「人口減少」「人手不足」。日本にとってもロボットは社会や経済活動を維持するための生命線だ。本稿では『ロボットビジネス』(安藤健著/クロスメディア・パブリッシング)から内容の一部を抜粋・再編集。最先端のロボット技術と活用事例を紹介するとともに、今後の可能性を考察する。

JBpressですべての写真や図表を見る

 ロボットへの実装を視野に、グーグルでは生成AI技術の開発が進む。従来のロボットと次世代ロボット、その決定的な違いとは?

生成AIがもたらす認識から制御への展開

「Google」と「OpenAI」と聞くと何を思い出すでしょうか。検索エンジン生成AIという方が多いと思います。

 実はこの2社は、AIを使ったロボットの開発を精力的におこなっている組織です。

 AIというと少し前には、2024年にノーベル物理学賞を受賞した「ディープラーニング深層学習)」という言葉と一緒に、モノの認識性能が劇的に上がったことが話題になりました。2012年にはディープラーニング技術を使い、「人が教えなくても、自発的に猫を認識した」という発表がなされ、世界に衝撃を与えたことを記憶している方もいるかもしれません。

 実際におこなわれたのは、YouTubeから無作為に選ばれた1000万枚の画像を学習させたところ、人間が「猫」という概念を教えなくとも、自動的に猫の姿を識別できるようになったということです。この発表をおこなったのがGoogleでした。

 この例からわかるように、AIは「画像などを見て、〇〇とわかる」という認識に使われることが多かったのです。しかし、最近は「ロボットを動かす」ためにもAIを使うようになってきています。ロボットを動かすためには、認識する前に何をするのかという指示を理解する必要があります。

 そのうえで、指示や認識した環境の状況を踏まえて、タスクプランニングといって、どういう作戦でロボットを動かすのかという計画を立てる必要があります。そして、計画を踏まえて、変化する環境のなかで臨機応変に実際にロボットを制御していくのです。このいずれのプロセスでも、認識するAIだけでなく、生成するAIが活用され始めているのです。

 この変化を支えるのが、2017年にGoogleなどにより発表された「Transformer」という生成AI技術です。みなさんお馴染みのChatGPTの「GPT」は「Generative Pretrained Transformer」の略で「T」は「Transformer」の頭文字です。この技術により、これまでとは別次元の自然な対話が可能となり、言語だけではなく、多くの分野に波及していきました。

 視覚や聴覚などさまざまな入力情報に広がり、それらを組み合わせた「マルチモーダル」という状態で研究が進められることになったのです。これらの研究は、環境のあらゆる情報を入力として、汎用的なアウトプットを出力することから、文字通り「基盤モデル」と呼ばれるほど有用なAI技術となりました。

 結果として、Googleは認識からロボットの行動生成までをおこなうAIを開発することに成功します。

 2022年には「RT(Robotics Transformer)-1」というものを発表し、13台のロボットが17カ月かけて学習したデータを元に、タスクと環境に依存せず初見のタスクも実現するゼロショットという偉業を成し遂げました。

 そして、翌23年には「RT-2」として、ロボットの実機を用いて、環境を認識してからロボットの動作を生成するところまでを同じ学習モデルで扱うという視覚言語行動モデルが実現されたのです。

 このように次々と「Transformer」に関する技術を発表したGoogleは、「PaLM-SayCan」とも呼ばれる関連技術などを積み上げ、人間によるあいまいな指示に対して、ロボットが実現可能なソリューションを遂行する技術を開発しました。

 少し技術的な小難しい話になってしまいましたが、このような技術革新は何をもたらすのでしょうか。

「飲み物をこぼしてしまった。手伝ってくれる?」と指示すれば、ロボットが布巾を持ってくる、さらには自分で拭く。「機械が壊れたから直して」と言えば、修理するのに必要な工具やパーツを特定し、器用に工具を使いこなして作業する。そんなことができるようになるのです。

 これまでロボットの活用が進んできたのは、工場などで同じ動きを高速に繰り返す作業工程でした。その裏では、インテグレーターや生産技術者と呼ばれる専門的なトレーニングを受けた人間がどのようにロボットを動かすかを細かくプログラミングする必要がありました。このプロセスは「ティーチング」と呼ばれます。

 ですが、今後のロボットは、周囲の状況や対象物などの変化に応じた柔軟な動作変更ができなければなりません。状況や環境が変わるたびにティーチングをおこなうというのは、時間がかかりすぎて現実的ではないのです。

 そのようなときであっても、紹介したような生成AI、基盤モデルを活用することで、人間のあいまいな指示に対しても、ロボットが自ら指示を解釈し、行動を計画、実行するため、人による細かいティーチングがほぼなくなるかもしれません。結果として、工場だけではなく、より周囲環境が多様で変化しやすいサービスの現場など社会のさまざまな現場やシーンでロボットの活用を容易にする可能性を高めるのです。

<著者フォロー機能のご案内>
無料会員に登録すれば、本記事の下部にある著者プロフィール欄から著者フォローできます。
●フォローした著者の記事は、マイページから簡単に確認できるようになります。

[もっと知りたい!続けてお読みください →]  インダストリー5.0が引き起こす静かな革命 ドイツ自動車業界で導入が進む「Catena-X」の革新性とは?

[関連記事]

「カネを出す」だけではない ロボットビジネスで世界の中心にいるソフトバンクの投資戦略と日本の勝ち筋とは?

300施設で75万台が稼働 世界最大のロボットユーザー・アマゾンが、台数を10倍に増やして目指す大変革「RX」とは?

BobNoah– stock.adobe.com