2023年9月、従来のChatGPTに「画像解析」「音声認識・出力」という新機能を追加した「GPT-4V(ビジョン)」が登場しました。「ChatGPT」が"目"と"耳"を手に入れたことで、「手書きのワイヤーフレームの写真」などを基に、Webサイトやアプリのコードを生成するというような作業も可能になり、大幅に実用性が高まるとみられています。一方で、情報の正確性や生成物に関する著作権等の権利問題にはまだまだ課題も残ります。本稿では、既存のビジネス環境に多大な影響を与え得る「GPT-4V」のインパクトや活用事例を紹介しつつ、生成AI開発の最新動向に迫ります。

※本稿は、テック系メディアサイト『iX+(イクタス)』からの転載記事です。

音声や画像も認識できるようになった新しいChatGPT

OpenAIによって新たに開発された「GPT-4V」は、これまでのテキストベースのAIに、音声認識・画像認識機能を加えた革新的なマルチモーダルAIです。マルチモーダルAIとは、複数種類のデータを入力して処理できるAIのことで、従来のGPT-4がテキストのみに対応していたのに対し、GPT-4Vではテキストや音声、画像、動画といった複数のタイプのデータを扱えるようになっています。

ユーザーがアップロードした画像を解析できるようになったことで、従来のようなテキストベースのやり取りに比べ、よりリッチで直感的な対話が可能になっています。たとえば、詳細がわからない画像や動画をアップロードして、【画像1】のように内容について質問できます。

音声での対話については、23年11月現在ではスマートフォン限定でリリースされており、音声入力を行うとリアルタイムで音声による返答を得られます。また、会話を終了すると【画像2】のようにログが残ります。

対話言語はテキストと同様に約30ヵ国語に対応し、日本語でも問題なく対話が可能です。

“目”と“耳”を搭載したことで起きる役割の変化

これまでのChatGPTがテキストベースでの対話に限定されていたのに対し、画像・音声認識を実現し、いわば"目"と"耳"を手に入れた現在は、次のようなことが可能になります。

画像ベースの質問応答

ユーザーがアップロードした画像に基づき、その内容に関する質問に回答します。たとえば、ユーザーが食品の画像をアップロードすれば、その食品のレシピや栄養情報も取得できます。

ビジュアルコンテンツの分析と提案

GPT-4Vは、アップロードされた画像や動画の内容を分析し、それに基づいてマーケティング戦略やデザイン提案も行えます。たとえば、広告キャンペーンの画像を分析して、より効果的なビジュアル戦略を提案させることも可能です。

トレーニングツールの開発

画像や動画を用いて、より具体的かつ視覚的な学習教材やトレーニングツールを提供できます。たとえば、医療画像を分析して、診断技術のトレーニングに利用したり、歴史的な画像から歴史教育のための教材を作成したりという活用方法が考えられます。

このように、これまでの役割とは変化が起きており、テキストベースで完結していたところから視覚情報にアプローチすることで、入力と出力を直感的に行えるようになりました。これにより、ユーザーが質問するハードルが下がり、ビジュアルでの説明も可能になったため、今後は教育分野やプレゼンなどビジュアルでの説明が重要な場面で活躍が期待されています。

そして、これらの機能は先日GPT-4 with vision (GPT-4V)という名前でリリースされ、API使用が可能になりました。これにより、さまざまなプロダクトでマルチモーダル入力が可能になり、応用できるアプリケーションの幅が大きく広がることになります。

このように、多機能になってこれまで以上にビジネスシーンでの役割が増えたChatGPTですが、導入にあたってはまだまだ複数の課題があることは否めません。

まず、データプライバシーとセキュリティに関して、個人情報や機密情報を含む画像・動画の取り扱いにおいては、厳格なデータ保護とセキュリティ対策が必要です。GPT-4Vは多様なデータを扱うため、これまで以上に入力情報のチェックが難しくなり、より正確な確認が求められています。

また、活用にあたってのコストやリソースという点にも課題が残ります。GPT-4Vvを効果的に活用するには、AI技術に精通したスタッフの育成や専門家の確保が必要になりますし、セキュリティチェックの面でも専任のスタッフやチェックツールの開発が必要になるかもしれません。

ほかにも、APIなどを使用した既存のビジネスシステムやデータ管理プラットフォームとの統合には技術的な課題が残ります。とくに、異なるデータ形式やプラットフォーム間での連携は複雑であり、求められる技術レベルは相当に高いものになりそうです。

生成AIが現存の「無形データ」を網羅…人間の役割は?

今回のアップデートでChatGPT は“目”と“耳”を手に入れたことになりますが、ここで重要なのは、データの形を変えずに送れるようになったという点です。マルチモーダルAIになったことで扱えるデータの幅が広がり、画像や音声データについても人間を介して言語化する必要がなくなりました。

現存する無形データは基本的に網羅できることになっており、最終的には人間は最初の命令だけを行い、それ以降のタスクをすべてAIが処理するようなことが可能になるかもしれません。

また、各機能の拡充によってそれぞれを掛け合わせたカスタマイズ性も向上しており、入力やアウトプットの形に囚われずにさまざまなタスクをこなせるようになっています。現在も、各機能を組み合わせたシステムを試す動きが出ており、パーソナライズが進んでいます。さらに、GPT-4Vには人間フィードバック強化学習(RLHF)というアルゴリズムが組み込まれており、ユーザーが好むような形の出力を生成できるようになっています。

そのため、各企業、各部署、もしくは各従業員に専用のチャットボットが1つ存在するような日も、そう遠くない未来に実現するかもしれません。

〈著者〉

木内翔大 株式会社SHIFT AI 代表取締役 GMO AI&Web3顧問、生成AI活用普及協会理事 1990年東京都生まれ。33歳。大学1年生からフリーランスエンジニアとして活動。2015年に株式会社SAMURAIを創業。日本初のマンツーマン専門のオンラインプログラミングスクール「SAMURAI ENGINEER」で累計4万人以上を指導。2022年に株式会社SHIFT AIを創業(旧10X)。現在、「日本をAI先進国に」を掲げAIのビジネス活用を学べるAI活用コミュニティ「SHIFT AI」を運営。

(※写真はイメージです/PIXTA)