画像・音声認識に対応した新「ChatGPT」が登場…“目”と“耳”を手に入れた生成AIは何を可能にするのか？

2023年9月、従来のChatGPTに「画像解析」「音声認識・出力」という新機能を追加した「GPT-4V（ビジョン）」が登場しました。「ChatGPT」が"目"と"耳"を手に入れたことで、「手書きのワイヤーフレームの写真」などを基に、Webサイトやアプリのコードを生成するというような作業も可能になり、大幅に実用性が高まるとみられています。一方で、情報の正確性や生成物に関する著作権等の権利問題にはまだまだ課題も残ります。本稿では、既存のビジネス環境に多大な影響を与え得る「GPT-4V」のインパクトや活用事例を紹介しつつ、生成AI開発の最新動向に迫ります。

※本稿は、テック系メディアサイト『iX＋（イクタス）』からの転載記事です。

音声や画像も認識できるようになった新しいChatGPT

OpenAIによって新たに開発された「GPT-4V」は、これまでのテキストベースのAIに、音声認識・画像認識機能を加えた革新的なマルチモーダルAIです。マルチモーダルAIとは、複数種類のデータを入力して処理できるAIのことで、従来のGPT-4がテキストのみに対応していたのに対し、GPT-4Vではテキストや音声、画像、動画といった複数のタイプのデータを扱えるようになっています。

ユーザーがアップロードした画像を解析できるようになったことで、従来のようなテキストベースのやり取りに比べ、よりリッチで直感的な対話が可能になっています。たとえば、詳細がわからない画像や動画をアップロードして、【画像1】のように内容について質問できます。

音声での対話については、23年11月現在ではスマートフォン限定でリリースされており、音声入力を行うとリアルタイムで音声による返答を得られます。また、会話を終了すると【画像2】のようにログが残ります。

対話言語はテキストと同様に約30ヵ国語に対応し、日本語でも問題なく対話が可能です。

“目”と“耳”を搭載したことで起きる役割の変化

これまでのChatGPTがテキストベースでの対話に限定されていたのに対し、画像・音声認識を実現し、いわば"目"と"耳"を手に入れた現在は、次のようなことが可能になります。

画像ベースの質問応答

ユーザーがアップロードした画像に基づき、その内容に関する質問に回答します。たとえば、ユーザーが食品の画像をアップロードすれば、その食品のレシピや栄養情報も取得できます。

ビジュアルコンテンツの分析と提案

GPT-4Vは、アップロードされた画像や動画の内容を分析し、それに基づいてマーケティング戦略やデザイン提案も行えます。たとえば、広告キャンペーンの画像を分析して、より効果的なビジュアル戦略を提案させることも可能です。

トレーニングツールの開発

画像や動画を用いて、より具体的かつ視覚的な学習教材やトレーニングツールを提供できます。たとえば、医療画像を分析して、診断技術のトレーニングに利用したり、歴史的な画像から歴史教育のための教材を作成したりという活用方法が考えられます。

このように、これまでの役割とは変化が起きており、テキストベースで完結していたところから視覚情報にアプローチすることで、入力と出力を直感的に行えるようになりました。これにより、ユーザーが質問するハードルが下がり、ビジュアルでの説明も可能になったため、今後は教育分野やプレゼンなどビジュアルでの説明が重要な場面で活躍が期待されています。

そして、これらの機能は先日GPT-4 with vision (GPT-4V)という名前でリリースされ、API使用が可能になりました。これにより、さまざまなプロダクトでマルチモーダル入力が可能になり、応用できるアプリケーションの幅が大きく広がることになります。

このように、多機能になってこれまで以上にビジネスシーンでの役割が増えたChatGPTですが、導入にあたってはまだまだ複数の課題があることは否めません。

まず、データプライバシーとセキュリティに関して、個人情報や機密情報を含む画像・動画の取り扱いにおいては、厳格なデータ保護とセキュリティ対策が必要です。GPT-4Vは多様なデータを扱うため、これまで以上に入力情報のチェックが難しくなり、より正確な確認が求められています。

また、活用にあたってのコストやリソースという点にも課題が残ります。GPT-4Vvを効果的に活用するには、AI技術に精通したスタッフの育成や専門家の確保が必要になりますし、セキュリティチェックの面でも専任のスタッフやチェックツールの開発が必要になるかもしれません。

ほかにも、APIなどを使用した既存のビジネスシステムやデータ管理プラットフォームとの統合には技術的な課題が残ります。とくに、異なるデータ形式やプラットフォーム間での連携は複雑であり、求められる技術レベルは相当に高いものになりそうです。

生成AIが現存の「無形データ」を網羅…人間の役割は？

今回のアップデートでChatGPT は“目”と“耳”を手に入れたことになりますが、ここで重要なのは、データの形を変えずに送れるようになったという点です。マルチモーダルAIになったことで扱えるデータの幅が広がり、画像や音声データについても人間を介して言語化する必要がなくなりました。

現存する無形データは基本的に網羅できることになっており、最終的には人間は最初の命令だけを行い、それ以降のタスクをすべてAIが処理するようなことが可能になるかもしれません。

また、各機能の拡充によってそれぞれを掛け合わせたカスタマイズ性も向上しており、入力やアウトプットの形に囚われずにさまざまなタスクをこなせるようになっています。現在も、各機能を組み合わせたシステムを試す動きが出ており、パーソナライズが進んでいます。さらに、GPT-4Vには人間フィードバック強化学習（RLHF）というアルゴリズムが組み込まれており、ユーザーが好むような形の出力を生成できるようになっています。

そのため、各企業、各部署、もしくは各従業員に専用のチャットボットが1つ存在するような日も、そう遠くない未来に実現するかもしれません。

〈著者〉

木内翔大株式会社SHIFT AI 代表取締役 GMO AI&Web3顧問、生成AI活用普及協会理事 1990年東京都生まれ。33歳。大学1年生からフリーランスエンジニアとして活動。2015年に株式会社SAMURAIを創業。日本初のマンツーマン専門のオンラインプログラミングスクール「SAMURAI ENGINEER」で累計4万人以上を指導。2022年に株式会社SHIFT AIを創業（旧10X）。現在、「日本をAI先進国に」を掲げAIのビジネス活用を学べるAI活用コミュニティ「SHIFT AI」を運営。

音声や画像も認識できるようになった新しいChatGPT

“目”と“耳”を搭載したことで起きる役割の変化

生成AIが現存の「無形データ」を網羅…人間の役割は？

関連ニュース

コメント

雑学もっと見る

『ウマ娘 プリティーダービー 熱血ハチ…

空港の自販機で購入したコーヒーに多数…

「絶対美味いやつ」 “独身OL”がセブ…

泥まみれの汚いキャデラックを洗車した…

“すごい短いズボン”履かされた大島優…

DMMが“メイド専門”フィギュアブラン…

義母「食べないともったいないでしょ！…

年金30万円・退職金2,000万円でも「生…

夫と浮気した“娘の家庭教師”に慰謝料…

泥まみれの汚いキャデラックを洗車したら…… ピカピカになったセレブ御用達の人気車に「細部まで美しい」「赤い色がぴったり」の声【海外】

「絶対美味いやつ」 “独身OL”がセブン商品アレンジ→「深夜メシ」を作ったら……？ 背徳の味に「濃厚で震える」

空港の自販機で購入したコーヒーに多数の虫！ 飲んでしまった女性が呼吸困難に（スペイン）

“すごい短いズボン”履かされた大島優子「すごく恥ずかしくて…『生足は無理です！』って」

義母「食べないともったいないでしょ！」義両親が“ビュッフェ”で大暴走！？嫁が呆れていると…⇒周りがドン引きするNG行動って？

「怖いよおッ！！」 普通のカレーパンと思いきや…… 気づいてしまった「致命的な問題」に思わず戦慄

夫と浮気した“娘の家庭教師”に慰謝料を請求した結果…【衝撃の行動】を！？⇒地獄の苦しみ…「浮気」がダメな理由

「とんでもないものが売ってた」 ハードオフに“33万円”で売られていた「まさかの商品」に思わず仰天

民兵隊から女性を助けようとして追われる身に…イラン出身の難民申請者、先行きの見えない"日本の生活"に不安

【速報】東京で立民酒井氏が8氏破る、自民擁立せず

泥まみれの汚いキャデラックを洗車したら…… ピカピカになったセレブ御用達の人気車に「細部まで美しい」「赤い色がぴったり」の声【海外】

「絶対美味いやつ」 “独身OL”がセブン商品アレンジ→「深夜メシ」を作ったら……？ 背徳の味に「濃厚で震える」

空港の自販機で購入したコーヒーに多数の虫！ 飲んでしまった女性が呼吸困難に（スペイン）

“すごい短いズボン”履かされた大島優子「すごく恥ずかしくて…『生足は無理です！』って」

義母「食べないともったいないでしょ！」義両親が“ビュッフェ”で大暴走！？嫁が呆れていると…⇒周りがドン引きするNG行動って？

「怖いよおッ！！」 普通のカレーパンと思いきや…… 気づいてしまった「致命的な問題」に思わず戦慄

夫と浮気した“娘の家庭教師”に慰謝料を請求した結果…【衝撃の行動】を！？⇒地獄の苦しみ…「浮気」がダメな理由

「とんでもないものが売ってた」 ハードオフに“33万円”で売られていた「まさかの商品」に思わず仰天

民兵隊から女性を助けようとして追われる身に…イラン出身の難民申請者、先行きの見えない"日本の生活"に不安

【速報】東京で立民酒井氏が8氏破る、自民擁立せず

【速報】物価上昇上回る所得「必ず実現する」と首相

人気は日本語超え？世界の韓国語学習ブームに韓国メディアが注目＝韓国ネット「当然」「喜ぶこと？」

子どもを育てた経験のない大人が激増している…｢子持ち様はずるい｣の批判が過熱する根本原因

【速報】中国福建省トップが沖縄県訪問へ

「竹島は紛争地域」に警告・注意のみ、韓国政府の対応に批判続出＝ネット怒り「親日派が暗躍」

「結婚するやつはバカだと本気で思っています」あえて結婚しない人たちの本音とは

祝日という"官製のみんな一斉休日"が日本人を苦しめる…精神科医警鐘｢連休でストレスが増強される｣本末転倒

頂き女子りりちゃん「懲役9年」判決にネット騒然、「性犯罪より重い」の声も 量刑はどう決まる？ 元検察官の弁護士に聞く

【速報】東京で立民酒井氏が8氏破る、自民擁立せず

火炎放射器搭載の犬型ロボット「サーモネーター」がついに一般販売

4/27(土)21:00～選挙戦最終日に東京15区の立候補者が集う「ネット演説」生放送 主催：ニコニコ

【LIVE】5/5（日）9:00～【アメリカ海軍の航空ショー】岩国基地フレンドシップデー2024

5/3(金)午前0時〜声優・古谷徹と三石琴乃の朗読で聞く「日本国憲法」を24時間配信【憲法記念日特集2024年】

雑学
もっと見る

『ウマ娘プリティーダービー熱血ハチ…

泥まみれの汚いキャデラックを洗車したら……　ピカピカになったセレブ御用達の人気車に「細部まで美しい」「赤い色がぴったり」の声【海外】

「絶対美味いやつ」 “独身OL”がセブン商品アレンジ→「深夜メシ」を作ったら……？　背徳の味に「濃厚で震える」

空港の自販機で購入したコーヒーに多数の虫！　飲んでしまった女性が呼吸困難に（スペイン）

「怖いよおッ！！」　普通のカレーパンと思いきや……　気づいてしまった「致命的な問題」に思わず戦慄

「とんでもないものが売ってた」　ハードオフに“33万円”で売られていた「まさかの商品」に思わず仰天

泥まみれの汚いキャデラックを洗車したら……　ピカピカになったセレブ御用達の人気車に「細部まで美しい」「赤い色がぴったり」の声【海外】

「絶対美味いやつ」 “独身OL”がセブン商品アレンジ→「深夜メシ」を作ったら……？　背徳の味に「濃厚で震える」

空港の自販機で購入したコーヒーに多数の虫！　飲んでしまった女性が呼吸困難に（スペイン）

「怖いよおッ！！」　普通のカレーパンと思いきや……　気づいてしまった「致命的な問題」に思わず戦慄

「とんでもないものが売ってた」　ハードオフに“33万円”で売られていた「まさかの商品」に思わず仰天

頂き女子りりちゃん「懲役9年」判決にネット騒然、「性犯罪より重い」の声も　量刑はどう決まる？　元検察官の弁護士に聞く

4/27(土)21:00～選挙戦最終日に東京15区の立候補者が集う「ネット演説」生放送　主催：ニコニコ