Googleは米国時間2月22日、会話型AI生成サービス「Gemini」における、画像生成機能を一時的に停止した。同社はその理由について、「過剰に補正したり、保守的になる」と説明している。

【画像】偏った結果を生成してしまうGemini

 Geminiは2023年12月に発表されたLLM(Large Language Model:大規模言語モデル)だ。テキスト、画像、音声、プログラミング言語のコードなどの入出力が可能で、最も高性能な「Gemini Ultra」では高い正答率を誇っている。

 一方でGeminiの画像生成機能は、「歴史的文脈の中で人物を正確に描写できない」と、批判を浴びていた。

 同社は「暴力的または性的な画像や実在の人物の描写など、画像生成テクノロジーでこれまでに経験したいくつかの問題に陥らないように調整した」「また、当社(Google)のユーザーは世界中から集まっているため、すべての人にとってうまく機能することを望んでいる」としており、たとえば「サッカー選手」というワードで生成をおこなった際、多様な人種で生成するような仕組みを取り入れていた。

 しかしその結果、歴史的背景や文脈を無視した画像が生成されるようになってしまったり、過剰な反応を示すようになってしまったという。一例をあげると、「映画館を訪れるカップルの画像」を生成すると、多様な人種を生成するはずが白人の画像が一度も生成されず、「白人男性と混血女性のカップル」と指定すると“回答が拒否される”といった報告が挙げられている。

 Googleで上級副社長をつとめるPrabhakar Raghavan氏は、「(Googleは)Geminiが特定のグループの画像作成を拒否したり、歴史的に不正確な画像を生成したりすることを望んでいない」と語っている。

 同社は声明のなかで「Geminiがさまざまな人々を表示するように調整した結果、“そうすべきでない事例”に対して誤った結果を生成するようになってしまった」「時間の経過とともに、モデルは意図していたよりも過剰に慎重になり、特定のプロンプト(指示)に答えることを拒否した」と記している。

 このため、画像生成AI「Imagen 2」を利用したGeminiの画像生成機能は「場合によっては過剰に補正し、場合によっては過剰に保守的になる」として、提供が中止された。Googleは人を含む画像生成機能を再度提供する前に、大幅な改善とテストを予定している。

Source
https://blog.google/products/gemini/gemini-image-generation-issue/
https://9to5google.com/2024/02/23/gemini-image-generation-google-statement/

(文=塚本直樹)

『Gemini』