【元記事をASCII.jpで読む】

 2023年12月、スタンフォード大学の研究グループは、画像生成AI「Stable Diffusion」が学習のために使ったオープンデータセット「LAION-5B」の中に、1008件の「CSAM(児童性的虐待画像)」(日本では児童ポルノと訳されることが多い)が含まれていると発表し、大きなニュースとなりました。日本ではその違法性を問うことができるのでしょうか? 問題のある画像を含んだデータの排除した学習済みデータへの移行が進む一方で、日本では生成AIの問題をきっかけに表現規制にまで広げようという動きも出ているようです。

「Stable Diffusion v1.5」学習データに“児童ポルノ”?

 LAION-5Bはドイツの非営利団体LAIONが公開している、インターネット上から機械的に収集された画像に対し、その画像が何を意味しているのかを分析したテキストのペア(「Clip」と呼ばれる)によって構成された、約58億5000万個のデータです。2022年8月にリリースされたStable Diffusionの学習データは、その膨大な量のデータを利用して作られました。

 LAION-5Bは、機械的に集められていたこともあり、そのデータの全貌もよくわかっていない部分がありましたが、Stable Diffusionのリリース後に、その中身が何で構成されているのかに注目が集まるようになりました。スタンフォード大学の研究では、既存のマイクロソフトなどが提供しているCSAM画像を検出する手法や、独自のアルゴリズムで類似画像を検出する方法を使い、計3226件の疑わしい画像が特定されました。さらに、それを人力で確認したところ1008件のCSAM画像に該当するデータが存在するとしました。LAIONはそれに対して、大学や研究者、NGOと協力して、法律違反が疑われるコンテンツを特定して削除して再公開したと表明しています。

 そして2024年3月に読売新聞が、LAION-5Bに「1993年に(日本で)出版された裸の少女を写した写真集の画像データが見つかった」と報じました。記事では「(日本で)児童買春・児童ポルノ禁止法が施行された99年以降、こうした写真集の公開は違法になった」としています。その画像がスタンフォード大学の指摘するCSAM画像に該当するのかどうかは、記事では明確ではありませんが、日本でも学習データに関心が高まりました。

 Stablity AIが開発したStable Diffusionには、LAION-5Bを学習データとして使用していると考えられる2022年8月にリリースされたバージョン「v1.0」系統のものがあります。v1.0はLAION-5Bを構成する3つのサブセットの一つ23億個で構成される「LAION 2B-en」を中心に開発され、トレーニングのためにLAION-5Bを使ったとされています。そのなかで、動画生成AIで知られるRunwayが2022年10月にリリースしたバージョンが「Stable Diffusion v1.5」です。

 Stable Diffusion v1.5は、Stablity AIは「自社で開発したものでない」と主張している一方、Runwayは「Stablity AIと共同でリリースしたものだ」と主張しており、責任の所在は曖昧です。学習済みデータから特定の画像のデータだけを削除するという方法はまだ存在していないということもあり、違法性があるデータが残った状態で学習済みデータが流通しているのではないかと、大きな騒ぎになりました。

 ただ、Stablity AIは、2022年11月リリースの「Stable Diffusion v2.0」以降では、オプトアウトとフィルタリングによって問題のある画像を学習データから除いていると主張しています。これが事実だとすれば、問題があるのはStable Diffusion v1.5以前ということになります。ただ、今のところ、各国当局によりStablity AIとRunwayに対して、法的な責任を問う動きは出ていません。

 では、日本では学習段階で、違法性のある画像が含まれていた学習モデルの法的な評価はどうなるのでしょうか。

日本国内ではグレーのままにされる可能性が高い

 文化庁の「AIと著作権に関する考え方について」のために募ったパブリックコメントで、この問題についての意見が扱われています。児童ポルノやCSAMの学習段階での抑止と生成段階での法規制を求める意見があり、それに対して、文化庁の回答は「刑法、児童ポルノ禁止法等の関係法令において規制が設けられており、これらの法令における禁止規定に該当する行為があった場合、これらの法令に基づく刑事罰等の措置を受けることとなります」というものでした。刑法・児童ポルノ禁止法の所轄官庁は、法務省であるため、文化庁では法令に基づいて措置されるということ以上に主張することができません。

 それでは、法務省の見解はどうか。自民党山田太郎参議院議員の公式動画チャンネルの4月3日放送分によると、事務所が法務省に見解を問い合わせたところ、「違法性があるものがAIで扱われた場合には、法務省で議論していないどころか結論を出そうとしない。法務省は個別の事案(という返答)で結論が出ない」(山田氏)という状況のようです。

 法務省は、裁判時の解釈の自由度を縛ってしまうことになるため、積極的にガイドラインといったものを作成するつもりはなく、あくまで裁判が起こされ、判例ができるまでは見解を決めるつもりはないようです。

 山田議員事務所の小山紘一政策秘書はこれについて、かなり踏み込んで問い合わせたようです。

 「元々違法なコンテンツがありました。それを機械学習しました。パラメーターになってAIに(コンテンツは)残っていません。その段階でAIの学習行為は(法的な評価は)どうだったのですか? 法務省は『まったく考えていません』。学習してしまったモデルはどういう法的な評価を帯びるのですか。(法務省は)そこもまったく考えていません」(小山政策秘書)

 また、LAION-5Bに含まれるCSAMの枚数は、LAION-5Bの全体からすれば0.000017%以下という天文学的に小さい数値でそのまま学習したデータにそっくりな画像を出力する可能性はほぼないと言える低いものです。だからこそ法的な評価が重要になります。

 「生成AIから実在児童の児童ポルノ論理的に出るのかという話もあると思います。そもそも実在しているものを出せるのか。そして、たまたま出てきたら、それは実在の児童に似ていたからといって、それは実在児童の児童ポルノなのかどうかも法務省は考えていない」(小山政策秘書)

 結局のところ、日本では、具体的な裁判事例が出ない限り、先に法務省が何らかの見解を示す可能性は低そうです。ただ、生成・利用段階で、アウトプットが実在の人物のフェイク画像のような高い類似性を持つものであれば、立件の余地は十分にあると考えられます。一方、Stable Diffusionの基盤モデルを、開発・学習段階で、日本国内で違法であると裁判で追求するのは、論拠の組み立ても含めて相当難しいと思えるのですが、確定的なことは言えません。合法か違法か、明確にならないままの状態が続く可能性が高いと考えられます。

問題の「Stable Diffusion v1.5」は淘汰される可能性がある

 それでも、Stable Diffusion v1.5は世界的に市場淘汰にあう可能性が出てきています。

 まず、Stable Diffusion v1.5はベースの元々の出力画像の品質が低いこともあり、元のモデルのままでは、きちんとした画像を生成することは、ほぼ不可能です。筆者の使用経験からの感覚では、学習した画像をそのまま再現するほどの出力をすることは、まず無理であると考えます。

 また、新ユーザーインターフェース「Stable Diffusion Forge」の登場により、VRAMの搭載量が少ないPCでも動作が可能になったこともあり、ユーザーのあいだでは、Stable Diffusion v1.5から2023年7月にリリースされたStable Diffusion XL(SDXL)への移行が進んできています。生成できる画像の品質が高いためです。

  SDXLは、SD2.0以上に問題のある画像の削除が進められたモデルであるため、Stability AIの主張通りでであれば、CSAMといった問題のある画像は含まれていないと考えられます。

 これは、今後、学習前にオプトアウトが実施された次世代バージョン「Stable Diffusion 3」の登場によりさらに問題は減少するでしょう。少なくとも、Stable Diffusionで中核で使われる基盤モデルにLAION-5BのCSAMが含まれているという問題は、技術的な発展を通じて解決に向かっていると言えます。

 もちろん、Stable Diffusion v1.5からSDXLに至まで、ユーザーなどによって作成された追加学習モデルや、LoRAを使うことで、性的な表現の出力が可能になるものは実際に存在しています。v1.5を使って品質の高い画像を生成している場合は、追加学習をしたチェックポイントやLoRAが組み合わされていると言い切ってもいいでしょう。

 それらに違法な画像が含まれている可能性は残る、という別の問題はあります。また、そもそもLAIONを学習元として利用したのかどうかを明らかにしていない、MidjourneyやOpenAIなどの様々な学習済みデータをサービスとして展開する企業もあります。学習済みデータからは何の画像データを学習しているのかを明らかにする方法がない以上、今後も本当に違法性のあるデータが含まれているかどうかは争点になり続けるでしょう。

 ただ、今後は、生成・利用段階の結果に対するものへの規制が主流となっていくとは考えられます。

生成AIの問題から「表現規制」に発展する可能性が出てきている

 実際、生成AIでの児童ポルノに対して厳しい制限を加えている国はあります。特に、欧米圏では日本よりも、基準も厳しく罪も重いようです。

 3月末に、米連邦捜査局(FBI)は、「生成AIや類似のオンラインツールによって作成されたCSAMは違法である」とする警告を発しています。

 FBIが例示しているケースの一つは、2023年11月に、ノースカロライナ州の児童精神科医が、未成年者の性的搾取と、AIを使用して未成年者のCSAM画像を作成した罪で、40年の禁固刑と30年の監視付き釈放の判決を受けたものが挙げられています。未成年者のシャワーシーンなどを撮影したことなども罪として問われていますが、AIに関する部分では、ウェブベースのAIアプリケーションを使い、着衣した未成年者の画像を児童ポルノに改ざんし、そのデータを所持していたことが罪として問われたようです。

 日本の児童ポルノ禁止法は、18歳未満の性的画像を製造・公開し、性的好奇心を満たす目的で所持することを禁じています。そこでは児童が実在することが条件であるため、生成AI単体で生成されたものは、原則対象外と考えられています。上記のノースカロライナ州の事件と類似ケースが日本で起きた場合、実在の児童がいるため対象となると考えられます。

 しかし、生成AIはいま、写真かどうか判別がつかないレベルの画像が作れる段階に入っており、FBIの告知では「写実的な児童ポルノ画像を生成した場合にも対象となる」ということが明確に書かれています。

 一方で、日本では「児童の権利を擁護することを目的としている」ため、実在の児童を撮影した写真やビデオなどが対象となり、マンガやアニメなどの創作物は対象ではないとされており、その規制範囲には国ごとに違いがあります。

 ところが、この考え方の違いを一気に詰めて、日本の水準を欧米水準の厳しいものへと変えようという動きが出ているようです。

 昨年11月、読売新聞は「生成AIで児童の性的画像、国内大量投稿受け「規制必要」7割…NGO調査」との記事を公開しました。その根拠となっているのは、NGOチャイルド・ファンド・ジャパン」が行った世論調査でした。しかし、この報道は少し恣意的な部分があります。

 アンケートでは、「AIが作成する性的表現の含まれるコンテンツ」への規制に賛成する割合は71.9%ですが、マンガ・アニメ等を想定していると考えられる性的表現を含む「児童の実写ではないコンテンツ」の規制は75%、「非実在の児童をモデルとした空想コンテンツ」についても規制すべきという回答が68.9%とほとんど違いがありません。

 このNGOは生成AIだけを問題視しているのではなく、“現在の児童ポルノ禁止法では対象となっていない範囲”も含めることを求めているのです。同団体は、イギリス教会を組織のバックボーンに持つ団体ですが、日本の表現規制に英国法水準の厳しさを求めているようです。英国の基準では、日本のマンガやアニメによる表現であっても、CSAMに分類され規制対象になるようです。

 山田議員は前述の動画チャンネルのなかで、昨年12月に開かれたG7茨木水戸内務・安全担当大臣コミュニケで、不穏な一文が追加されていると指摘しました。

 「AIが生成した児童の性的虐待コンテンツの増大する危険はまた、法執行機関に過重な負担をかけ(略)当該加害者を法の裁きにかけるのを遅らせる可能性があることで、児童にとって重大な安全上の課題をもたらす」という一文です。

 これは、生成AIによって、生み出されるCSAMが多いため、生成AIかどうかを判断するのに負担がかかるので、区別なく規制しようという意味に受け取れるということのようです。

 山田氏は、「AI関係なく、児童ポルノはそもそも違法なのだけど、すでに整理されている(マンガ・アニメなどの)非実在のもののを、AIをどうするのかをすっ飛ばして、規制すべきという議論が起きている」と言います。表現規制の問題は世論調査によって決めるべき性質のものではなく、科学的な事実に基づいて考えるべきだと。自分が見るのが不愉快なものは、全部規制しようという動きへと広がりつつあると、今の規制がどんどんと拡大につながりかねないことに警鐘を鳴らしています。

 生成AIのCSAM問題は、問題点が解決されつつある学習・開発段階のものと、今広がりつつある生成・利用段階のものとに分けて理解する必要性があります。いま日本で大きな問題として認識されつつあるのは後者の議論で、日本での表現規制の範囲を広げようとする動きが進みかねない可能性が出てきています。

 

※追記:「LAION」の記述について追記しました。(4月16日12時12分)

画像生成AI“児童ポルノ”学習問題、日本では表現規制の議論にも