Credit: Pixabay
Point
■科学的な研究で用いられる機械学習の手法は、すべて正しい結果を導き出しているとは限らない
■そうした研究は、別の研究で異なる大きなデータセットが用いられた上で、矛盾した結果が出たときにはじめて「間違っている」ことが分かる
■ このような状況が科学に「再現性の危機」をもたらしている

多くの科学者たちがデータ分析のために用いる、まさに今をときめく「機械学習」。

その手法が、人を惑わせる結果や、あるいは完全に間違っている結果を生み出している可能性があることが示されました。

「機械学習」はどこまで信用できるのか

ヒューストンにあるライス大学のジェネベラ・アレン博士は、機械学習によるシステムの使用の増加が、「科学の危機」の一因となってしまっていると述べています。彼女は科学者らに対して、そうした技法を改善しない限りは金と時間を浪費する結果になると警鐘を鳴らしています。

過去に集められたデータを分析するために、機械学習ソフトウェアを用いる科学的な研究は増え続けています。その分野は多岐にわたり、生物医療に関するものから天文学に至るまで様々です。そして、そこで用いられるデータセットの数は膨大であり、非常に高価なものとなっています。

しかしアレン博士によると、ソフトウェアは現実世界ではなくデータセットの中にのみ存在するパターンの認識をおこなうため、システムが導き出す答えは不正確であったり間違っていることが多いのだとか。そして、そうした研究においては、そこで使われたデータセットとは別の大きなデータセットを用いた研究が、矛盾した結果を示したときにはじめて「間違い」が発見されることとなります。

アレン博士は、「現在、科学における再現性が危機に陥っているといった一般的な認識があります。批判を覚悟であえて言えば、その大部分は機械学習が原因となっているといえるでしょう」と述べています。

「再現性の危機」を救うために

アレン博士は、ヒューストンにあるベイラー医科大学の生物医学研究者グループとともに、研究の信頼性を向上させることに取り組んでいます。彼女は、次世代の機械学習や統計技法の開発しようとしているのです。これが実現すれば、パターンを発見するためにシステムが多くのデータを調べるだけでなく、その結果の不確実性や再現性が確認できるようになります。

アレン博士は、「新たなシステムを実現させるための膨大なデータセットを収集するには、驚くほどコストがかかります。しかし私は共に働く科学者らに対して、私たちがやっていることは研究よりも時間がかかることかもしれませんが、最終的には長く使われ続けるものとなるでしょうと伝えています」と語っています。

人間の介入が少ない機械学習は確かに画期的なものかもしれませんが、出された結果が正しいかどうかを人間が判断できなければ意味がありません。これからさらに活用が増えていくであろう機械学習をさらにアップデートするために、アレン博士がすすめる取り組みは非常に大きな意義を持つといえるでしょう。

AIは「万能の神」にあらず。数学者が「AIに決して解けない問題」を考案

reference: bbc / written by なかしー
機械学習の失敗が科学に「再現性の危機」をもたらしているかもしれない