東京工業大学東北大学富士通人工知能研究所、理化学研究所、名古屋大学サイバーエージェントKotoba Technologiesは5月10日、理化学研究所のスーパーコンピュータ「富岳」を用いて学習した日本語LLM(大規模言語モデル)「Fugaku-LLM」を公開した。

○共同研究開発の開始から1年で公開

今回、東工大 学術国際情報センターの横田理央教授の研究チームと、東北大学 大学院情報科学研究科の坂口慶祐准教授、富士通人工知能研究所の白幡晃一シニアプロジェクトディレクター、理化学研究所のMohamed Wahib(モハメド・ワヒブ)チームリーダー、名古屋大学 大学院工学研究科の西口浩司准教授、サイバーエージェント AI事業本部AI Labの佐々木翔大リサーチサイエンティスト、Kotoba Technologiesの小島熙之CEOが共同研究開発を行った。

昨今では米国を中心にLLMの開発が行われ、研究開発、経済社会、安全保障などあらゆる場面において変革が起きており、米国以外の国でも自国でLLMを開発するために莫大な人的資源や計算資源を投入している。

日本でもAI研究のための計算資源として、日本のスーパーコンピュータフラッグシップシステムである富岳に寄せられる期待は大きく、大規模な分散並列計算を実施するための環境整備が求められていたという。

そこで、東京工業大学東北大学富士通、理化学研究所は2023年5月よりLLMの共同研究開発を開始し、同8月からは名古屋大学サイバーエージェントKotoba Technologiesが参加した。
○「Fugaku-LLM」の概要

LLMを学習する際の演算速度を既存技術の6倍、通信速度を3倍に高速化することに成功し、演算高速化についてはTransformerの性能を富岳上で最適化するため、深層学習フレームワーク「Megatron-DeepSpeed」を富岳に移植、密行列積ライブラリのTransformer向けに高速化を行った。

通信高速化については3種類の並列化を組み合わせた富岳向け通信性能最適化とTofuインターコネクトD(富岳のノード間接続に用いられる6次元トーラストポロジーを持つ高速なネットワーク)上で集団通信の高速化を実施。

通常、LLMの学習にはGPUが用いられるが、LLMの学習のためにGPU不足が起きており、最新のGPUを大量に入手することは困難となっている中、GPUではなく富士通製の国産CPUを中央演算処理装置とした富岳を用いてLLMを学習できたことは、日本の半導体技術の活用や、経済安全保障の観点からも重要だという。

Fugaku-LLMは、国内で多く開発されている70億パラメータより一般に高性能、かつ現在の計算機環境下で扱いやすい130億パラメータのモデル。今回の学習では、サイバーエージェントが収集した独自の日本語学習データと英語のデータなどを用いているため、透明性と安全性を確保しつつ日本語性能にも優れているとのこと。

また、日本語が扱える多くのモデルは、国外で開発されたオープンなモデルに対してさらに日本語データを学習させる継続学習を採用しているが、Fugaku-LLMは独自のデータを用いて学習を行っているため、学習の全学習工程を把握でき、透明性と安全性の観点から優れているという。

実際、富岳の1万3824台の計算ノードを用いて、約4000億トークンを学習したが、学習データの約60%が日本語コンテンツであり、そのほか英語、数学、コードと組み合わせて学習した。

他言語での学習をベースに日本語を継続学習するのではなく、元から多くの情報を日本語で学習したFugaku-LLMは、Japanese MT-Benchで平均スコア5.5と、国産で独自のデータで学習を行っているオープンなモデルの中では最高性能を達成した。特に人文社会系のタスクでは9.18と高いベンチマーク性能を発揮しており、敬語など日本語の特徴を踏まえた自然な対話を行えることなどが期待されているとのこと。

今後、研究者やエンジニアがLLMの開発に活用できるよう、今回の取り組みで得られた研究成果をGitHubやHugging Faceを通じ公開している。

ライセンスで定めた条件下で、誰もが研究および商業目的での利用が可能としたほか、富士通Fugaku-LLMを同社の先端技術を無償で試せる「Fujitsu Research Portal」を通じて、5月10日より提供を開始する。

公開されたモデルを用い研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、効率的な学習方法や言語モデルが創出され、科学シミュレーションと生成AIの連携による科学研究サイクルの自動化のようにAI基盤モデルを科学研究に活用する「AI for Science」、数千を超すAIによるバーチャルコミュニティの社会シミュレーションなど、次世代の革新的な研究やビジネスの成果につながることが期待されているという。
○各者の役割

なお、各者の役割は以下の通り。

東京工業大学
全体総括、LLMの並列化および通信の高速化(3種類の並列化を組み合わせた通信性能の最適化、TofuインターコネクトD上での集団通信の高速化)
東北大学
学習用データの収集、学習モデルの選択
富士通
演算高速化と通信高速化(TofuインターコネクトD上での集団通信の高速化、パイプライン並列の性能最適化)、事前学習と学習後のファインチューニング
理化学研究所
LLMの分散並列化・通信の高速化(TofuインターコネクトD上での集団通信の高速化)
名古屋大学
3D形状生成AIへのFugaku-LLMの応用方法の検討
サイバーエージェント
学習用データの提供
Kotoba Technologies
深層学習フレームワークの富岳への移植
(岩井 健太)

画像提供:マイナビニュース