私たちが日常的に使用する言葉での指示や質問に従って文章や画像・映像、音声等を自動生成する『生成AI』は、2022年11月の『ChatGPT』登場を機に、一躍脚光を浴びた。現在の生成AI開発では主に米国の新興および大手企業がしのぎを削っているが、日本も手をこまねいていたわけではない。保健医療分野については2017年以降、今後の活用や開発について議論がなされてきた〈図〉。今年1月11日には、一般の人にこれまでの取り組みや今後の見通しをわかりやすく紹介することを目的に、「保健医療分野AI社会実装推進シンポジウム」が開催された(主催:厚生労働省、事務局:大臣官房厚生科学課)。その中から、AI研究の第一人者松尾豊氏(東京大学大学院工学系研究科 技術経営戦略学専攻教授)による基調講演「生成AIの進展と保健医療における活用可能性」の内容を紹介する。
※なお、『 』内に示した文中のAI関連用語を記事の最後にまとめたのでご参照いただきたい。
■人間の学習と似た現象が起こっている?
講演で松尾氏は「2023年はまさに生成AIに始まり、生成AIに終わった」「OpenAI社のGPT-4は一定条件下で既に日米の医師資格試験の合格レベルに達している」として生成AIの要点を解説。この分野における生成AIの可能性に期待感を示した。
【生成AIの鍵となる技術】ChatGPTの基盤技術は『大規模言語モデル(LLM)』であり、さらにその鍵となるのが『自己注意機構』を大規模に使った『トランスフォーマー』による深層学習手法と、次にくる単語の予測をひたすら繰り返す『自己教師あり学習』だ。逆に言えば、ポイントはこの2つしかない。汎用のLLMで事前学習し、事後学習でチューニングする。以前は、翻訳、要約など目的に合わせて都度モデルを作っていたが、LLMなら一つで済む。
【LLMの中で起きていること】LLMの中で何が起きているか、実はよくわかっていない。従来の機械学習ではパラメータ数が大きくなると過剰適合が起こり、訓練データではうまく働くが、未知のテストデータに対する性能が上がらない。ところが、LLMは『パラメータ』数が多いほどテスト性能が上がる。LLMは、最初データを丸覚えするが、しばらく時間が経つと全体が構造を持った形で覚えるようになるらしい。この丸覚えから汎化への変化をグロッキング(grokking)という。人間も新しい分野を勉強するときに、まず知識を詰め込み、覚えていくうちに「こういう考え方をするのか」としっくりくるようになる。LLMでも同じようなことが起きているのかもしれない。
■医療に特化したLLMへの期待
【LLMの巨大化と限界】OpenAI社のLLMを例にパラメータ数の変化を見ると、GPT-1の1.17億からGPT-2は15億、GPT-3は1,750億と飛躍的に増えた。一方、Googleが満を持して昨年末に公開したGeminiは1.56兆パラメータと巨大で、さまざまな指標でGPT-4(パラメータ数非公表)を超えるとされる。しかし、今後のLLMは数千億から2兆パラメータくらいで頭打ちと考えられる。なぜならデータがボトルネックになるからだ。これまではインターネット上のデータを探してきたり、Wikipediaや書籍を使ったりしてきたが、そこが増えないとパラメータを増やしても精度が上がらない。
また、LLMの弱点も見え始めた。単純なデータの変換や反射神経的な応答、ドラフトの執筆などは得意だが、人間がやっているように、大きなタスクを分解して一つ一つこなすことは苦手なのだ。
【特定領域LLMで勝負】パラメータ数がこれ以上大きくならないとすると、特定領域に特化したLLMにも勝機がある。米国スタンフォード大学の研究者らが医療データで学習させたPubMedGPT(27億パラメータ)はOpenAIのGPT-3に勝ったが、GPT-3.5やGPT-4(推定1~2兆パラメータ)に負けた。しかし、GoogleのMedPaLM-2(5,400億パラメータ)はそれらに勝った。特定領域LLMと汎化LLMのどちらが市場をとるかはまだわからないが、「日本語特化、業界特化で勝負になる」「日本の中で医療データを持っていることが非常に強みになる」可能性がある。
【医療特化LLMの実例】Med-PaLMは、Googleが汎用LLM『PaLM』をもとに医学的な質問に対して質の高い回答ができるようにデザインしたもので、医療文書の要約や患者データの整理など面倒な業務もこなせる。Med-PaLM-2は2023年4月から米国Mayo Clinicでテストされている。さらに同年7月には、テキストや画像も使える『マルチモーダル』なMed-PaLM-Mも公開。医療上の質問と応答、マンモグラフィや皮膚がん等の画像認識、X線画像検査レポートの生成と要約、ゲノムや病理画像の扱いなどのタスクで最高水準のタスクを達成した。
中国では2023年5月、成都医雲科技がMedGPTを公開した。野村総合研究所の報告によると、この医療特化型LLMは1,000億パラメータ以上で、訓練にはテキストデータ20億件および臨床データ800万件を活用し、提携医師の診断結果による学習も導入しているという。
【医療特化LLMに求められる条件】今後はLLMだけではなく、LLMを含んだシステム全体が非常に重要になる。現在のLLMは非常に精度が高いとはいえ、間違えることがある。医療は間違いが許されない分野なので、それをどうカバーするか。例えば「LLMの出力を正確な医学的知識と照合して最低限の品質を確保する」「医師のフィードバックを事前・事後学習、プロンプト等に反映して精度を改善する」「個人情報や著作権に配慮し、データとモデルを管理する」「安全上や個人情報上の問題が生じたときに学習データから取り外す」などの仕組みを入れていくことが重要な課題になる。現状のLLMとこうした手堅い(rigid)システムを組み合わせたハイブリッドなシステムが必要ではないだろうか。
■創薬の効率化にも大きなポテンシャル
【医療における生成AIの想定活用】今後、さらに汎用LLMの性能が向上し、医療特化LLM開発が進展した場合、主な活用領域として次の3つが想定される。それぞれについて具体例を挙げる。
❶診断支援系:私たち松尾研究室(松尾研)と都の機関との共同研究で、脳のMRI画像を用いた認知症診断支援を実施。軽度認知機能障害と関連性がある微小出血の領域や数をAIで検出し、投薬意思決定の参考にしている。
❷業務効率系:電子カルテはベンダーごとにフォーマットが異なるが、裏でLLMを使うとフォーマットの変換が簡便にできる。複数の医療機関で疾患の分類体系が異なるために統合できないという問題に対する新たなソリューションを提供し得る。
❸創薬の効率化:テキストや自然言語に代わって、テキストと見なせる情報(遺伝子情報や化学物質の構造などのデータ)を入れてLLMの事前学習を行うことで、今までと全く違う形での創薬プロセスの効率化につながる可能性がある。
【マクロの視点から考える日本の可能性】私は内閣府の「AI戦略会議」で(座長として)AI全体を見る機会があり、「日本のAIがどうやったら世界に伍していけるか」よく考える。国内でも松尾研のほか、いろいろな企業がLLMの開発に取り組んでいるが、いずれも100億パラメータ(数億円規模)程度であり、特定領域に特化したものはまだ出てきていない。AIに対し、世界では数兆円以上の投資合戦になるが往々にして日本が負ける。それは後ろに数十兆円以上の売り上げを見込む諸外国(特にGoogle やMicrosoftが関わる米国)と異なり、大きな事業がないからだ。
その点、医療分野は金融・製造分野と並ぶ巨大産業であり、デジタル化や生成AI、LLMによって効率化できる余地が大きい。日本のAIが世界と伍するためには、こうした巨大産業に寄与し価値提供して、その分野のコストを削減し、投資をAIに回していく構造を作れるかどうかが大きな課題と考える。今後は医療分野の日本発AIをまずアジアに展開し、輸出産業とすることは十分可能だろう。各産業のグローバル展開を後押ししながら、日本のAI産業自体も発展していけるよう、一歩ずつ進めていけばよい。
シンポジウムでは、厚生科学課でAIを担当する丸山翔悟氏が、厚生労働省と政府の取り組みを紹介〈図〉。実例として、「官民研究開発投資拡大プログラム(PRISM)の創薬ターゲット探索プラットフォーム構築事業で肺がんと特発性肺疾患の創薬ターゲット各1を導出済み」「AMED医工連携・人工知能実装事業のAI医療機器開発で6課題、遠隔医療推進で2課題進行中」「仮名加工情報を利活用したAI医療機器開発を加速する上での課題の俯瞰的研究」「保健医療分野における生成AIの国内外での利活用実態把握」の4つを紹介した。
AI戦略については関係省庁の連携チームが組織されているが、昨年1年間における生成AIの目覚ましい進歩を見ると、従来のスピード感では間に合わない。昨年11月に発足した英国政府の「AI安全性研究所」は、新たなAIの公開に先立って専門家が安全性を評価し悪用の可能性等を評価するという。近々日本でもAI安全性研究所の設立が予定されている。わが国はAI開発促進のための基盤や質と安全性を確保するためのルールを整備しつつ、LLMの主な特化領域を定めるなど戦略を明確にして推し進めていく必要に迫られている。
【本文中のAI用語関連一覧】
生成AI、生成系AI(Generative AI):予め学習したデータに基づき、ユーザーの指示(プロンプト)に従って、文章・文書、画像・映像、音楽、デザインなどを新たに自動生成しアウトプットできる人工知能の総称。入力するデータの形によって、対話型AI/チャットボット(テキストや音声)やマルチモーダルAI(テキスト、音声、画像、動画などさまざまな種類のデータ)、出力するコンテンツによって文章生成AIや画像生成AIなどがある。
プロンプト(Prompt):対話型AIや画像生成AIでユーザーが意図する回答や出力を得るために入力する単語や文章。
チャットGPT(ChatGPT):米国OpenAI社が提供する、対話型の文章生成AIサービス。機械学習技術Transformerと「教師あり学習」を採用した大規模言語モデルを採用し、人間が日常的に使用する自然言語を理解し(自然言語処理)、一見AIによるものとわからないほど人間に近い応答が生成される。
深層学習(Deep Learning):対象の全体像から細部までの粒度(構成単位の粗さ、大きさ)の概念を階層構造として関連付けて学習し、コンピュータ自らが、データに含まれる潜在的な特徴をとらえ、より正確で効率的な判断を実現する手法。
トランスフォーマー(Transformer):Googleが2017年に公開した機械学習技術。ある単語と、その周囲の文中すべての単語との関係の強さを効果的に学習できる自己注意機構(Attention)という仕組みによって学習の効率を上げ、文章の離れた位置にある単語同士の関係をつかむことを得意とする。GoogleのBERT(Bidirectional Encoder Representations from Transformers)、OpenAI社のGPT(Generative Pre-trained Transformer)シリーズ(いずれも自然言語処理モデル)ともにトランスフォーマーを採用している。
自己教師あり学習(Supervised Learning): 機械学習の手法の一つ。予め正解が明示されているデータ(教師データ)を例題・ガイドとして、それに適合するように学習しモデルを構築していく。事前学習しておくことで、次に与えられるタスクで、少しの例を与えるだけで学習できる。
大規模言語モデル(LLM, Large Language Model): 生成AIの基盤技術。言語モデルでは文章の並び方に確率を割り当てる。大量の文章データを学習し、ある単語が与えられたときに次にくる単語を予測するタスクを繰り返すことで、さまざまな質問に人間のような文章で答えることができるようになる。
パラメータ(parameter):LLMを構成するニューラルネットワーク(人間の脳の働き、神経回路網を模した数理モデル)の状態を表すもの。数値が大きいほど高度なデータ処理が可能。
パーム(PaLM, Pathways Language Model):Googleが開発したLLMの一つ。5,400億パラメータで、会話に加え、文書の生成や分類などの能力に長けている。
2023年1月19日時点の情報に基づき作成
・・・・・・・・・・・・・・・・・・・・・・・・・・・・
本島玲子(もとじまれいこ)
「自分の常識は他人の非常識(かもしれない)」を肝に銘じ、ムズカシイ専門分野の内容を整理して伝えることを旨とする。
医学・医療ライター、編集者。薬剤師、管理栄養士、臨床検査技師。