量子コンピューティングを用いた
バイオメディカル情報解析分野への取り組み
従来AI技術の運用コストを低減する量子AI技術を、
バイオメディカル言語モデルに応用
関連プレスリリース:BlueMeme、九州大学と量子AIを用いた大規模言語モデル構築のための共同研究を開始
関連リンク:高深度オミクスサイエンスセンター
発表詳細
オミクス解析とAIの結びつき
ライフサイエンス分野におけるオミクス解析i とは、生体内から抽出できるさまざまな種類の生化学的情報を統合解析することで、生物学的な現象の全体メカニズムを明らかにする研究手法のことを指します。具体的にはオミクスは、ゲノミクス・トランスクリプトミクス・プロテオミクス・メタボロミクスii の各分野から得られる知見の組み合わせにより、従来のゲノミクスのみでは解明できなかった疾患の原因などを解明する分野です。
オミクス解析の概念と重要性が国際社会に広まったきっかけは、2000代初頭に完了したヒトゲノムプロジェクトiii にあります。ヒトの全ての遺伝情報(ゲノム)を解読することを目的として行われた同プロジェクトの達成により、全ての遺伝子を1つの国際参照配列上にマッピング(位置決定)することが可能となり、静的なゲノムの設計図を明らかにすることが可能となりました。このパラダイムシフトにより、個人毎の遺伝情報の差異、その差異の生化学的な影響、さらには、組織、器官、個体といったより複雑なレベルへの影響等を理解することが可能となりました。これがゲノム情報を基盤としたオミクス解析時代の始まりです。
近年、オミクス計測技術の進化による計測データの高解像度化と深層学習技術の進化があいまって、オミクス解析と人工知能AIの結びつきは非常に強くなっています。
その背景にはシングルセル技術や空間オミクス解析iv などの最新技術の台頭により、データの高解像度計測が可能になったことが挙げられます。従来までのオミクス解析では平均化された細胞集団の情報しか得られなかったのに対し、これら最新オミクス技術は単一細胞レベルまたは微小空間レベルでの詳細な情報を与えます。こうしたビッグデータ化したオミクスデータをAIモデルに学習させることでバイオマーカーの特定や疾患原因の予測を行う研究が近年活発化しています。
AIによるオミクス解析の最たる例は、OpenAI社からの発表で瞬く間に世界に注目されたChatGPTv に代表されるような大規模言語モデルを活用したオミクスデータ解析になります。Transformervi と呼ばれる現在のChatGPTに搭載されている基盤となるAIモデルは、自然言語タスクのみならずオミクス解析にも応用することが可能です。オミクスデータの多くは基本的には文字配列情報であり、自然言語が単語や文字の配列であることと非常に類似しています。そのため、自然言語を解釈するために設計されたTransformerモデルは、オミクス言語モデルvii としてオミクスデータ、たとえばゲノムDNA配列の内部パターンを学習するのに非常に有用であり盛んに研究が行われています。
BlueMemeがなぜバイオメディカル情報解析の分野に取り組むのか
「日本企業の国際的な競争力を高めること」を目的にDX推進を行うBlueMemeは、時代とともに勃興する最新コンピューティング技術にいち早く着目し、企業や個人が抱える潜在的な課題解決のためにこれらを活用する、ということをビジネスの根幹に据えております。
この思想のもと、2008年創業当時システム開発の主流を占めていたウォーターフォール開発の課題を見極め、未だ認知度と実績の少なかったローコード技術による開発方法の可能性に着目しました。これに端を発し、ローコードアジャイル開発手法を主軸とした企業システム開発の内製化方法論を開発・導入することで2023年現在にいたるまで国内IT産業のパラダイムシフトを牽引してまいりました。
こうした実績を持つBlueMemeは、もはやシステム開発ビジネスを基盤とするIT産業の枠組みを超えて価値提供できると考えています。大量の生物学的データを効率的に処理するバイオメディカル情報解析分野は、その最たる例であり最新コンピューティング技術を用いてDXに先進的に取り組んできたBlueMemeが課題解決に直接寄与できる対象領域と捉えております。
BlueMemeのバイオメディカル情報解析分野への取り組み
2022年からBlueMemeは古典コンピューティングが抱える計算量上限の問題を克服する次世代計算機である量子コンピュータviii の可能性に着目し、ゲノム解析をターゲットに量子計算の活用研究に取り組んでまいりました。しかし実際には前述のように、ヒトの遺伝情報であるゲノムのもつ表現型ix に与える機能を正しく評価するには、基盤となる遺伝情報それ単体のみではなく、生体の現在の情報を反映するオミクス情報も用いた複合的な解析評価技術の開発が必要不可欠となります。
このことを踏まえこの度、BlueMemeは量子計算のターゲットをこれまで取り組んでまいりましたゲノム解析からオミクス解析へとより大きなテーマに拡張し進める方針といたしました。
BlueMemeは、オミクス言語モデルの開発におけるコストの課題解決を目指す
BlueMemeがオミクス解析において解決を目指すのは、オミクス言語モデルの開発・運用においてかかる膨大なコストの課題です。
大規模言語モデルはその名の通りモデルの学習に大規模な計算量を必要とするため、開発のためには多くのコストを必要とします。計算量を示す指標は一般的に、モデルの容量を示す「パラメータx 数」・学習させる「データ数」・学習に必要な時間などが用いられますが、ChatGPTを例にとるとデータ容量で約 570GB(ギガバイト)のテキストデータ・モデルのパラメータ数は約1750億個と言われています。学習に必要となる計算基盤としては一般に数百から数千の高性能GPUxi が必要となり、これを数週間から数ヶ月にわたる訓練xii 計算によりモデルを学習させる場合には、この間の総コンピューティングコストが数千万ドル(数十億円)を超える莫大なコストが必要となることが知られており、オミクス言語モデルについても同様です。
さらに重要なことは、こうした訓練済みモデルをAPI等を通じて展開する場合にかかる推論xiii コストは訓練コストをはるかに上回るということです。例として、ChatGPTは1日あたり70万ドル(およそ1億円)以上の運用コストがかかると推定されており、GPT-4を使用して顧客サービスをサポートすると、中小企業では月に2万1000ドル(約300万円)以上のコストがかかると推定されています。
すなわち、事実上大きな資本を有する組織にしかオミクス言語モデルをはじめとする大規模言語モデルの開発・運用を通じた価値の提供を行えないという潜在的な課題があります。
BlueMemeはこの課題を解決するための手がかりとして、量子コンピュータ、とりわけ量子AIxix に着目しました。量子コンピュータはハード自体の研究や、もともと金融・化学などのアプリケーションなどソフトの研究が先行的に進められてきていましたが、近年はAIモデルの学習に量子コンピュータを活用する量子AIの研究も盛んにおこなわれています。
量子AI分野の最新の研究成果では、大規模言語モデルを量子コンピュータ上で実装しこれを訓練・推論する場合古典コンピュータ上で必要となるメモリ容量よりも少ないメモリ容量で訓練・推論できるという量子優位性が証明されています。具体的には現在の大規模言語モデルのパラメータ数が1000億~1兆でスケールしているのを、同等の性能をもつモデルを量子コンピュータ用に開発・展開し学習する場合、このパラメータ数を大幅に削減できると考えられています。
こうした大幅なパラメータ数削減が見込める場合、量子コンピュータ上で学習したモデルを用いた推論時におけるコストに関しても大幅なコスト削減が見込めることが期待されます。xv このコスト削減を通じて中小企業や大学研究室などより多くの組織がオミクス言語モデルの内製化を通じてオミクス研究・臨床現場への試験導入など行うことができるようになると考えられます。
量子AI技術により大規模言語モデル開発のパラダイムシフトを起こす
ChatGPTが登場した2022年の終わりから、大規模言語モデルの開発・普及が急激に加速しました。現状の大規模言語モデル開発の背景には、スケーリング則 、すなわち「データ量やモデルの規模を大きくし、計算量をより増加させることでより優れたAIができる」法則を前提としています。この前提に基づいてMicrosoft社をはじめとした大企業や政府を主導として世界におけるAI開発競争のための投資額が非常に大きいものとなっています。しかし、前述のパラメータ削減を可能にする量子AI技術の台頭によって、大規模な計算量とそれを支える資本力が必要になる現状のAI開発パラダイムから、「どれだけモデルの規模を少なくして、運用にかかる費用を下げられるか」という新たな方向性へとパラダイムシフトする可能性があります。
BlueMemeはこの未来を見据え、オミクス研究で世界的に最高の研究成果を発信する九州大学生体防御医学研究所高深度オミクスサイエンスセンターと量子AI技術を用いたオミクス言語モデルの構築のための共同研究を行ってまいります。
九州大学生体防御医学研究所高深度オミクスサイエンスセンターとの取り組み
九州大学生体防御医学研究所は、生体の恒常性を維持するために重要な「生体防御」を研究の中心に据え、その制御機構を分子、細胞、個体のレベルで明らかにすると共に、生体防御機構の破綻による疾患の克服を目指した研究を展開しています。同研究所高深度オミクスサイエンスセンターは、単一細胞・単一分子レベルの高精度・高分解能のビッグデータを取得・統合するAI駆動型の「高深度オミクス研究」の実現を掲げ、世界トップクラスの研究成果を発信し続けるオミクス研究拠点です。
同センターバイオメディカル情報解析分野長﨑正朗教授との連携により、高精度・高分解能の最先端のオミクスデータを量子AI技術を用いたオミクス言語モデルの学習基盤として使用し、GPUスパコンにおけるシミュレーションや量子コンピュータ実機などの計算基盤で性能検証を実施してまいります。
用語解説
i オミクス解析:ゲノムから代謝物に至る多階層の生体分子情報を横断的に理解する解析手法。
ii ゲノミクス・トランスクリプトミクス・プロテオミクス・メタボロミクス:それぞれ、生物の遺伝情報・mRNA・タンパク質・代謝物を解析する学問。
iii ヒトゲノムプロジェクト:2000年代初頭まで約10年間かけて実施された、全ヒトゲノム配列を決定するための国際的な研究プロジェクト。
iv シングルセル技術や空間オミクス解析:個々の細胞レベルでの遺伝子群などの発現状態を解析するのがシングルセル技術、さらに細胞毎の位置情報を含めて空間的解像度で解析するのが空間オミクス解析。
v ChatGPT:米OpenAI社によって訓練された大規模な人工知能言語モデル。大量のテキストデータを学習することで、自然言語の生成や理解が可能。
vi Transformer:2017年にGoogleから発表された深層学習モデル。注意機構というニューラルネットワークが入力データのどの部分に重点を置くべきかを学習する能力を備えている。
vii オミクス言語モデル:生物学的なデータ解析に特化するために、膨大なオミクスデータを学習させて開発する人工知能モデル。例としてTransformerを基盤とするモデルに全ゲノム配列を学習させることで、特定の遺伝子や配列パターンなどの生物学的な構文規則を学習したオミクス言語モデルを作れることが分かっている。
viii 量子コンピュータ:量⼦⼒学の物理法則を⽤いて情報処理を⾏うコンピュータ。量⼦コンピュータの情報処理単位である量⼦ビットは、「0か1」で情報 を表現するビットとは異なり、「0と1両⽅」の重ね合わせ情報を表現できる。
ix 表現型:個体の形質、すなわち見える特性を指す。これは遺伝的要素と環境要素の両方から影響を受ける。
x パラメータ:モデルがデータから学習するための調整可能な変数。これによりモデルの性能が決定される。
xi GPU:Graphics Processing Unitの略。強力な並列処理能力によって、現在の深層学習の計算に活用されている。
xii 機械学習において、モデルにデータを与えてパラメータを最適化するプロセス。
xiii 推論:訓練されたモデルを使用して新たなデータに対する予測を行うプロセス。
xix 量子AI:人工知能と量子コンピューターを融合させた新たな分野。量子コンピュータによる演算の特徴を機械学習・深層学習に応用する研究が行われている。
xv BlueMeme調べ
xvi スケーリング則:米OpenAI社が2020年に提唱した法則。Transformerモデルの訓練に投入する計算リソースやモデルのサイズ、学習データ量が大きくなればなるほど性能が向上する、という経験則。