Science 誌 web版、2025年4月10日記事。以下は日本語での要約。
医薬品開発の将来は人工知能(AI)にあると期待されているが、現時点ではAIはまだ黎明期にあり、その成熟には非独占的でオープンかつ大規模で高品質なデータセットが必要である。AlphaFold2のような強力なAIツールは、構造生物学およびタンパク質配列に関する数十年にわたる公開データの蓄積によって成立している。構造データの公開は当初一様ではなかったが、PDB(Protein Data Bank)を中心としたデータ共有ポリシーと研究コミュニティによる規範化が、データのオープン化を実現させた。これを支えたのは公的資金による構造生物学コンソーシアムであり、官民の信頼できる仲介機関として機能した。
AIは現在、標的同定、化合物およびリード化合物の最適化、多目的特性最適化、毒性予測などの分野で使用されているが、現行のAIモデルが有効性を示しているのは、データが豊富な限られた領域に過ぎない。AIの創薬応用の発展を阻む主要な障壁として、標準化されたデータの欠如が挙げられている。
AIモデル訓練に必要な大規模データセットの構築は、単一の企業、研究機関、あるいは国家だけでは実現できない。企業は自社化合物との結合構造に関する情報などを保有しているが、現行の民間主導の取り組みではアクセスが限定され、AIを本質的に強化するために必要な多様なデータは得られない。したがって、将来的な統合を前提とした、独立組織によるコミュニティ主導型のアプローチが求められる。
データ収集と調整には費用がかかるため、政府および企業による資金支援が不可欠である。創薬コストの低減、未解決の医療ニーズへの対応、さらなるイノベーションといった見返りを考慮すれば、これらへの投資は十分に正当化される。
ニュースソース
Richard Gold(Faculty of Law and Faculty of Medicine and Health Sciences, McGill University, Montreal, QC, Canada) and Robert Cook-Deegan:AI drug development’s data problem.
Science10 Apr 2025 Vol 388, Issue 6743 p. 131 DOI: 10.1126/science.adx0339