継続更新

MapPFN: コンテキスト内での因果的摂動マップの学習

MapPFNは、未知の生物学的コンテキストにおける遺伝子摂動の影響を予測するために、インコンテキスト学習を活用する新しい事前データ適合ネットワーク(PFN)です。このモデルは、勾配ベースの最適化を必要とせず、少数の実験結果をコンテキストとして取り込むことで、新しい介入後の細胞状態の分布を即座に推論する能力を持っています。 合成データのみを用いた事前学習を行っているにもかかわらず、実世界の単一細胞データにおいて差分的発現遺伝子を特定する性能は、実際のデータで学習された既存のモデルに匹敵する水準に達しています。これにより、高コストな実験を削減し、創薬ターゲットの発見を加速させる仮想細胞モデルとしての活用が期待されます。 マルチモーダル拡散トランスフォーマー(MMDiT)アーキテクチャを採用し、細胞をトークンとして扱うことで、事前分布と介入後の分布の間の複雑な写像を学習することに成功しています。特に、複数の介入結果を条件として与えることで予測精度が向上し、従来のモデルが抱えていた、新しい環境への適応能力の欠如という課題を克服しています。

MapPFN: コンテキスト内での因果的摂動マップの学習 の図解
論文図解

TL;DR(結論)

MapPFNは、未知の生物学的コンテキストにおける遺伝子摂動の影響を予測するために、インコンテキスト学習を活用する新しい事前データ適合ネットワーク(PFN)です。このモデルは、勾配ベースの最適化を必要とせず、少数の実験結果をコンテキストとして取り込むことで、新しい介入後の細胞状態の分布を即座に推論する能力を持っています。 合成データのみを用いた事前学習を行っているにもかかわらず、実世界の単一細胞データにおいて差分的発現遺伝子を特定する性能は、実際のデータで学習された既存のモデルに匹敵する水準に達しています。これにより、高コストな実験を削減し、創薬ターゲットの発見を加速させる仮想細胞モデルとしての活用が期待されます。 マルチモーダル拡散トランスフォーマー(MMDiT)アーキテクチャを採用し、細胞をトークンとして扱うことで、事前分布と介入後の分布の間の複雑な写像を学習することに成功しています。特に、複数の介入結果を条件として与えることで予測精度が向上し、従来のモデルが抱えていた、新しい環境への適応能力の欠如という課題を克服しています。

なぜこの問題か

生物学的システムにおける効果的な介入を計画するためには、未知の生物学的コンテキストに適応し、その背後にある特定のメカニズムを特定できる治療効果モデルが必要とされています。しかし、現在の単一細胞摂動データセットは、限られた数の生物学的コンテキストしかカバーしておらず、既存の手法では推論時に新しい介入の証拠を活用して学習データを超えた適応を行うことができません。遺伝子規制ネットワーク(GRN)の根底にある因果関係を特定するために、単一細胞摂動データは長らく実験的なゴールドスタンダードとされてきましたが、実験のみですべての可能な細胞状態と摂動の空間を網羅することは不可能です。このボトルネックを解消するために、低分子化合物や遺伝子ノックアウトによる細胞の反応を学習する仮想細胞モデルが求められており、これにより創薬ターゲットの発見コストを削減し、ウェットラボでの検証前に仮説を高速に評価することが可能になります。 単一細胞シーケンシングは個々の細胞を破壊するため、摂動予測はペアのない分布間の写像の問題となり、最適輸送(OT)などの手法が自然なアプローチとして用いられてきました。…

核心:何を提案したのか

本研究では、摂動予測をコンテキスト条件付きの分布写像として捉え直し、事前データ適合ネットワーク(PFN)を用いた新しいモデルであるMapPFNを提案しています。MapPFNは、因果摂動の事前分布から生成された合成データのみを用いて事前学習されており、インコンテキスト学習(ICL)を通じて未知の生物学的コンテキストにおける摂動効果を予測します。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む