嗅覚研究における長年の課題であった、単一分子データと混合物データの断片化を解消するため、両者を同一のベクトル空間で扱う統一的フレームワーク「AROMMA」を提案しました。 大規模化学基盤モデルSPMMとアテンション機構を用いた独自のアグリゲーターにより、分子間の複雑な非線形相互作用を捉えつつ、知識蒸留とクラス分布を考慮した疑似ラベル生成によってデータの不均一性を克服しています。 実験では、混合物データで19.1%、単一分子で3.2%の精度向上を達成し、混合物の学習から得られた知見が単一分子の理解を深めるという双方向の知識転移が可能であることを世界で初めて実証しました。
嗅覚研究における長年の課題であった、単一分子データと混合物データの断片化を解消するため、両者を同一のベクトル空間で扱う統一的フレームワーク「AROMMA」を提案しました。 大規模化学基盤モデルSPMMとアテンション機構を用いた独自のアグリゲーターにより、分子間の複雑な非線形相互作用を捉えつつ、知識蒸留とクラス分布を考慮した疑似ラベル生成によってデータの不均一性を克服しています。 実験では、混合物データで19.1%、単一分子で3.2%の精度向上を達成し、混合物の学習から得られた知見が単一分子の理解を深めるという双方向の知識転移が可能であることを世界で初めて実証しました。
分子の化学構造から人間が知覚する香りの質を予測することは、科学分野の人工知能において極めて困難かつ重要な課題とされてきました。近年、グラフニューラルネットワークを用いた単一分子の予測モデルは、専門家が調整したデータセットを活用することで大きな進歩を遂げましたが、依然として大きな欠陥が存在します。それは、現実世界で私たちが経験する香りのほとんどが複数の分子からなる混合物であるにもかかわらず、既存のモデルの多くが単一分子の予測に限定されているという点です。香りの混合物においては、個々の成分の単純な和では説明できない相乗効果や拮抗作用といった非線形な相互作用が発生するため、その知覚を正確に捉えることは非常に困難です。これまでの研究では、単一分子の表現と混合物の表現が別々に学習されており、両者の知識を統合して相互に活用する仕組みが欠けていました。また、利用可能な公開データセットは小規模かつ断片化しているという深刻な問題があります。例えば、単一分子用のジーエス・エルエフデータセットは高品質で詳細な注釈がある一方、混合物用のビーピーデータセットはラベルが極めて疎であり、記述子の数も限られています。…
本研究では、単一分子と二成分混合物のための統一された埋め込み空間を学習する革新的なフレームワーク「アロマ」を提案しました。この手法の最大の核心は、単一分子と混合物を同一のベクトル空間に配置することにあり、これにより異なるドメイン間での双方向の知識転移を可能にしました。具体的には、約5000万件の分子データで事前学習された多モード化学基盤モデルであるエスピーエムエムを分子エンコーダーとして採用し、広範な化学空間の知識を嗅覚タスクに直接活用できるようにしています。これにより、限られた嗅覚データのみに依存することなく、堅牢な分子表現を得ることが可能になりました。混合物の表現においては、分子の入力順序に依存しない置換不変性を維持しつつ、分子間の複雑な非線形相互作用を捉えるために、アテンション機構に基づいた独自のアグリゲーターモジュールを導入しました。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related