継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

トークンからブロックへ:分子生成におけるブロック拡散の視点

従来の分子言語モデルが直面していた「グラフ構造の把握不足」と「標的タンパク質への適応性欠如」を解決するため、SMILESを固定長のブロックに分割する「ソフトフラグメント」表現と、局所的な双方向拡散と自己回帰生成を融合させた世界初のブロック拡散モデル「SoftBD」を提案しました。

5839 字
読む →

MoE-ACT: 教師あり混合エキスパートによる手術模倣学習方策の向上

手術支援ロボットの自律操作を向上させるため、タスクを論理的なフェーズに分割して学習する「MoE-ACT」という新しいアーキテクチャを提案し、少量のデータで高度な操作を可能にした。 この手法は、専門家混合モデル(MoE)を軽量なアクションデコーダに統合し、外科医の指示に基づく腸管の把持や牽引といった複雑な共同作業において、従来手法や大規模モデルを大幅に上回る成功率を達成している。 ステレオ内視鏡画像のみを利用しながら、未知の視点や照明条件の変化、さらには生体組織へのゼロショット転移に対しても高い汎用性と頑健性を示し、実際の臨床現場への応用に向けた強力なフレームワークを提供している。

5698 字
読む →

グラフ構造と知識ガイド編集の融合による解釈可能な時間的知識グラフ推論

IGETRは、グラフニューラルネットワークが持つ構造的な推論能力と、大規模言語モデルが備える広範な外部知識および文脈理解を戦略的に統合した、時間的知識グラフ推論のための新しいハイブリッドフレームワークです。

7003 字
読む →

PowerGenie: 解析的ガイド付き進化による高性能再構成可能電力コンバータの発見

PowerGenieは、膨大な設計空間から高性能な再構成可能電力コンバータを自動発見するために開発された、解析的ガイド付きの新しいAIフレームワークである。 この手法は、グラフ理論とテリガンの定理に基づき、時間のかかるSPICEシミュレーションを介さずに回路の機能と理論的性能限界を数秒で特定する自動解析手法と、生成モデルと学習データを共に洗練させる進化的微調整を導入している。 結果として、従来の最高性能を23%上回る性能指数を持つ未知の8モード電力コンバータの発見に成功し、実機シミュレーションにおいて全モード平均で10%、最大で17%の効率向上を達成するという画期的な成果を収めた。

5947 字
読む →

未知の力学系における一般化された情報収集フレームワーク

未知の力学系で作動するエージェントが、特定のモデルや更新手法に依存せずに効率的な学習を行うための、因果関係を明示した一般化された情報収集フレームワークを提案しています。この枠組みは、パラメータ、信念、制御、状態、観測の間の複雑な依存関係を因果グラフによって整理し、学習と計画のプロセスを完全に分離して設計することを可能にします。 マッセイの有向情報量に基づいた新しいコスト関数を導入し、従来の相互情報量を用いる手法が特定の条件下における特殊なケースであることを数学的に証明することで、既存手法に理論的な正当性を与えました。これにより、ガウス過程やニューラルネットワークなど、異なるモデル構造を採用した場合でも、統一的な数理基盤の上で最適な情報収集行動を導出できます。 この枠組みは、線形・非線形システムやマルチエージェント環境において、学習アルゴリズムと計画アルゴリズムを柔軟に組み合わせることを可能にし、未知の他者に関する情報の能動的な取得を容易にします。実験では、自律走行車が他者の意図を推定するシナリオなどを通じて、提案手法が多様なタスクにおいて一貫した性能を発揮し、システムの安全性を高めることを実証しました。

6824 字
読む →

ドリフトするMDPの幾何学:経路積分による安定性証明

現実世界の強化学習における非定常性を、報酬や遷移ダイナミクスが連続的に変化する微分可能なホモトピー経路としてモデル化し、最適ベルマン固定点の移動を幾何学的に追跡する新しい理論的枠組みを提案しています。

6677 字
読む →

不均衡ドメインにおける汎化のためのネガティブ優位な対照学習

不均衡ドメイン一般化(IDG)において、ドメインシフトとラベルシフトが複雑に絡み合うことで決定境界が歪む問題を解決するため、事後分布の不一致と決定境界のマージンを考慮した新しい理論的汎化境界を導出した。

6317 字
読む →

Transformer推論のためのレート歪み最適化

トランスフォーマーモデルは優れた性能を持つ一方で、推論時に膨大な計算資源とメモリを要求するため、複数のデバイスに処理を分割して実行する手法が注目されていますが、その際に生じる中間表現の転送コストを抑えるための損失あり圧縮フレームワークが新たに提案されました。

8569 字
読む →

MEIDNet: マルチモーダル生成AIによる材料の逆設計フレームワーク

MEIDNetは、結晶構造、電子状態(バンドギャップ)、熱力学的性質(生成エンタルピー)の3つの異なるモダリティを統合して学習する、マルチモーダルな材料逆設計フレームワークである。等変グラフニューラルネットワーク(EGNN)と対照学習を組み合わせることで、従来の学習手法よりも約60倍高い効率を実現し、潜在空間において0.96という極めて高い類似度での整列を達成した。このモデルを用いて低バンドギャップのペロブスカイト構造を生成した結果、既存のデータベースにない安定かつ新規な材料を13.6%という高い成功率(SUN率)で発見することに成功し、YbScSe₃やKTaSe₃といった有望な新物質を特定した。

5779 字
読む →

マルチモーダル大規模言語モデルにおける「忘却」を視覚情報で導く新手法ViKeR

マルチモーダル大規模言語モデル(MLLM)において、特定の個人情報や著作権データを消去する際、従来のテキストベースの手法では文法構造を司る単語まで損なわれ「This am」のような言語崩壊を招く課題があったが、本研究では視覚情報を手がかりに重要な情報を識別する新手法「ViKeR」を提案した。

6196 字
読む →