ハミルトニアンフローマップの学習:大規模タイムステップ分子動力学のための平均流整合性
ハミルトニアン系の長時間シミュレーションにおいて、従来の数値積分手法が抱えていた「安定性のために極小のタイムステップを強いる」という計算上の制約を、指定した時間幅の相空間変化を直接予測する「ハミルトニアンフローマップ(HFM)」によって打破しました。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
ハミルトニアン系の長時間シミュレーションにおいて、従来の数値積分手法が抱えていた「安定性のために極小のタイムステップを強いる」という計算上の制約を、指定した時間幅の相空間変化を直接予測する「ハミルトニアンフローマップ(HFM)」によって打破しました。
SWE-Replayは、ソフトウェアエンジニアリング(SWE)タスクにおいて、過去の試行(軌跡)から重要な中間ステップを再利用することで、計算コストを抑えつつ性能を向上させる新しいテスト時スケーリング手法である。
最先端の大規模言語モデル(LLM)は、一般的なタスクでは高い能力を示すものの、複雑な企業システム内では隠れたワークフローが引き起こす連鎖的な副作用を予測できず、制約違反を無意識に引き起こす「動態盲目(Dynamics Blindness)」の状態にあることが本研究で明らかになった。
大規模言語モデル(LLM)の回答全体を生成させるのではなく、冒頭の数トークンを「ヒント」として購入し、それを小規模言語モデル(SLM)に与えて推論を完結させる新しいフレームワーク「LLMシェパディング」が提案されました。
従来のAIエージェントの安全性評価は、実行完了後に「有害か否か」を判定する事後分析に依存しており、被害を未然に防ぐための「介入のタイミング」を評価できないという重大な欠陥がありました。本研究が提案する「StepShield」は、9,213件の軌跡データと新しい時間的指標(EIR等)を用い、違反が「いつ」検出されたかをステップ単位で評価する世界初のベンチマークであり、LLMベースの判定器が従来の静的解析より2.3倍高い早期介入能力を持つことを明らかにしました。この適時性の評価は、単なる安全性の向上に留まらず、監視コストを75%削減し、エンタープライズ規模で5年間に累計1億800万ドルの計算リソースを節約できるという、AI運用の経済的合理性を直接的に証明しています。
OpenAIのo1やDeepSeek-R1に代表される推論型モデルが、情報不足の状況でも強引に推論を進めてしまう「盲目的な自己思考」という課題に対し、本研究は能動的に質問を行うPIRフレームワークを提案しました。
従来のウェブエージェントの強化学習は、実際のインターネット上での試行錯誤を必要としていましたが、これには高額なコストや予期せぬ購入といったリスク、そして動作の非効率性という大きな課題がありました。
従来のエージェント学習が最終結果の正誤のみに依存する稀薄な報酬に頼っていたのに対し、本研究は推論の過程を詳細に評価する「Agent-RRM」を提案しました。 このモデルは、推論の論理性を分析するトレース、具体的な欠陥を指摘する批判、全体的な品質スコアという3つの構造化されたフィードバックを生成し、エージェントに多角的な学習信号を提供します。 12種類のベンチマークを用いた検証の結果、提案手法の「Reagent-U」はGAIAで43.7%、WebWalkerQAで46.2%という高い性能を達成し、複雑なタスクにおける推論報酬モデルの有効性が証明されました。
本研究は、テキストの問いかけに対して画像とテキストの両方で回答する「統合マルチモーダル生成」を評価するための新しいベンチマーク「UEval」を提案しました。専門家が厳選した1,000件の質問と、それに対する10,417件の検証済み評価基準(ルーブリック)を用いることで、従来の画像理解や画像生成のみの評価では捉えきれなかった、複雑な推論を伴うマルチモーダルな応答能力を詳細に測定することが可能になります。検証の結果、最新のGPT-5-Thinkingでも100点満点中66.4点に留まり、オープンソースモデルの最高値は49.1点であるなど、現在の統合モデルにとって非常に難易度が高い課題であることが明らかになるとともに、推論プロセスが生成品質の向上に寄与することが示されました。
Hugging Face等の公開リポジトリには数百万のモデルがホストされているが、利用実態は極めて一部の公式モデルに集中しており、優れた性能を持ちながらも月間ダウンロード数が極少数の「隠れた名作(Hidden Gems)」が膨大に埋もれている実態を、2,000以上のモデル評価を通じて明らかにした。 Llama-3.