AI研究 | Cog AI Archive

AI研究 2026-02-01

SINA：人工知能を用いた回路図画像からネットリストへの生成器

SINAは、回路図の画像からSPICE互換のネットリストを全自動で生成するオープンソースの革新的なパイプラインであり、深層学習と高度な画像処理技術を統合することで、従来の手法が抱えていた素子認識の誤りや複雑な接続推論の困難さといった課題を根本から解決することに成功した。

5903 字

読む →

AI研究 2026-02-01

ハミルトニアンフローマップの学習：大規模タイムステップ分子動力学のための平均流整合性

ハミルトニアン系の長時間シミュレーションにおいて、従来の数値積分手法が抱えていた「安定性のために極小のタイムステップを強いる」という計算上の制約を、指定した時間幅の相空間変化を直接予測する「ハミルトニアンフローマップ（HFM）」によって打破しました。

5932 字

読む →

AI研究 2026-02-01

SWE-Replay: ソフトウェアエンジニアリングエージェントのための効率的なテスト時スケーリング

SWE-Replayは、ソフトウェアエンジニアリング（SWE）タスクにおいて、過去の試行（軌跡）から重要な中間ステップを再利用することで、計算コストを抑えつつ性能を向上させる新しいテスト時スケーリング手法である。

6095 字

読む →

AI研究 2026-02-01

World of Workflows: 企業システムに世界モデルをもたらすためのベンチマーク

最先端の大規模言語モデル（LLM）は、一般的なタスクでは高い能力を示すものの、複雑な企業システム内では隠れたワークフローが引き起こす連鎖的な副作用を予測できず、制約違反を無意識に引き起こす「動態盲目（Dynamics Blindness）」の状態にあることが本研究で明らかになった。

6579 字

読む →

AI研究 2026-02-01

ヒントにお金を払え、答えではなく：コスト効率の良い推論のためのLLMシェパディング

大規模言語モデル（LLM）の回答全体を生成させるのではなく、冒頭の数トークンを「ヒント」として購入し、それを小規模言語モデル（SLM）に与えて推論を完結させる新しいフレームワーク「LLMシェパディング」が提案されました。

6182 字

読む →

AI研究 2026-02-01

StepShield: 暴走エージェントへの介入は「いつ」すべきか

従来のAIエージェントの安全性評価は、実行完了後に「有害か否か」を判定する事後分析に依存しており、被害を未然に防ぐための「介入のタイミング」を評価できないという重大な欠陥がありました。本研究が提案する「StepShield」は、9,213件の軌跡データと新しい時間的指標（EIR等）を用い、違反が「いつ」検出されたかをステップ単位で評価する世界初のベンチマークであり、LLMベースの判定器が従来の静的解析より2.3倍高い早期介入能力を持つことを明らかにしました。この適時性の評価は、単なる安全性の向上に留まらず、監視コストを75%削減し、エンタープライズ規模で5年間に累計1億800万ドルの計算リソースを節約できるという、AI運用の経済的合理性を直接的に証明しています。

6101 字

読む →

AI研究 2026-02-01

質問しながら推論する：受動的な解決者から能動的な探求者へのLLMの変革

OpenAIのo1やDeepSeek-R1に代表される推論型モデルが、情報不足の状況でも強引に推論を進めてしまう「盲目的な自己思考」という課題に対し、本研究は能動的に質問を行うPIRフレームワークを提案しました。

6562 字

読む →

AI研究 2026-02-01 長文

DynaWeb: ウェブエージェントのためのモデルベース強化学習フレームワーク

従来のウェブエージェントの強化学習は、実際のインターネット上での試行錯誤を必要としていましたが、これには高額なコストや予期せぬ購入といったリスク、そして動作の非効率性という大きな課題がありました。

7320 字

読む →

AI研究 2026-02-01

エージェントのための推論報酬モデル「Agent-RRM」の探求

従来のエージェント学習が最終結果の正誤のみに依存する稀薄な報酬に頼っていたのに対し、本研究は推論の過程を詳細に評価する「Agent-RRM」を提案しました。このモデルは、推論の論理性を分析するトレース、具体的な欠陥を指摘する批判、全体的な品質スコアという3つの構造化されたフィードバックを生成し、エージェントに多角的な学習信号を提供します。 12種類のベンチマークを用いた検証の結果、提案手法の「Reagent-U」はGAIAで43.7%、WebWalkerQAで46.2%という高い性能を達成し、複雑なタスクにおける推論報酬モデルの有効性が証明されました。

5988 字

読む →

AI研究 2026-02-01

UEval: 画像とテキストの両方を生成する統合モデルのためのベンチマーク

本研究は、テキストの問いかけに対して画像とテキストの両方で回答する「統合マルチモーダル生成」を評価するための新しいベンチマーク「UEval」を提案しました。専門家が厳選した1,000件の質問と、それに対する10,417件の検証済み評価基準（ルーブリック）を用いることで、従来の画像理解や画像生成のみの評価では捉えきれなかった、複雑な推論を伴うマルチモーダルな応答能力を詳細に測定することが可能になります。検証の結果、最新のGPT-5-Thinkingでも100点満点中66.4点に留まり、オープンソースモデルの最高値は49.1点であるなど、現在の統合モデルにとって非常に難易度が高い課題であることが明らかになるとともに、推論プロセスが生成品質の向上に寄与することが示されました。

6149 字

読む →

生成AI研究を、要点から追う。

最新の記事

SINA：人工知能を用いた回路図画像からネットリストへの生成器

ハミルトニアンフローマップの学習：大規模タイムステップ分子動力学のための平均流整合性

SWE-Replay: ソフトウェアエンジニアリングエージェントのための効率的なテスト時スケーリング

World of Workflows: 企業システムに世界モデルをもたらすためのベンチマーク

ヒントにお金を払え、答えではなく：コスト効率の良い推論のためのLLMシェパディング

StepShield: 暴走エージェントへの介入は「いつ」すべきか

質問しながら推論する：受動的な解決者から能動的な探求者へのLLMの変革

DynaWeb: ウェブエージェントのためのモデルベース強化学習フレームワーク

エージェントのための推論報酬モデル「Agent-RRM」の探求

UEval: 画像とテキストの両方を生成する統合モデルのためのベンチマーク