AI研究 | Cog AI Archive

AI研究 2026-01-29

RPO：部分的推論最適化を用いた強化学習ファインチューニング

大規模言語モデルの強化学習において、推論の全行程を毎回ゼロから生成する非効率性を解消するため、過去の正解パスの接頭辞を再利用して末尾のみを生成・最適化する「RPO（部分的推論最適化）」が提案されました。この手法は、キャッシュされた成功例をヒントとして活用することで、トレーニング中のトークン生成量を約95%削減し、1.

5734 字

読む →

AI研究 2026-01-29 長文

不整合な動作事前知識からのタスク中心の方策最適化

ヒューマノイドロボットの制御において、人間の動作データを模倣する手法は自然な動きを実現する一方で、ロボットの身体構造との違いやタスクとの不整合により、単純な模倣がタスク性能を著しく低下させるという深刻な課題がありました。

7245 字

読む →

AI研究 2026-01-29

OSIRIS: スケーラブルなデータセット生成によるアナログ回路設計と機械学習の橋渡し

アナログ集積回路（IC）のレイアウト設計は、物理的な配置や寄生効果、回路性能の複雑な相互依存関係により、依然として手動作業が中心の困難な課題となっています。本研究では、アナログIC設計のためのスケーラブルなデータセット生成パイプラインである「OSIRIS」を提案し、設計空間を体系的に探索して包括的な性能指標とメタデータを生成する手法を確立しました。このフレームワークを用いて生成された87,100個の回路バリエーションを含むデータセットを公開し、強化学習を用いたレイアウト最適化や大規模言語モデルの微調整による自動生成の可能性を実証しています。

6556 字

読む →

AI研究 2026-01-29

安定化されたルーティングを備えた多言語音声認識のための動的マルチエキスパートプロジェクタ

大規模言語モデル（LLM）を活用した多言語音声認識において、単一のプロジェクターが抱える音響と意味のマッピングの限界を打破するため、複数の専門家（エキスパート）を動的に統合する「SMEAR-MoE」を提案しました。

5951 字

読む →

AI研究 2026-01-29

APC-RL: 適応的な方策合成でデータ駆動型の事前分布を超える強化学習手法

従来の強化学習におけるデモンストレーションの活用は、データが最適かつタスクに完全に適合していることを前提としていたが、現実の不完全なデータでは性能が低下するという課題があった。本研究が提案するAPC（Adaptive Policy Composition）は、複数の正規化流を用いた事前分布を持つアクターと、事前分布を一切持たないアクターを階層的に組み合わせ、オンラインの報酬に基づいて適切な行動を適応的に選択する。実験の結果、APCはデモンストレーションが不適合な場合でも堅牢性を維持し、適合している場合には学習を大幅に加速させ、さらに不完全なデータからでも最適な行動を導き出すことが確認された。

6056 字

読む →

AI研究 2026-01-29

時相論理を通じた状態空間モデルの表現能力について

状態空間モデル（SSM）の表現能力は、採用されるゲート機構の構造と計算に使用される数値の精度に深く依存しており、特に対角ゲート型SSMは固定精度において過去時相論理（PLTLf）で定義可能なスターフリー言語を認識する能力を持つことが証明されました。

6744 字

読む →

AI研究 2026-01-29

タスク条件付き潜在アライメントによる神経スパイクデータのセッション間デコーディング

侵襲的脳コンピュータインターフェースにおいて、記録セッション間の神経信号の非定常性はデコーダの精度を低下させる大きな課題であり、新しいセッションごとに大量の再学習データを収集することはユーザーの負担となっていた。

6197 字

読む →

AI研究 2026-01-29

きめ細かな知識エンティティと多面的な文書埋め込みを用いた学術論文推薦の強化

学術文献の爆発的な増加に伴い、研究者が自身のニーズに合致する論文を正確に見つける負担が増大している。従来の推薦システムは広範なトピックの類似性に依存しており、特定の研究手法やタスクといった詳細なニーズに応えることが困難であった。

6471 字

読む →

AI研究 2026-01-29

GenCP：連成物理の生成モデリングパラダイムに向けて

本研究は、複数の物理現象が相互に影響し合う複雑な連成物理システムのシミュレーションにおいて、個別に分離されたデータのみで学習を行い、推論時に結合状態を生成できる革新的な生成パラダイム「GenCP」を提案した。

6556 字

読む →

AI研究 2026-01-29 長文

効率的なコード位置特定のための適応型並列実行の学習

ソフトウェア開発の自動化において、修正箇所を特定するコード位置特定は計算リソースの半分以上を消費する大きなボトルネックです。従来手法は逐次実行による情報不足や、固定的な並列化による34.9%もの冗長な呼び出しという課題を抱えていましたが、本研究の「FuseSearch」は情報の新規性と呼び出し回数の比率を「ツール効率」として定義し、適応的な並列実行戦略を学習しました。検証の結果、4Bパラメータの小型モデルでありながらSWE-bench VerifiedでファイルレベルF1スコア84.7%を達成し、実行時間を93.6%、消費トークン量を68.9%削減するという、圧倒的な品質とコストパフォーマンスの両立を実現しています。この手法は、情報の新規性を常に監視しながら並列度を動的に調整することで、冗長な信号を排除し、最終的な位置特定の精度を向上させるという相乗効果をもたらしており、実用的な自動開発エージェントの構築に向けた新たな標準を提示しています。

7183 字

読む →

生成AI研究を、要点から追う。

最新の記事

RPO：部分的推論最適化を用いた強化学習ファインチューニング

不整合な動作事前知識からのタスク中心の方策最適化

OSIRIS: スケーラブルなデータセット生成によるアナログ回路設計と機械学習の橋渡し

安定化されたルーティングを備えた多言語音声認識のための動的マルチエキスパートプロジェクタ

APC-RL: 適応的な方策合成でデータ駆動型の事前分布を超える強化学習手法

時相論理を通じた状態空間モデルの表現能力について

タスク条件付き潜在アライメントによる神経スパイクデータのセッション間デコーディング

きめ細かな知識エンティティと多面的な文書埋め込みを用いた学術論文推薦の強化

GenCP：連成物理の生成モデリングパラダイムに向けて

効率的なコード位置特定のための適応型並列実行の学習