Cog AI Archive

AI研究 2026-02-01

潜在的な思考の連鎖を計画として捉える：推論と言語化の分離

本研究では、大規模言語モデルの推論プロセスを言語化から切り離し、連続的な潜在空間における計画として再定義する新しいフレームワーク「PLaT」を提案している。従来の思考の連鎖（CoT）が抱えていた計算コストの増大や、離散的なトークン選択による推論経路の崩壊という課題に対し、推論を司るプランナーと、その思考をテキストに変換するデコーダーを分離した構造を採用することで、推論の動的な終了や中間状態の解釈を可能にした。数学的ベンチマークを用いた検証の結果、PLaTは従来のベースラインと比較して決定論的な回答精度では及ばないものの、多様な推論経路を探索する能力において極めて高いスケーラビリティを示すことが確認されており、より広範な解空間を学習していることが示唆されている。

6375 字

読む →

AI研究 2026-02-01

コンプライアンス・パラドックス：自動コード評価における意味と指示の乖離

大規模言語モデル（LLM）を教育評価に導入する際、指示に従う能力が客観的な判定能力に直結するという前提がありますが、本研究ではモデルがコードの論理を無視して隠された指示を優先する「コンプライアンス・パラドックス」という深刻な脆弱性を明らかにしました。

5713 字

読む →

AI研究 2026-02-01

連合グラフ基盤モデルの再考：グラフと言語の整合に基づくアプローチ

FedGALAは、分散されたプライバシー保護環境において、グラフニューラルネットワークと凍結された事前学習済み言語モデルを連続的な埋め込み空間で整合させる革新的な連合グラフ基盤モデルのフレームワークである。

5708 字

読む →

AI研究 2026-02-01

NEMO: 自律型コーディングエージェントによる実行を考慮した最適化モデリング

NEMOは、自然言語による意思決定問題の記述を、自律型コーディングエージェント（ACA）を活用して実行可能な数学的最適化モデルへと変換する革新的なシステムです。サンドボックス環境でのコード実行と、命令型のシミュレータによる非対称な検証ループ、外部メモリを用いた数発学習、自己整合性メカニズムを組み合わせることで、生成されたコードの信頼性と実行可能性を高度に担保しています。評価の結果、9つの主要な最適化ベンチマークのうち8つにおいて従来技術を凌駕する最高水準の性能を達成し、特定の課題では最大28パーセントポイントの精度向上を実現したことが示されています。

6530 字

読む →

AI研究 2026-02-01

Sim-MSTNet：sim2realに基づくマルチタスク時空間ネットワークトラフィック予測

従来のネットワークトラフィック予測は、新設基地局などのデータ不足環境での性能低下や、複数サービスを同時に扱うマルチタスク学習におけるタスク間の不均衡および負の転移という課題を抱えていました。本研究が提案するSim-MSTNetは、シミュレータによる合成データを活用するSim2Realアプローチとドメインランダム化技術を導入し、二段階最適化によって現実データとの乖離を埋めつつ、データの希少性を克服しています。イタリアのミラノおよびトレントの公開データセットを用いた実験では、提案モデルが既存の最新手法を一貫して上回る精度を記録し、特に注意機構を用いたタスク間の知識共有と動的な損失重み付け戦略により、通話、SMS、ネット通信の各タスクで高い汎化性能を実証しました。この成果は、次世代の6G通信インフラにおけるインテリジェントな運用管理や、不確実性の高い環境下での適応的なトラフィック制御を実現するための重要な基盤技術となることが期待されます。

6847 字

読む →

AI研究 2026-02-01

合成音声品質評価のためのフレシェ音声距離の理解

合成音声の品質を客観的に評価するため、画像分野のFIDを応用したフレシェ音声距離（FSD）と、正規分布の仮定を必要としない新指標である音声最大平均不一致（SMMD）の有効性を、WavLMやWhisperを含む5種類の音声埋め込みモデルを用いて体系的に検証しました。

5702 字

読む →

AI研究 2026-02-01

帰属と事実検証のためのユーザー中心の証拠ランキング

大規模言語モデル（LLM）のハルシネーション対策として、情報の信頼性を評価するための証拠提示と事実検証が重要視されていますが、既存の自動システムはユーザーに対して不十分な情報や過剰に冗長な情報を提示しがちであり、検証作業の効率を下げて誤りを誘発する原因となっています。

5993 字

読む →

AI研究 2026-02-01

帰属と事実検証のためのユーザー中心の根拠ランキング

大規模言語モデル（LLM）が生成する情報の信頼性を評価するため、従来の「証拠選択」に代わる新しいタスクとして「証拠ランキング」を提案しました。これは、ユーザーが主張の正誤を判断するために必要な最小限の情報を、順位付けされたリストのなるべく早い段階で提示することを目指すもので、ユーザーの読解努力を最小化しつつ、すべての証拠へのアクセスを維持します。本研究では、一度に順位を付けるワンショット型と、既に出した証拠を考慮しながら順次選ぶインクリメンタル型の2つの手法を比較し、既存の事実検証データセットを統合した新しいベンチマークと評価指標を構築しました。評価には、ユーザーの読解効率を測定するために情報検索の指標を応用したMRR（平均逆順位）などが導入されており、システムがどれだけ早く十分な証拠を提示できるかを定量化しています。実験の結果、LLMを用いた手法がMRR 0.75という最も高い性能を示し、特にインクリメンタルな戦略が補完的な証拠を効率的に提示できることが明らかになりました。ユーザー調査においても、証拠ランキングは従来の選択手法と比較して、読解量を減らしつつ検証の正確性を向上させることが実証されており、より解釈可能で効率的、かつユーザーの利便性に沿った情報検証システムの基盤となります。

5699 字

読む →

AI研究 2026-02-01

報酬が疎な環境のための内発的報酬方策最適化

強化学習において報酬が稀薄な環境は、エージェントが最適な方策を見つけるための探索が困難であるという課題を抱えています。本研究で提案されたIRPO（Intrinsic Reward Policy Optimization）は、複数の内発的報酬を利用して探索用の方策を更新し、その結果得られた信号をベース方策へ逆伝播させることで、稀薄な報酬環境でも効果的な学習を実現する新しい最適化フレームワークです。実験の結果、離散および連続の多様なタスクにおいて、従来の手法である階層型強化学習や報酬加算型の手法を上回る高い最終性能と優れたサンプル効率を達成することが確認されました。

6806 字

読む →

AI研究 2026-02-01

報酬が疎な環境のための内発的報酬方策最適化

本研究は、目標達成時のみ報酬が得られる「報酬が疎な環境」において、効率的な探索と精密な制御を両立させる新しい強化学習アルゴリズム「内発的報酬方策最適化（IRPO）」を提案しました。従来の内発的報酬を加算する手法や階層型強化学習が抱えていた、報酬割り当ての不安定さやサンプル効率の悪さ、および解の劣適性といった課題を、複数の探索用方策からの勾配をバックプロパゲーションで統合する「代理方策勾配」の仕組みによって解決しています。複雑な迷路やロボット制御タスクを用いた実験において、既存の主要なベースラインを大幅に上回る学習速度と最終性能を達成し、特に精密な動作が要求される連続空間のタスクで顕著な優位性と安定性を示しました。

5817 字

読む →

生成AI研究を、要点から追う。

最新の記事

潜在的な思考の連鎖を計画として捉える：推論と言語化の分離

コンプライアンス・パラドックス：自動コード評価における意味と指示の乖離

連合グラフ基盤モデルの再考：グラフと言語の整合に基づくアプローチ

NEMO: 自律型コーディングエージェントによる実行を考慮した最適化モデリング

Sim-MSTNet：sim2realに基づくマルチタスク時空間ネットワークトラフィック予測

合成音声品質評価のためのフレシェ音声距離の理解

帰属と事実検証のためのユーザー中心の証拠ランキング

帰属と事実検証のためのユーザー中心の根拠ランキング

報酬が疎な環境のための内発的報酬方策最適化

報酬が疎な環境のための内発的報酬方策最適化