継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

コンプライアンス・パラドックス:自動コード評価における意味と指示の乖離

大規模言語モデル(LLM)を教育評価に導入する際、指示に従う能力が客観的な判定能力に直結するという前提がありますが、本研究ではモデルがコードの論理を無視して隠された指示を優先する「コンプライアンス・パラドックス」という深刻な脆弱性を明らかにしました。

5713 字
読む →

連合グラフ基盤モデルの再考:グラフと言語の整合に基づくアプローチ

FedGALAは、分散されたプライバシー保護環境において、グラフニューラルネットワークと凍結された事前学習済み言語モデルを連続的な埋め込み空間で整合させる革新的な連合グラフ基盤モデルのフレームワークである。

5708 字
読む →

NEMO: 自律型コーディングエージェントによる実行を考慮した最適化モデリング

NEMOは、自然言語による意思決定問題の記述を、自律型コーディングエージェント(ACA)を活用して実行可能な数学的最適化モデルへと変換する革新的なシステムです。サンドボックス環境でのコード実行と、命令型のシミュレータによる非対称な検証ループ、外部メモリを用いた数発学習、自己整合性メカニズムを組み合わせることで、生成されたコードの信頼性と実行可能性を高度に担保しています。評価の結果、9つの主要な最適化ベンチマークのうち8つにおいて従来技術を凌駕する最高水準の性能を達成し、特定の課題では最大28パーセントポイントの精度向上を実現したことが示されています。

6530 字
読む →

Sim-MSTNet:sim2realに基づくマルチタスク時空間ネットワークトラフィック予測

従来のネットワークトラフィック予測は、新設基地局などのデータ不足環境での性能低下や、複数サービスを同時に扱うマルチタスク学習におけるタスク間の不均衡および負の転移という課題を抱えていました。本研究が提案するSim-MSTNetは、シミュレータによる合成データを活用するSim2Realアプローチとドメインランダム化技術を導入し、二段階最適化によって現実データとの乖離を埋めつつ、データの希少性を克服しています。 イタリアのミラノおよびトレントの公開データセットを用いた実験では、提案モデルが既存の最新手法を一貫して上回る精度を記録し、特に注意機構を用いたタスク間の知識共有と動的な損失重み付け戦略により、通話、SMS、ネット通信の各タスクで高い汎化性能を実証しました。この成果は、次世代の6G通信インフラにおけるインテリジェントな運用管理や、不確実性の高い環境下での適応的なトラフィック制御を実現するための重要な基盤技術となることが期待されます。

6847 字
読む →

合成音声品質評価のためのフレシェ音声距離の理解

合成音声の品質を客観的に評価するため、画像分野のFIDを応用したフレシェ音声距離(FSD)と、正規分布の仮定を必要としない新指標である音声最大平均不一致(SMMD)の有効性を、WavLMやWhisperを含む5種類の音声埋め込みモデルを用いて体系的に検証しました。

5702 字
読む →

帰属と事実検証のためのユーザー中心の証拠ランキング

大規模言語モデル(LLM)のハルシネーション対策として、情報の信頼性を評価するための証拠提示と事実検証が重要視されていますが、既存の自動システムはユーザーに対して不十分な情報や過剰に冗長な情報を提示しがちであり、検証作業の効率を下げて誤りを誘発する原因となっています。

5993 字
読む →

帰属と事実検証のためのユーザー中心の根拠ランキング

大規模言語モデル(LLM)が生成する情報の信頼性を評価するため、従来の「証拠選択」に代わる新しいタスクとして「証拠ランキング」を提案しました。これは、ユーザーが主張の正誤を判断するために必要な最小限の情報を、順位付けされたリストのなるべく早い段階で提示することを目指すもので、ユーザーの読解努力を最小化しつつ、すべての証拠へのアクセスを維持します。 本研究では、一度に順位を付けるワンショット型と、既に出した証拠を考慮しながら順次選ぶインクリメンタル型の2つの手法を比較し、既存の事実検証データセットを統合した新しいベンチマークと評価指標を構築しました。評価には、ユーザーの読解効率を測定するために情報検索の指標を応用したMRR(平均逆順位)などが導入されており、システムがどれだけ早く十分な証拠を提示できるかを定量化しています。 実験の結果、LLMを用いた手法がMRR 0.75という最も高い性能を示し、特にインクリメンタルな戦略が補完的な証拠を効率的に提示できることが明らかになりました。ユーザー調査においても、証拠ランキングは従来の選択手法と比較して、読解量を減らしつつ検証の正確性を向上させることが実証されており、より解釈可能で効率的、かつユーザーの利便性に沿った情報検証システムの基盤となります。

5699 字
読む →

報酬が疎な環境のための内発的報酬方策最適化

強化学習において報酬が稀薄な環境は、エージェントが最適な方策を見つけるための探索が困難であるという課題を抱えています。本研究で提案されたIRPO(Intrinsic Reward Policy Optimization)は、複数の内発的報酬を利用して探索用の方策を更新し、その結果得られた信号をベース方策へ逆伝播させることで、稀薄な報酬環境でも効果的な学習を実現する新しい最適化フレームワークです。実験の結果、離散および連続の多様なタスクにおいて、従来の手法である階層型強化学習や報酬加算型の手法を上回る高い最終性能と優れたサンプル効率を達成することが確認されました。

6806 字
読む →

報酬が疎な環境のための内発的報酬方策最適化

本研究は、目標達成時のみ報酬が得られる「報酬が疎な環境」において、効率的な探索と精密な制御を両立させる新しい強化学習アルゴリズム「内発的報酬方策最適化(IRPO)」を提案しました。 従来の内発的報酬を加算する手法や階層型強化学習が抱えていた、報酬割り当ての不安定さやサンプル効率の悪さ、および解の劣適性といった課題を、複数の探索用方策からの勾配をバックプロパゲーションで統合する「代理方策勾配」の仕組みによって解決しています。 複雑な迷路やロボット制御タスクを用いた実験において、既存の主要なベースラインを大幅に上回る学習速度と最終性能を達成し、特に精密な動作が要求される連続空間のタスクで顕著な優位性と安定性を示しました。

5817 字
読む →

動的モデル補間によるシステム1と2の相乗効果

大規模言語モデルにおいて、直感的な「システム1」と熟考的な「システム2」を統合するため、出力の長さではなく「思考能力」そのものを制御する動的モデル補間手法「DAMI」が提案されました。 既存の指示追従モデルと推論モデルのパラメータを線形補間することで、追加学習なしにクエリごとの最適な推論強度を調整し、表現空間の連続性と構造的結合性を維持しながら性能を制御することが可能です。 数学的推論ベンチマークにおいて、従来の推論モデルより高い精度を維持しつつ、トークン消費量を29〜40%削減することに成功し、効率性と推論の深さの最適なバランスを実現しました。

5688 字
読む →