継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

コンパイラ・イン・ザ・ループを伴う文法を考慮した文芸的生成的数理計画

自然言語の問題記述を数理最適化モデルへ変換する際、独自のコンパイラ「PyOPL」からの詳細な診断フィードバックをループに組み込み、AIが自己修正を行うエンドツーエンドのシステム「SyntAGM」を開発した。

6015 字
読む →

ピボットへの整列:多言語数学推論のための自己フィードバックを用いた二重アライメント

大規模言語モデル(LLM)が低リソース言語での数学的推論において性能を低下させる問題を解決するため、英語を「ピボット(軸)」として推論プロセスを整列させる新フレームワーク「PASMR」を提案しました。

5806 字
読む →

DIML:マルチエージェント学習軌跡の振る舞いからの微分可能な逆メカニズム学習

本研究は、複数のエージェントが相互に影響し合う環境において、観測された行動履歴(学習軌跡)のみから背後にある未知の報酬生成メカニズムを特定する「逆メカニズム学習」のフレームワーク「DIML」を提案する。

5670 字
読む →

BanglaRobustNet:堅牢なベンガル語音声認識のためのハイブリッドなノイズ除去アテンションアーキテクチャ

ベンガル語は2億5千万人以上の話者を抱えながら、音声認識(ASR)においてはデータが不足している低リソース言語であり、環境ノイズや多様な方言、複雑な音韻構造が実用化の大きな壁となっていました。本研究が提案するBanglaRobustNetは、Wav2Vec-BERTを基盤に、拡散モデルを用いたノイズ除去モジュールと話者特性を捉えるクロスアテンション機構を統合することで、音韻の正確性を保ちつつノイズ耐性を劇的に向上させています。評価の結果、従来のWhisperやWav2Vec-BERTを大幅に上回る精度を達成し、クリーンな環境で12%、ノイズ環境で18%、方言において15%の単語誤り率(WER)削減を実現し、リアルタイムでの推論効率も確保されています。

5842 字
読む →

不整合に耐性のあるモデル駆動型可逆圧縮アルゴリズム

大規模言語モデル(LLM)を用いたデータ圧縮において、計算環境の違いで生じる予測確率の微細な不整合が復号失敗を招くという重大な課題に対し、確率のズレを乗法的な範囲で許容する新しい可逆圧縮アルゴリズムが提案されました。

6863 字
読む →

REV-INR:不確実性を考慮したボリューム可視化のための正則化証拠的陰解法ニューラル表現

REV-INRは、大規模なボリュームデータをニューラルネットワークの重みとして効率的に圧縮・表現しつつ、一回の推論プロセスだけで予測値と「モデルの不確実性(エピステミック)」および「データの不確実性(アレアトリック)」という二種類の指標を同時に算出する画期的な手法である。

5673 字
読む →

セグメント長は重要である:音声指紋照合の性能におけるセグメント長の研究

本研究は、音声指紋照合システムにおいて音声を切り出す際の「セグメント長」が照合精度に与える影響を、既存モデルを拡張したNAFP+を用いて詳細に調査したものです。 実験の結果、0.5秒という短いセグメント長が、特に3秒未満の短いクエリにおいて最も高い照合精度を達成し、クエリ長が4秒を超えると精度の向上が飽和する傾向が明らかになりました。 また、最適なセグメント長を提案する能力を大規模言語モデルで比較したところ、GPT-5-miniが実際の実験結果と最も合致する1秒前後の設定を一貫して推奨し、システム設計における高い信頼性を示しました。

5784 字
読む →

LegalMALR:中国の法規検索のためのマルチエージェントによるクエリ理解とLLMに基づくリランキング

LegalMALRは、口語的で複雑な法的クエリに対し、複数のAIエージェントが多様な視点からクエリを再構成し、反復的に検索を行うことで候補の網羅性を劇的に向上させる新しいフレームワークである。このシステムは、GRPO(Generalized Reinforcement Policy Optimization)を用いてエージェントの挙動を安定化させるとともに、Qwen-Maxを活用したゼロショットのリランキングにより、従来の手法では困難だった高度な法的推論に基づく条文特定を実現している。独自の難関データセットCSAIDおよび公開ベンチマークSTARDを用いた検証の結果、LegalMALRは既存のRAGパイプラインを大幅に上回る精度を達成し、暗黙的な法的論点を含む実務的な検索課題に対して極めて有効であることが証明された。

6480 字
読む →

SQL-Trail:Text-to-SQLのためのインターリーブされたフィードバックを用いたマルチターン強化学習

SQL-Trailは、従来の1回限りの生成(シングルパス方式)ではなく、データベースとの対話を通じてSQLを反復的に洗練させるマルチターン強化学習フレームワークであり、人間の専門家が行うような試行錯誤のプロセスをAIで再現することに成功しました。

6025 字
読む →

S^3-Attention:メモリ制約下における長文脈推論のためのアテンション整列型内因性検索

大規模言語モデルの長文脈推論において、GPUメモリの線形増加と外部検索(RAG)による意味的ミスマッチという二大課題を解決するため、モデル内部の信号を直接利用する「内因性検索」フレームワークであるS^3-Attentionを提案しました。

5661 字
読む →