継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

AACR-Bench: 包括的なリポジトリレベルのコンテキストを用いた自動コードレビューの評価

従来の自動コードレビュー(ACR)の評価は、GitHubの生のプルリクエストデータに依存していたため、正解データの網羅性が低く、特定の言語に偏っているという課題がありました。本研究が提案する「AACR-Bench」は、10種類の主要言語と50のリポジトリを対象とし、80名の熟練エンジニアと最新AIモデルを組み合わせた検証パイプラインにより、問題の網羅率を従来比で285%向上させた画期的なベンチマークです。検証の結果、リポジトリレベルの文脈提供やエージェント構成の採用がモデルの性能に与える影響は、使用する言語やモデルの特性によって大きく異なることが明らかになり、今後の自動レビュー技術開発における重要な指針を提示しました。

7265 字
読む →

1トークンで十分:シンクトークンによる拡散言語モデルの改善

拡散言語モデル(DLM)において、注意機構の計算過程で不要な情報を逃がす「シンク(掃き出し口)」となるトークンの位置がステップごとに不規則に変動する「移動シンク現象」が、生成の不安定性や性能低下の主要因であることを特定しました。

6314 字
読む →

GAVEL:活性化モニタリングを通じたルールベースの安全性に向けて

従来のLLMセーフティ技術は、表面的なテキストの監視では回避されやすく、内部のアクティベーションを利用する手法も広範なデータセットに依存するため精度や柔軟性、解釈性に課題がありました。本論文は、サイバーセキュリティのルール共有慣行に触発された「GAVEL」という新しいフレームワークを提案し、モデル内部の微細で解釈可能な要素である「認知要素(CE)」を定義して論理的なルールで監視する手法を導入しました。このアプローチにより、モデルの再学習を行うことなく、特定のドメインに合わせた高度な安全策をリアルタイムで構成・更新することが可能になり、AIガバナンスにおける透明性と監査の容易さを大幅に向上させています。

5998 字
読む →

NeuraLSP: 共役勾配法のための効率的かつ厳密なニューラル左特異部分空間プリコンディショナ

科学技術計算における偏微分方程式の数値解法を加速するため、従来の代数マルチグリッド法が抱えるランク膨張や収束率低下という課題を解決する新しいニューラルプリコンディショナ「NeuraLSP」が提案されました。

6436 字
読む →

クロスドメイン画像分類のための因果駆動型特徴量評価

従来のドメイン汎化手法が依存していた「ドメイン間で不変な特徴は信頼できる」という仮定に対し、不変であっても予測に因果的な寄与をしない「偽の相関」が含まれる問題を指摘し、統計的な安定性ではなく因果的な有効性を評価の主軸に据える必要性を提唱しました。

5862 字
読む →

MALLOC:大規模シーケンシャル推薦のためのメモリを考慮した長尺系列圧縮のベンチマーク

大規模推薦システムにおいて、ユーザーの長い行動履歴を処理する際の計算コストとメモリ消費の爆発的な増加(メモリ・レイテンシのジレンマ)を解決するため、メモリ効率を重視した長系列圧縮技術の包括的なベンチマークである「MALLOC」が提案されました。

6492 字
読む →

MobileBench-OL:実環境におけるモバイルGUIエージェント評価のための包括的な中国語ベンチマーク

MobileBench-OLは、80個の中国語アプリから抽出された1080個のタスクで構成される、実環境におけるモバイルGUIエージェント評価のための包括的なオンラインベンチマークである。従来のベンチマークが単純な指示への追従に偏っていたのに対し、本手法は複雑な推論や自律的な探索能力、そして実環境特有のランダムなノイズへの対応力を多角的に測定する。 本ベンチマークは、20ステップ以上の長期タスクや隠れた機能の探索、ポップアップやネットワーク遅延といった4種類のノイズを含む5つのサブセットを提供し、エージェントの堅牢性を厳格に評価する。また、デバイスの状態を初期化するリセット機構を備えた自動評価フレームワークを導入することで、実機を用いた安定かつ再現可能な検証プロセスを確立している。 12種類の主要なGUIエージェントを用いた実験の結果、現在のモデルは実世界の複雑な要求に対して依然として大きな改善の余地があることが明らかになり、人間による評価でも本指標の信頼性が確認された。このデータセットは、学術的な評価と実世界でのデプロイメントの間に存在するギャップを埋め、次世代のモバイルエージェント開発を促進する基盤となる。

6729 字
読む →

人間とAIの協力における規範的同等性:正体ではなく行動が協力を左右する

人間3名とAIエージェント1名で構成される小集団において、相手がAIであるか人間であるかという「正体」のラベルは、公共財ゲームにおける協力行動のレベルや規範の形成に有意な影響を与えないことが本研究により明らかになりました。

6991 字
読む →

Bayesian-LoRA:大規模言語モデルの確率的低ランク適応

大規模言語モデル(LLM)の微調整において、従来のLoRAは決定論的であり、確信がない場合でも過剰に自信を持って予測を行う「不適合(miscalibration)」という課題があったが、本研究はこれを解決する。

6115 字
読む →

ICON:効率的なマルチターン・ジェイルブレイク攻撃のための意図とコンテキストの結合

大規模言語モデル(LLM)において、悪意のある意図がそれと意味的に整合する文脈(コンテキスト)と組み合わさった際に安全制約が大幅に緩和される「意図・文脈結合(Intent-Context Coupling)」という現象を解明しました。

5773 字
読む →