継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

MALLOC: 大規模シーケンシャル推薦のためのメモリ効率を考慮した長文脈圧縮ベンチマーク

大規模シーケンシャル推薦システムにおいて、ユーザーの長い行動履歴を扱う際の計算コスト増大とメモリ消費の爆発という「メモリと遅延のジレンマ」を解決するため、メモリ効率を重視した包括的な圧縮技術の評価枠組みであるMALLOCを提案した。

6109 字
読む →

AIがスキル形成に与える影響

AIアシスタントを利用して新しいプログラミングライブラリの習得を試みたグループは、利用しなかったグループと比較して、事後の理解度テストのスコアが平均で17%(グレードポイントで2点分)低下し、概念理解やデバッグ能力が損なわれることが判明しました。

6342 字
読む →

Rectified Flowのサンプル複雑度は最適レートを達成:拡散モデルを超える効率性の理論的背景

本研究は、Rectified Flow(RF)がターゲット分布を学習する際に必要とするサンプル数(サンプル複雑度)において、情報理論的な下限値である $\tilde{O}(\epsilon^{-2})$ を達成することを理論的に証明しました。

5949 字
読む →

統計的保証付きLLM性能評価の効率化:FAQ手法の提案

大規模言語モデル(LLM)の膨大な評価コストを削減するため、過去の評価データを活用して最適な質問を適応的に選択する新手法「FAQ(Factorized Active Querying)」が提案されました。

6425 字
読む →

ブルームの分類学に基づくドメインガイドラインからの自動ベンチマーク生成

本研究は、専門家のガイドラインからブルームの分類学に基づいた評価問題を自動生成するフレームワーク「BLOOMQA」を開発し、既存の試験データに依存しない新しい評価手法を確立しました。教育、栄養学、介護の3つの実務ドメインにおいて、指針への違反を題材とした多肢選択式問題と対話データを合計約6万件生成し、大規模言語モデル(LLM)の推論能力を多角的な認知レベルで測定可能にしました。検証の結果、LLMは「分析」のような高次の推論で高い性能を示す一方で、「記憶」のような基礎的な項目で失敗するという、人間の学習プロセスとは異なる非直感的な挙動を示すことが明らかになりました。

7261 字
読む →

HE-SNR:エントロピーによって潜在的な論理を解明し、SWE-benchにおける中間学習を導く

ソフトウェアエンジニアリング能力を評価する最難関ベンチマークであるSWE-benchにおいて、モデルの中間学習(Mid-Training)段階での潜在能力を正確に測定するための新しい指標として、エントロピー圧縮仮説に基づく「HE-SNR(高エントロピー信号対雑音比)」が提案されました。

6072 字
読む →

SoftHateBench:論理的で規約違反にならない「ソフトなヘイトスピーチ」に対するモデレーションモデルの評価

従来のコンテンツモデレーションは、露骨な罵倒や脅迫を含む「ハードなヘイトスピーチ」の検出には長けていますが、表面上は理性的で規約に違反しないように装いつつ、論理的な推論を通じて特定の集団を排除しようとする「ソフトなヘイトスピーチ」を見逃す傾向にあります。

6413 字
読む →

経験的尤度に基づく公平性監査:分布に依存しない認証とフラグ付け

AIモデルのバイアスを検出するための新しい統計的枠組み「ELF A」を提案します。この手法は、データの背後にある分布を仮定しない非パラメトリックなアプローチであり、従来のブートストラップ法に比べて計算速度が数千倍から数万倍速く、統計的な正確性も高いという特徴があります。

5641 字
読む →

フィッシングURL検出のためのLeast-to-Most推論の抽出

フィッシングURL検出において、複雑な問題を段階的なサブ問題に分解して解く「Least-to-Most」プロンプティングと、確信度を数値化して推論を制御する独自の「回答感度」メカニズムを組み合わせた新しいフレームワークを提案した。

7044 字
読む →

予測の「その後」を改善する: 時系列モデルのための後処理シフト

時系列予測においてモデル構造の改善による精度向上が飽和しつつある中、既存の学習済みモデルを一切再学習・変更することなく、入力データの微調整と出力の残差修正という2つの軽量な後処理モジュールを追加することで、予測精度と不確実性の評価を一貫して向上させるフレームワーク「$\delta$-Adapter」が提案されました。

5724 字
読む →