AI研究 | Cog AI Archive

AI研究 2026-01-29

確率的リプシッツ最適化のための証明に基づく枝刈り

本研究は、評価にノイズが含まれるリプシッツ関数のブラックボックス最適化において、最適解が含まれる可能性のある領域を「アクティブセット」として明示的に管理し、非最適な領域を数学的根拠に基づいて切り捨てる新手法「Certificate-Guided Pruning（CGP）」を提案した。

6175 字

読む →

AI研究 2026-01-29

MALLOC: 大規模シーケンシャル推薦のためのメモリ効率を考慮した長文脈圧縮ベンチマーク

大規模シーケンシャル推薦システムにおいて、ユーザーの長い行動履歴を扱う際の計算コスト増大とメモリ消費の爆発という「メモリと遅延のジレンマ」を解決するため、メモリ効率を重視した包括的な圧縮技術の評価枠組みであるMALLOCを提案した。

6109 字

読む →

AI研究 2026-01-29

AIがスキル形成に与える影響

AIアシスタントを利用して新しいプログラミングライブラリの習得を試みたグループは、利用しなかったグループと比較して、事後の理解度テストのスコアが平均で17%（グレードポイントで2点分）低下し、概念理解やデバッグ能力が損なわれることが判明しました。

6342 字

読む →

AI研究 2026-01-29

Rectified Flowのサンプル複雑度は最適レートを達成：拡散モデルを超える効率性の理論的背景

本研究は、Rectified Flow（RF）がターゲット分布を学習する際に必要とするサンプル数（サンプル複雑度）において、情報理論的な下限値である $\tilde{O}(\epsilon^{-2})$ を達成することを理論的に証明しました。

5949 字

読む →

AI研究 2026-01-29

統計的保証付きLLM性能評価の効率化：FAQ手法の提案

大規模言語モデル（LLM）の膨大な評価コストを削減するため、過去の評価データを活用して最適な質問を適応的に選択する新手法「FAQ（Factorized Active Querying）」が提案されました。

6425 字

読む →

AI研究 2026-01-29 長文

ブルームの分類学に基づくドメインガイドラインからの自動ベンチマーク生成

本研究は、専門家のガイドラインからブルームの分類学に基づいた評価問題を自動生成するフレームワーク「BLOOMQA」を開発し、既存の試験データに依存しない新しい評価手法を確立しました。教育、栄養学、介護の3つの実務ドメインにおいて、指針への違反を題材とした多肢選択式問題と対話データを合計約6万件生成し、大規模言語モデル（LLM）の推論能力を多角的な認知レベルで測定可能にしました。検証の結果、LLMは「分析」のような高次の推論で高い性能を示す一方で、「記憶」のような基礎的な項目で失敗するという、人間の学習プロセスとは異なる非直感的な挙動を示すことが明らかになりました。

7261 字

読む →

AI研究 2026-01-29

HE-SNR：エントロピーによって潜在的な論理を解明し、SWE-benchにおける中間学習を導く

ソフトウェアエンジニアリング能力を評価する最難関ベンチマークであるSWE-benchにおいて、モデルの中間学習（Mid-Training）段階での潜在能力を正確に測定するための新しい指標として、エントロピー圧縮仮説に基づく「HE-SNR（高エントロピー信号対雑音比）」が提案されました。

6072 字

読む →

AI研究 2026-01-29

SoftHateBench：論理的で規約違反にならない「ソフトなヘイトスピーチ」に対するモデレーションモデルの評価

従来のコンテンツモデレーションは、露骨な罵倒や脅迫を含む「ハードなヘイトスピーチ」の検出には長けていますが、表面上は理性的で規約に違反しないように装いつつ、論理的な推論を通じて特定の集団を排除しようとする「ソフトなヘイトスピーチ」を見逃す傾向にあります。

6413 字

読む →

AI研究 2026-01-29

経験的尤度に基づく公平性監査：分布に依存しない認証とフラグ付け

AIモデルのバイアスを検出するための新しい統計的枠組み「ELF A」を提案します。この手法は、データの背後にある分布を仮定しない非パラメトリックなアプローチであり、従来のブートストラップ法に比べて計算速度が数千倍から数万倍速く、統計的な正確性も高いという特徴があります。

5641 字

読む →

AI研究 2026-01-29 長文

フィッシングURL検出のためのLeast-to-Most推論の抽出

フィッシングURL検出において、複雑な問題を段階的なサブ問題に分解して解く「Least-to-Most」プロンプティングと、確信度を数値化して推論を制御する独自の「回答感度」メカニズムを組み合わせた新しいフレームワークを提案した。

7044 字

読む →

生成AI研究を、要点から追う。

最新の記事

確率的リプシッツ最適化のための証明に基づく枝刈り

MALLOC: 大規模シーケンシャル推薦のためのメモリ効率を考慮した長文脈圧縮ベンチマーク

AIがスキル形成に与える影響

Rectified Flowのサンプル複雑度は最適レートを達成：拡散モデルを超える効率性の理論的背景

統計的保証付きLLM性能評価の効率化：FAQ手法の提案

ブルームの分類学に基づくドメインガイドラインからの自動ベンチマーク生成

HE-SNR：エントロピーによって潜在的な論理を解明し、SWE-benchにおける中間学習を導く

SoftHateBench：論理的で規約違反にならない「ソフトなヘイトスピーチ」に対するモデレーションモデルの評価

経験的尤度に基づく公平性監査：分布に依存しない認証とフラグ付け

フィッシングURL検出のためのLeast-to-Most推論の抽出