継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

TSRBench: 汎用モデルのための包括的なマルチタスク・マルチモーダル時系列推論ベンチマーク

時系列データは現実世界の意思決定において不可欠ですが、従来の評価手法は単純な数値予測に偏り、文脈や因果関係を考慮した高度な推論能力を測定できていませんでした。本研究が提案する「TSRBench」は、14のドメインから収集された4125個の問題を含み、認識、推論、予測、意思決定の4つの次元と15のタスクを通じて、汎用モデルの時系列処理能力を多角的に評価する初の包括的なマルチモーダルベンチマークです。30以上の主要モデルを検証した結果、モデル規模の拡大は認識や論理推論には有効であるものの予測精度には必ずしも直結せず、また現在のマルチモーダルモデルはテキストと視覚情報の統合において相乗効果を生み出せていないという重要な課題が明らかになりました。

6575 字
読む →

選好を超えて:人間の理由と価値観に根ざしたアライメント原則の学習

大規模言語モデル(LLM)を人間の価値観に適合させる際、従来の「どちらの回答が好ましいか」という選好データのみに頼る手法では、ユーザーの真の意図や稀にしか発生しない倫理的懸念を十分に反映できないという課題がある。

5752 字
読む →

発見するための学習:忘却のないラーガ識別のための一般化フレームワーク

インド古典音楽のラーガ識別において、既知のラーガを正確に分類する能力を維持しながら、訓練データに含まれない未知のラーガを自動的に発見・構造化する「一般化カテゴリー発見(GCD)」フレームワークを提案した。

6404 字
読む →

表現準同型はTransformer言語モデルにおける構成的汎化を予測し改善する

ニューラルネットワークが既知の要素を未知の組み合わせで理解する「構成的汎化」は長年の難題であり、本研究ではモデルの内部表現が代数的な構成構造をどの程度保持しているかを定量化する新指標「準同型誤差(HE)」を提案した。 実験の結果、この準同型誤差はノイズ環境下での分布外(OOD)への汎化性能と強い相関(決定係数0.

7886 字
読む →

PRECISE:予測に基づくランキング推定を用いたLLM評価のバイアス低減

検索システムの評価において、膨大な人的コストと大規模言語モデル(LLM)固有のバイアスが課題となる中、本研究では少数の人間による注釈と大量のLLM判定を統計的に融合させる新フレームワーク「PRECISE」を提案した。

7171 字
読む →

モデルに自らを教えさせる:学習可能性の限界における推論

大規模言語モデルが正答率0%の難問に直面した際、従来の強化学習では学習信号が得られず停滞しますが、本研究はモデル自身が「踏み台」となる問題を生成して自己改善するフレームワーク「SOAR」を提案しました。

6238 字
読む →

POPE:特権的オンポリシー探索による困難な問題における推論の学習

大規模言語モデルの強化において、従来のオンポリシー強化学習は困難な問題で正解を一度も生成できず、学習信号が得られないという課題に直面していました。本研究が提案するPOPEは、人間やオラクルによる正解の「接頭辞(プリフィックス)」を特権的なガイドとして与えることで、モデルが自力では到達できない正解への探索をオンポリシーで実行可能にします。 この手法は、オラクルの解を直接の学習目標とするのではなく、指示に従う能力を活用して探索を導くため、従来の蒸留やオフポリシー学習で発生していた最適化の不安定さや性能の頭打ちを回避することに成功しました。検証の結果、AIME 2025などの難関ベンチマークにおいて、標準的な強化学習では到達できなかった高い正解率を達成し、困難な問題に対する推論能力を大幅に向上させることを示しました。

5731 字
読む →

高速道路交通におけるトラックの効率的な戦術的意思決定のための多目的強化学習

高速道路を走行する大型トラックの自動運転において、安全性、時間効率、エネルギー効率という互いに相反する重要な目標を同時に最適化するため、多目的強化学習(MORL)を用いた新しい意思決定フレームワークを提案している。

5723 字
読む →

文埋め込みを用いたカーネル変化点検出による教師なしテキストセグメンテーション

テキストセグメンテーションにおける境界ラベルの付与コストや主観性の問題を解決するため、事前学習済みの文埋め込みとカーネル変化点検出(KCPD)を組み合わせた、学習不要で汎用性の高い教師なし手法「Embed-KCPD」が提案されました。

7216 字
読む →

Wikipedia Glottosetを用いた242言語にわたるサブワードベースの比較言語学

本研究は、Wikipediaの語彙データから構築した「glottoset」を活用し、ラテン文字とキリル文字を使用する242言語を対象に、Byte-Pair Encoding(BPE)を用いた大規模な比較言語学のフレームワークを提案した。

5830 字
読む →