継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

CTR予測における長短シーケンスモデリングのバランスをとるための長さ適応型興味ネットワーク

既存のクリック率(CTR)予測モデルにおいて、入力可能な行動履歴の長さを拡張すると、長期履歴を持つユーザーの精度は向上する一方で、短期履歴しか持たないユーザーの精度が逆に低下するという「長さの不均衡」による弊害が生じていることを明らかにした。

6065 字
読む →

意味的ガイダンスを通じたUI生成における隔たりの架橋

現在のテキストからUIを生成するAIシステムでは、ユーザーが自身のデザイン意図を言語化して伝えることが難しく、また生成された結果がなぜそのようになったのかを理解して修正することが困難であるという、実行と評価の両面における大きな隔たりが存在している。

5823 字
読む →

CollectiveKV:逐次推薦における協調情報の分離と共有

逐次推薦システムにおけるTransformerのKVキャッシュが引き起こす膨大なストレージ消費と推論遅延を解決するため、ユーザー間の協調情報を活用してキャッシュを劇的に圧縮する新手法「CollectiveKV」が提案されました。

6209 字
読む →

RPO-RAG:ナレッジグラフ質問応答のための関係認識型選好最適化による小規模LLMのアライメント

大規模言語モデルが知識集約的なタスクで起こすハルシネーションを抑制するため、知識グラフ(KG)を活用したRAGにおいて、30億パラメータ未満の小規模モデルでも高精度な推論を可能にする新フレームワーク「RPO-RAG」が提案されました。

5911 字
読む →

VoxPrivacy:音声言語モデルの対話的プライバシーを評価するためのベンチマーク

音声言語モデル(SLM)がスマートホーム等の共有環境で、特定の利用者の機密情報を他者に漏洩させる「対話的プライバシー」の欠如を評価するための専用ベンチマーク「VoxPrivacy」が提案された。

6940 字
読む →

補助損失による分離型分割学習

従来の分割学習(Split Learning)が抱えていた、サーバーからの勾配返送待ちによる通信遅延と、バックプロパゲーションのための膨大なメモリ消費という二大課題を、分割点に軽量な補助分類器を導入して学習プロセスを「分離」することで根本から解決しました。

6258 字
読む →

ソフトロボットを用いた触覚メモリ:マスク化エンコーディングとソフト手首による堅牢な物体挿入

物理的な柔軟性を備えたソフト手首と、過去の触覚体験をデータベース化して検索・再利用する機能を統合したロボットシステム「TaMeSo-bot」を開発し、位置の不確実性が高い環境下での堅牢なペグ挿入を実現しました。

5648 字
読む →

Talos:推薦システムにおけるTop-$K$精度の最適化

従来の推薦システムで主流だった全ランキング指標の最適化は、実際の利用シーンで重要なTop-$K$精度と必ずしも一致しないという課題がありました。本研究で提案されたTalosは、複雑な順位計算をスコアとしきい値の比較に置き換えるクォンタイル手法を導入し、Top-$K$精度を直接的かつ効率的に最適化する新しい損失関数です。

6026 字
読む →

モバイルエージェントのための好奇心駆動型知識検索

スマートフォン操作を自動化するモバイルエージェントが、未知のアプリや複雑なタスクに直面した際の知識不足を解消するため、実行中の不確実性を「好奇心スコア」として数値化し、外部知識を動的に取得するフレームワークを提案した。

5859 字
読む →

StableQAT:超低ビット幅における安定した量子化意識トレーニング

StableQATは、2ビットから4ビットという極めて低いビット幅における量子化意識トレーニング(QAT)を安定化させるための革新的なフレームワークである。従来のストレートスルー推定量(STE)が抱える勾配の不一致や、既存のソフト量子化手法が伴う膨大な計算コストといった課題を、離散フーリエ解析に基づく「回転減衰フーリエ代理関数(RDFS)」の導入によって根本から解決する。 この手法は、丸め操作の幾何学的な構造を周波数領域で捉え直すことで、勾配の分散を一定の範囲内に抑えつつ、滑らかで有界な最適化方向をモデルに提供する。その結果、追加の計算負荷をほとんど発生させることなく、大規模言語モデル(LLM)などの学習安定性と最終的な推論精度を大幅に向上させることが可能となった。 理論的にはSTEを特殊なケースとして包含する一般化された形式を持ち、実装面でも既存の学習パイプラインへ容易に統合できるプラグアンドプレイな特性を備えている。これにより、メモリや電力の制約が厳しい環境下での高性能なAIモデルの展開を強力に支援し、エッジデバイス等での効率的な推論を実現する。

6068 字
読む →