RATE:査読システムにおける専門性ランキングのための査読者プロファイリングとアノテーション不要の訓練
大規模言語モデル(LLM)の急速な発展に伴う研究トピックの変遷に対応するため、2024年から2025年の最新論文と査読者の自己申告による専門性評価(1,055件)を含む高精度なベンチマーク「LR-bench」を構築しました。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
大規模言語モデル(LLM)の急速な発展に伴う研究トピックの変遷に対応するため、2024年から2025年の最新論文と査読者の自己申告による専門性評価(1,055件)を含む高精度なベンチマーク「LR-bench」を構築しました。
Grasyndaは、単変量の時系列データをグラフ構造へと変換し、状態間の遷移確率を基に現実的な合成データを生成する新しいデータ拡張手法である。時系列を離散的な状態(ノード)とそれらの遷移(エッジ)としてモデル化することで、データの局所的なパターンと全体的な構造の両方を効果的に符号化し、統計的性質を維持したデータ生成を可能にする。 6つのベンチマークデータセットを用いた検証の結果、NHITSやKANなどの最新モデルにおいて、AmazonのChronosで採用されている手法を含む既存のデータ拡張技術を上回る予測精度の向上が確認された。 この手法はSTL分解を併用することで、トレンドや季節性といった非定常な特性を保持しながら、効率的かつ高精度なデータ拡張を実現し、深層学習モデルの汎化性能を大幅に向上させる実用的な枠組みを提供している。
現在のマルチモーダル大規模言語モデル(MLLM)の音声評価指標は、話者識別や性別判定といった個別のタスクに偏っており、複数の音声情報を組み合わせて論理的に思考する「推論能力」を十分に測定できていない。
既存のコード生成モデルはリポジトリ固有の知識が不足しており、検索拡張生成(RAG)を用いてもクエリとターゲットコードの間に意味的な不一致が生じるという課題がありました。本研究が提案するAlignCoderは、複数の候補生成によってクエリを強化する仕組みと、強化学習を用いた検索モデルの訓練手法を導入することで、検索精度とコード補完の正確性を大幅に向上させます。実験の結果、CrossCodeEvalベンチマークにおいてベースラインを18.1%上回るEMスコアを達成し、多様なプログラミング言語やモデルに対して高い汎用性と優れた性能を持つことが実証されました。
RvBは、大規模言語モデルの安全性を飛躍的に高めるために開発された、学習や微調整を一切必要としない革新的な自動堅牢化フレームワークであり、攻撃を担うレッドチームと防御を担うブルーチームが対話的に試行錯誤を繰り返す「不完全情報ゲーム」として設計されている。
大規模言語モデルのファインチューニングにおいて、メモリ消費の最大87%を占めるアクティベーションの課題を解決するため、各データの文脈と勾配情報から重要なトークンのみを選択して学習する「TOKENSEEK」が提案されました。 この手法は、Llama3.2 1Bにおいて元のメモリのわずか14.8%(2.
大規模言語モデルを用いたRTL設計において、設計契約(Design Contract)を核としたマルチエージェントフレームワーク「VERI-SURE」を開発し、エージェント間での意図の乖離(セマンティック・ドリフト)を防ぐ仕組みを構築しました。
基盤モデルを用いたエージェントAIは、ハルシネーションや推論能力の不足、そして場当たり的なシステム設計による信頼性の低さが大きな課題となっており、既存の設計パターンも理論的根拠に欠け実装が困難な状況にあります。
大規模言語モデル(LLM)の内部状態を「認知要素(CE)」という解釈可能な最小単位に分解し、それらを論理ルールで組み合わせることで、高度な安全監視を実現するフレームワーク「GAVEL」が提案されました。
マルチエージェント・システム(MAS)において、すべてのタスクに高性能なモデルを割り当てると膨大なコストが発生し、逆に安価なモデルでは論理的な脆弱性によりタスク全体が失敗するという「コストパフォーマンスのパラドックス」を解決するため、軽量なニューラルルーターであるCASTERが提案されました。