言語モデルの「言行不一致」は質問方法で変わる:表明された選好と実際の選択のギャップに関する調査
TL;DR言語モデルが表明する価値観と実際の選択が食い違う「表明・顕示選好ギャップ(SvRギャップ)」について、24のモデルを用いて調査した研究である。中立や回答拒否を許容することで、弱いシグナルを除外し、表明された選好と強制選択による顕示選好の相関を大幅に改善できることが判明した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DR言語モデルが表明する価値観と実際の選択が食い違う「表明・顕示選好ギャップ(SvRギャップ)」について、24のモデルを用いて調査した研究である。中立や回答拒否を許容することで、弱いシグナルを除外し、表明された選好と強制選択による顕示選好の相関を大幅に改善できることが判明した。
TL;DR本研究は、エアホッケーのような高速な判断が求められる課題に対し、混合信号アナログ/デジタルニューロモーフィックプロセッサ上のスパイキングニューラルネットワークを用いた制御手法を提案します。局所的な学習ルールであるe-propと強化学習を組み合わせることで、極めて少ない試行回数でリアルタイムな学習と高速なロボット制御を実現しました。
TL;DR本研究は、混合信号アナログ・デジタルニューロモーフィックプロセッサを用い、高速なエアホッケーロボットを制御するスパイクニューラルネットワークを提案します。固定されたランダム結合と局所的な学習則を組み合わせることで、極めて少ない試行回数での強化学習を実現しました。
TL;DR大規模言語モデルを用いたコード評価において、モデルがコードの論理よりも隠された指示の遵守を優先してしまう「コンプライアンス・パラドックス」を指摘する研究です。攻撃手法SPACIを用いて検証した結果、主要なモデルで95%以上の失敗率が確認されました。
TL;DRAIコーディングエージェントの効率にリポジトリ設定が与える影響を検証。10リポジトリ・124 PRの実験で、AGENTS.md導入により実行時間中央値が約29%短縮、出力トークンが約17%削減された。
TL;DRApple Siliconの統合メモリを活かした新しい推論フレームワーク「vllm-mlx」が提案されました。MLXをベースに構築され、テキストモデルでは既存ツール比で最大87%のスループット向上を実現。さらにマルチモーダルモデル向けに画像キャッシュ機能を導入し、繰り返し処理を劇的に高速化しています。
Pricing