継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

ClawTrap:OpenClaw を実ネットワーク上で監査する MITM レッドチーミング基盤

ClawTrap は、OpenClaw のような自律 Web エージェントに対し、実際の通信経路へ Man-in-the-Middle 攻撃を差し込んで安全性を調べる評価基盤です。静的サンドボックスや単純なプロンプト注入では見えにくい、ネットワーク層の改ざん耐性を測ることを目的にしています。 核心は、クラウド側で動く OpenClaw と研究者のローカル環境の間に Tailscale と mitmdump ベースの中継層を置き、Static HTML Replacement、Iframe Popup Injection、Dynamic Content Modification の3種類の攻撃を再現可能な形で実行できるようにした点です。 v1 の実験は大規模ベンチマークではなく代表的な実ブラウジングデモが中心ですが、弱いモデルほど改ざんされた観測を信用しやすく、強いモデルほど「ネットワーク改ざんかもしれない」と原因帰属しながら安全側へ倒れることを示しています。

5996 字
読む →

数値スコアなしでどこまで学べるか:ランキングだけのオンライン学習と均衡計算

扱うのは、環境から数値の報酬ではなく「提案した行動の順位」だけが返る状況で、オンライン学習やゲームの均衡計算がどこまで可能かという問題です。 結論は単純な楽観論ではありません。瞬間効用にもとづくランキングだけでは一般に sublinear regret は不可能で、時間平均効用にもとづくランキングでも、Plackett-Luce モデルの温度が小さすぎるとやはり難しいと示します。 一方で、効用列の総変動が sublinear という追加仮定の下では新しいアルゴリズムで sublinear regret を達成でき、特に full-information の time-average ranking ではその仮定すら外せます。その結果、繰り返しゲームでは approximate coarse correlated equilibrium を計算できます。

5652 字
読む →

TerraLingua:LLMどうしの社会に文化の蓄積は生まれるのかを測る生態系実験基盤

TerraLinguaは、LLMエージェントを「その場限りの会話相手」ではなく、資源制約・寿命・共有人工物を持つ持続的な生態系に置き、協力規範や分業、統治の芽生え、人工物の系譜がどの条件で立ち上がるかを調べる実験基盤です。 核心は、世界そのものを持続させる環境と、そのログを後段で読むAI Anthropologistを組み合わせた点にあります。エージェントの個別行動だけでなく、集団構造、人工物の複雑化、共有文化の発生を同時に追跡できます。 実験では、単に賢いモデルや豊富な資源があれば開放的発展が起きるわけではなく、資源圧力、認知負荷、動機づけ、人工物へのアクセスが釣り合った条件で初めて、長寿命の社会と継続的な創造の両立が起きることを示しました。

5696 字
読む →

FedBPrompt:背景の紛れと視点ずれを、身体分布を意識した視覚プロンプトで抑える連合ドメイン汎化ReID

FedDG-ReID では、クライアントごとに背景や視点の分布が大きく違うため、ViT の全体注意だけでは「背景に引っ張られる誤一致」と「同一人物でも体の部位がずれて似なくなる失敗」が起きやすくなります。 FedBPrompt は、全身を見る Holistic Full Body Prompts と、上半身・中胴・下半身を合わせる Body Part Alignment Prompts を組み合わせた BAPM と、プロンプトだけを更新する PFTS で、この二つの失敗を同時に抑えます。 強いベースライン SSCU に対しても平均で mAP を 3.3%、Rank-1 を 4.9% 改善し、送信パラメータは全モデルの約 1% まで削減でき、少ない集約ラウンドでも効果が出ます。

6247 字
読む →

Stake the Points:意味アンカーで保持知識の構造を守るインスタンス単位機械アンラーニング

機械アンラーニングでは、消したいデータの影響だけを抜こうとしても、保持すべきデータ同士の意味関係まで崩れると、削除と性能維持の両立が一気に難しくなります。 提案手法 STRUCTGUARD は、言語から作った意味アンカーを基準点として使い、保持データとアンカーの相対関係を保つ alignment と、構造に重要な重みの更新を抑える regularization を組み合わせます。 画像分類、顔認識、画像検索で、既存法より削除と保持のバランスが大きく改善し、分類では平均 32.9%、検索で 22.5%、顔認識で 19.3% の性能改善が報告されています。

6461 字
読む →

ODRL政策比較の本丸:複雑な権利ルールを正規化して「同じか」「含むか」を機械的に判定する

デジタル権利記述の標準である ODRL は表現力が高い反面、同じ意味のポリシーを何通りにも書けてしまい、比較や相互運用を難しくしていました。 提案手法は、複雑な制約や禁止規則を最小単位へ正規化し、互いに重ならない単純ルール集合へ変換することで、包含・等価・重なり判定を単純な一致確認に落とし込みます。 代わりに得られる表現サイズは属性数に対して指数的に膨らみ得るため、理論上の見通しは良くなっても、実装ではどこまで展開するかの設計が重要です。

6782 字
読む →

ThinkStream:動画を見ながら考え、必要な瞬間だけ答えるストリーミング映像推論

ThinkStreamは、動画を小さな塊ごとに受け取りながら短い推論を更新し、答えるべき瞬間だけ応答する Watch–Think–Speak 方式を導入しました。 中核は、途中の推論トークンを意味圧縮された記憶として残す RCSM と、正答・出力形式・応答タイミングを同時に学習する RLVR です。 OVO-Benchで平均59.66、StreamingBench Real-Timeで平均75.00を達成し、長い動画でも推論遅延を0.5秒未満に抑えながら既存のオンライン系モデルを上回りました。

5898 字
読む →

顔・行動・音声をどう混ぜると感情が読めるか:ABAW 競技で試した 感情価・覚醒度 推定の実践設計

自然環境下での感情推定では、顔だけ、音声だけ、行動だけでは取りこぼしが大きい。提案手法は 顔、行動、音声の3モダリティを組み合わせ、valence と arousal を連続値で推定する競技向けマルチモーダル構成です。 行動側では Qwen3-VL-4B-Instruct から得た 行動記述に寄った埋め込み表現 を Mamba で時間モデリングし、音声側では WavLM-Large に 口の開き方を使ったモダリティ横断フィルタリング を組み合わせています。融合は 指向付きクロスモーダルMixture-of-Experts と 信頼度考慮型の音声・映像融合 の 2 系統で比較します。 Aff-Wild2 の開発セットでは、単体の顔モデル平均 一致相関係数(CCC) 0.6189 に対し、3 モダリティ融合で 0.6487、さらに RAA-V では 0.6576 まで向上しました。大きな新理論というより、信頼度の違う情報源をどう役割分担させるかで性能を押し上げた実装論文です。

6927 字
読む →

FECBF:多機 UAV の衝突回避で CBF-QP が詰む原因を「内部非両立」と捉え直し、実際に解ける方向へ押し戻す

多数の UAV が密集すると、Control Barrier Function による安全制約は理屈上正しくても、制約同士が内部で食い違い、CBF-QP が解なしになることがあります。 提案手法 FECBF は、まず複数 CBF 制約の internal compatibility を解析し、そこから導かれる sign-consistency 条件を QP に追加して、制約同士の衝突を起こしにくくします。 50・100・150 機のシミュレーションでは既存法より高い Success Rate と低い Infeasibility Count を示し、遅延付き条件や実機実験でも有効性を確認しています。

5610 字
読む →

VoxelHound:四脚ロボットのための全周・マルチモーダル占有予測を現実環境で成立させる

車載前提の占有予測は、低い視点、高い揺れ、遮蔽、照明変化が激しい四脚ロボット環境ではそのまま使いにくく、しかも全周画像と複数センサを同時に扱う実データ基盤が不足していました。 提案は二本立てで、まず 360 度パノラマ・LiDAR・熱・偏光をそろえた PanoMMOcc データセットを整備し、次に姿勢揺れ補償 VJC と情報融合 MIPF を備えた VoxelHound を導入しています。 PanoMMOcc 上で VoxelHound は 23.34% mIoU を達成し、同条件の比較法を上回りました。特に C+L+T+P の全モーダル構成は、照明変化や複雑な境界での頑健性を押し上げています。

5638 字
読む →