AI研究 | Cog AI Archive

AI研究 2026-03-21

TerraLingua：LLMどうしの社会に文化の蓄積は生まれるのかを測る生態系実験基盤

TerraLinguaは、LLMエージェントを「その場限りの会話相手」ではなく、資源制約・寿命・共有人工物を持つ持続的な生態系に置き、協力規範や分業、統治の芽生え、人工物の系譜がどの条件で立ち上がるかを調べる実験基盤です。核心は、世界そのものを持続させる環境と、そのログを後段で読むAI Anthropologistを組み合わせた点にあります。エージェントの個別行動だけでなく、集団構造、人工物の複雑化、共有文化の発生を同時に追跡できます。実験では、単に賢いモデルや豊富な資源があれば開放的発展が起きるわけではなく、資源圧力、認知負荷、動機づけ、人工物へのアクセスが釣り合った条件で初めて、長寿命の社会と継続的な創造の両立が起きることを示しました。

5696 字

読む →

AI研究 2026-03-17

FedBPrompt：背景の紛れと視点ずれを、身体分布を意識した視覚プロンプトで抑える連合ドメイン汎化ReID

FedDG-ReID では、クライアントごとに背景や視点の分布が大きく違うため、ViT の全体注意だけでは「背景に引っ張られる誤一致」と「同一人物でも体の部位がずれて似なくなる失敗」が起きやすくなります。 FedBPrompt は、全身を見る Holistic Full Body Prompts と、上半身・中胴・下半身を合わせる Body Part Alignment Prompts を組み合わせた BAPM と、プロンプトだけを更新する PFTS で、この二つの失敗を同時に抑えます。強いベースライン SSCU に対しても平均で mAP を 3.3%、Rank-1 を 4.9% 改善し、送信パラメータは全モデルの約 1% まで削減でき、少ない集約ラウンドでも効果が出ます。

6247 字

読む →

AI研究 2026-03-17

Stake the Points：意味アンカーで保持知識の構造を守るインスタンス単位機械アンラーニング

機械アンラーニングでは、消したいデータの影響だけを抜こうとしても、保持すべきデータ同士の意味関係まで崩れると、削除と性能維持の両立が一気に難しくなります。提案手法 STRUCTGUARD は、言語から作った意味アンカーを基準点として使い、保持データとアンカーの相対関係を保つ alignment と、構造に重要な重みの更新を抑える regularization を組み合わせます。画像分類、顔認識、画像検索で、既存法より削除と保持のバランスが大きく改善し、分類では平均 32.9%、検索で 22.5%、顔認識で 19.3% の性能改善が報告されています。

6461 字

読む →

AI研究 2026-03-17

ODRL政策比較の本丸：複雑な権利ルールを正規化して「同じか」「含むか」を機械的に判定する

デジタル権利記述の標準である ODRL は表現力が高い反面、同じ意味のポリシーを何通りにも書けてしまい、比較や相互運用を難しくしていました。提案手法は、複雑な制約や禁止規則を最小単位へ正規化し、互いに重ならない単純ルール集合へ変換することで、包含・等価・重なり判定を単純な一致確認に落とし込みます。代わりに得られる表現サイズは属性数に対して指数的に膨らみ得るため、理論上の見通しは良くなっても、実装ではどこまで展開するかの設計が重要です。

6782 字

読む →

AI研究 2026-03-17

ThinkStream：動画を見ながら考え、必要な瞬間だけ答えるストリーミング映像推論

ThinkStreamは、動画を小さな塊ごとに受け取りながら短い推論を更新し、答えるべき瞬間だけ応答する Watch–Think–Speak 方式を導入しました。中核は、途中の推論トークンを意味圧縮された記憶として残す RCSM と、正答・出力形式・応答タイミングを同時に学習する RLVR です。 OVO-Benchで平均59.66、StreamingBench Real-Timeで平均75.00を達成し、長い動画でも推論遅延を0.5秒未満に抑えながら既存のオンライン系モデルを上回りました。

5898 字

読む →

AI研究 2026-03-17

顔・行動・音声をどう混ぜると感情が読めるか：ABAW 競技で試した感情価・覚醒度推定の実践設計

自然環境下での感情推定では、顔だけ、音声だけ、行動だけでは取りこぼしが大きい。提案手法は顔、行動、音声の3モダリティを組み合わせ、valence と arousal を連続値で推定する競技向けマルチモーダル構成です。行動側では Qwen3-VL-4B-Instruct から得た行動記述に寄った埋め込み表現を Mamba で時間モデリングし、音声側では WavLM-Large に口の開き方を使ったモダリティ横断フィルタリングを組み合わせています。融合は指向付きクロスモーダルMixture-of-Experts と信頼度考慮型の音声・映像融合の 2 系統で比較します。 Aff-Wild2 の開発セットでは、単体の顔モデル平均一致相関係数（CCC） 0.6189 に対し、3 モダリティ融合で 0.6487、さらに RAA-V では 0.6576 まで向上しました。大きな新理論というより、信頼度の違う情報源をどう役割分担させるかで性能を押し上げた実装論文です。

6927 字

読む →

AI研究 2026-03-17

FECBF：多機 UAV の衝突回避で CBF-QP が詰む原因を「内部非両立」と捉え直し、実際に解ける方向へ押し戻す

多数の UAV が密集すると、Control Barrier Function による安全制約は理屈上正しくても、制約同士が内部で食い違い、CBF-QP が解なしになることがあります。提案手法 FECBF は、まず複数 CBF 制約の internal compatibility を解析し、そこから導かれる sign-consistency 条件を QP に追加して、制約同士の衝突を起こしにくくします。 50・100・150 機のシミュレーションでは既存法より高い Success Rate と低い Infeasibility Count を示し、遅延付き条件や実機実験でも有効性を確認しています。

5610 字

読む →

AI研究 2026-03-17

VoxelHound：四脚ロボットのための全周・マルチモーダル占有予測を現実環境で成立させる

車載前提の占有予測は、低い視点、高い揺れ、遮蔽、照明変化が激しい四脚ロボット環境ではそのまま使いにくく、しかも全周画像と複数センサを同時に扱う実データ基盤が不足していました。提案は二本立てで、まず 360 度パノラマ・LiDAR・熱・偏光をそろえた PanoMMOcc データセットを整備し、次に姿勢揺れ補償 VJC と情報融合 MIPF を備えた VoxelHound を導入しています。 PanoMMOcc 上で VoxelHound は 23.34% mIoU を達成し、同条件の比較法を上回りました。特に C+L+T+P の全モーダル構成は、照明変化や複雑な境界での頑健性を押し上げています。

5638 字

読む →

AI研究 2026-03-17

FDeID-Toolbox：顔匿名化研究を再現可能に比較するための統合ツールボックス

顔匿名化は、本人識別を消しながら年齢・性別・表情・ランドマーク・rPPG などの有用属性を残す必要があり、プライバシー・有用性・画質を同時に評価しなければなりませんが、従来研究は実装も評価条件もばらばらでした。 FDeID-Toolbox は、6つの主要データセット、17手法、統一済みの前処理・推論・後処理・評価をひとつの枠組みにまとめ、顔匿名化研究を再現可能に比較できる基盤として設計されています。統一条件で再実装した結果、強いプライバシーと高い有用性と高い画質を同時に満たす単独手法は見つからず、手法は明確なトレードオフの領域に分かれること、さらに組み合わせ設計が新たな探索対象になることが示されました。

5735 字

読む →

AI研究 2026-03-17

DecoVLN：観測・推論・補正を分離して長距離の視覚言語ナビゲーションを安定化する

視覚言語ナビゲーションでは、長い指示に従って移動する間に観測履歴が膨らみ、しかも途中の小さな行動ミスが累積して大きな逸脱へつながるため、長期記憶と誤り修正の両方がボトルネックになります。 DecoVLN は、観測と推論を分離したうえで、指示との関連性・見た目の多様性・時間的な広がりを同時に見る適応的メモリ精製と、trusted region 内の状態行動対だけを集める補正学習を組み合わせます。 R2R と RxR の Val-Unseen で同条件の既存法を上回り、R2R では SR 56.3、SPL 50.5、RxR では SR 54.2、SPL 46.3、nDTW 63.5 を達成し、実環境デモでも頑健性を示しました。

5961 字

読む →

生成AI研究を、要点から追う。

最新の記事

TerraLingua：LLMどうしの社会に文化の蓄積は生まれるのかを測る生態系実験基盤

FedBPrompt：背景の紛れと視点ずれを、身体分布を意識した視覚プロンプトで抑える連合ドメイン汎化ReID

Stake the Points：意味アンカーで保持知識の構造を守るインスタンス単位機械アンラーニング

ODRL政策比較の本丸：複雑な権利ルールを正規化して「同じか」「含むか」を機械的に判定する

ThinkStream：動画を見ながら考え、必要な瞬間だけ答えるストリーミング映像推論

顔・行動・音声をどう混ぜると感情が読めるか：ABAW 競技で試した感情価・覚醒度推定の実践設計

FECBF：多機 UAV の衝突回避で CBF-QP が詰む原因を「内部非両立」と捉え直し、実際に解ける方向へ押し戻す

VoxelHound：四脚ロボットのための全周・マルチモーダル占有予測を現実環境で成立させる

FDeID-Toolbox：顔匿名化研究を再現可能に比較するための統合ツールボックス

DecoVLN：観測・推論・補正を分離して長距離の視覚言語ナビゲーションを安定化する

生成AI研究を、要点から追う。

最新の記事

TerraLingua：LLMどうしの社会に文化の蓄積は生まれるのかを測る生態系実験基盤

FedBPrompt：背景の紛れと視点ずれを、身体分布を意識した視覚プロンプトで抑える連合ドメイン汎化ReID

Stake the Points：意味アンカーで保持知識の構造を守るインスタンス単位機械アンラーニング

ODRL政策比較の本丸：複雑な権利ルールを正規化して「同じか」「含むか」を機械的に判定する

ThinkStream：動画を見ながら考え、必要な瞬間だけ答えるストリーミング映像推論

顔・行動・音声をどう混ぜると感情が読めるか：ABAW 競技で試した 感情価・覚醒度 推定の実践設計

FECBF：多機 UAV の衝突回避で CBF-QP が詰む原因を「内部非両立」と捉え直し、実際に解ける方向へ押し戻す

VoxelHound：四脚ロボットのための全周・マルチモーダル占有予測を現実環境で成立させる

FDeID-Toolbox：顔匿名化研究を再現可能に比較するための統合ツールボックス

DecoVLN：観測・推論・補正を分離して長距離の視覚言語ナビゲーションを安定化する

顔・行動・音声をどう混ぜると感情が読めるか：ABAW 競技で試した感情価・覚醒度推定の実践設計