SONIC-O1: 音声・動画理解におけるマルチモーダル大規模言語モデル評価のための実世界ベンチマーク
TL;DRSONIC-O1は、マルチモーダル大規模言語モデル(MLLM)の音声・動画理解能力を評価するための新しいベンチマークです。13の実世界領域から収集された4,958件の人間による検証済みアノテーションを含み、要約や時間的特定などのタスクを評価します。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DRSONIC-O1は、マルチモーダル大規模言語モデル(MLLM)の音声・動画理解能力を評価するための新しいベンチマークです。13の実世界領域から収集された4,958件の人間による検証済みアノテーションを含み、要約や時間的特定などのタスクを評価します。
TL;DRFlow Matchingモデルの生成速度を向上させるため、軽量なSideNetを活用した「BA-solver」が提案されました。この手法は、凍結されたバックボーンと少数のアンカー速度を用いて中間速度を高精度に補間し、少ないステップ数での高品質な画像生成を可能にします。
TL;DRFlow Matchingモデルの生成速度を向上させる「BA-solver」が提案されました。この手法は、凍結されたバックボーンに軽量なSideNetを追加し、双方向の時間知覚と2つのアンカー速度を用いた補間により、少ないステップ数で高精度な生成を実現します。
TL;DR大規模視覚言語モデルの高速化に用いられる視覚トークン圧縮が、敵対的攻撃への耐性に与える影響を調査した研究です。従来の攻撃手法では圧縮による情報の欠落を考慮できず、堅牢性を過大評価する傾向がありました。提案手法「CAGE」は、圧縮プロセスを考慮した最適化により、効率的なモデルにおける真の脆弱性を明らかにします。
TL;DR大規模視覚言語モデルの高速化に用いられる視覚トークン圧縮が、敵対的攻撃への耐性に与える影響を調査した研究です。従来の攻撃手法は圧縮工程を考慮していないため、モデルの堅牢性を過大評価する傾向があります。
TL;DR本研究は、数値データと可視化画像を統合して時系列データを理解するマルチモーダルLLM「MADI」を提案しています。パッチレベルの整列、共通・固有情報の分離、重要なトークンの強調という3つの手法を導入し、従来モデルが抱えていた情報の混在や不整合を解消しました。
TL;DR本研究は、時系列データの数値情報と可視化プロットを統合して理解・推論を行うマルチモーダルLLM「MADI」を提案します。パッチレベルの整列、共通・固有セマンティクスの分離、重要なトークンの強調という3つの手法により、モーダル間の不一致や情報の絡まりを解消します。
TL;DR統一マルチモーダルモデル(UMM)において、生成能力を利用して理解能力を向上させる手法「UniMRG」が提案されました。ピクセル再構成、深度、セグメンテーションといった複数の表現を生成する補助タスクを導入することで、視覚情報の深い理解を促します。
TL;DR深層学習モデルが未知のデータに対して高い確信度を持つ問題を解決するため、最適輸送理論を用いた新たな手法が提案されました。潜在空間における特異な境界付近から「OTIS」と呼ばれる曖昧なサンプルを生成し、学習時にその確信度を抑制します。実験の結果、従来手法を上回る精度で過剰な確信度を抑制できることが示されました。
TL;DR自動運転におけるVLMの効率化を目指し、知覚・推論・計画の3要素を複数の教師モデルから小規模モデルへ継承する「Drive-KD」が提案されました。層固有のアテンション信号を利用した知識蒸留と勾配衝突を抑制する手法により、1Bモデルで78Bモデルを凌駕する性能と高い推論効率を両立することに成功しています。
Pricing