脚本こそが必要な全て:長期的な対話から映画風動画を生成するためのエージェントフレームワーク
最近の動画生成モデルは単純なプロンプトから美しい映像を作成できますが、対話のような抽象的概念から一貫した長編物語を作るのは困難でした。本研究では、この「意味的ギャップ」を埋めるため、対話を詳細な撮影脚本に変換するScripterAgentと、それを基に動画生成を指揮するDirectorAgentを組み合わせた新たなフレームワークを提案します。
最新の論文記事を読みやすく整理。カテゴリとタグで横断して探せます。
運営: Cognitive Research Labs(CRL)
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
最近の動画生成モデルは単純なプロンプトから美しい映像を作成できますが、対話のような抽象的概念から一貫した長編物語を作るのは困難でした。本研究では、この「意味的ギャップ」を埋めるため、対話を詳細な撮影脚本に変換するScripterAgentと、それを基に動画生成を指揮するDirectorAgentを組み合わせた新たなフレームワークを提案します。
画像が文字通りの描写を超えて意味を伝える「視覚的換喩(Visual Metonymy)」に関する初の計算的調査を行った研究である。記号論に基づいたパイプラインを提案し、2,000件の多肢選択問題からなるデータセット「ViMET」を構築。
バングラ語音声認識において、ノイズや話者の多様性に対応する「BanglaRobustNet」が提案された。Wav2Vec-BERTを基盤に、拡散ベースのノイズ除去と話者情報を考慮した注意機構を統合したハイブリッドモデルである。Mozilla Common Voiceなどでの評価により、ベースラインと比較してWERとCE
幾何学問題において、中小規模のマルチモーダル言語モデル(MSLM)は視覚理解と数学的推論の連携に課題を抱えています。本研究では、図形から空間情報を抽出して記号推論に組み込む「SpatialMath」を提案。新データセットMATHVERSE-PLUSも構築し、視覚集約的な問題でベースラインを最大10ポイント上回る精度を達成しました。
Pricing