MURAD: 大規模な多領域統合型アラビア語逆引き辞書データセット
TL;DRアラビア語の語彙と定義を紐付けた大規模データセット「MURAD」が公開されました。信頼できる出典から抽出された96,243組の単語と定義のペアを含み、言語学やイスラム研究、科学、工学など幅広い分野を網羅しています。逆引き辞書の構築や意味検索、教育ツールの開発など、アラビア語の自然言語処理研究を促進するリソースです。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DRアラビア語の語彙と定義を紐付けた大規模データセット「MURAD」が公開されました。信頼できる出典から抽出された96,243組の単語と定義のペアを含み、言語学やイスラム研究、科学、工学など幅広い分野を網羅しています。逆引き辞書の構築や意味検索、教育ツールの開発など、アラビア語の自然言語処理研究を促進するリソースです。
TL;DRMURADは、96,243組の単語と定義のペアを含む、アラビア語の大規模な公開語彙データセットです。信頼できる参考文献や教育資料から、言語学、イスラム研究、数学、工学など多岐にわたる分野の用語を収集しています。逆引き辞書の構築や意味検索、教育ツールの開発を支援し、アラビア語の自然言語処理の発展を目指しています。
TL;DR企業の複数のデータベース(DB)環境において、自然言語クエリを適切なDBに振り分ける「ルーティング」問題に取り組んだ研究です。既存のデータセットを拡張して現実的なベンチマークを作成し、スキーマの網羅性や構造的接続性を考慮した推論駆動型のリランキング戦略を提案。埋め込み表現のみやLLMへの直接入力よりも高い性能を示しました。
TL;DR現代の情報検索が直面する複雑な論理要件に対し、従来の検索エンジンでは効率性と表現力の両立が困難でした。本論文は、多項式時間特性を直接評価できる検索言語 $\mathcal{L}_R$ を定義し、計算量クラス $\mathbf{P}$ を捉えることを証明しました。
TL;DR複雑なデータ可視化には、テキストだけでなく参考画像やコード例、反復的な修正が必要です。本研究では、4層の論理ルールでLLMの推論を導くマルチエージェントフレームワーク「MultiVis-Agent」を提案します。1000件超のベンチマーク評価で、既存手法を大幅に上回るタスク完了率99.58%と実行成功率94.56%を達成しました。
TL;DR本研究は、自然言語からSQLを生成するText-to-SQLの精度向上を目指し、PET-SQLを基盤とした新たなパイプライン「SSEV」と、より複雑なタスク向けの「ReCAPAgent-SQL」を提案します。自己改善機能と重み付き多数決投票を組み合わせることで、正解データなしでも高い実行精度を実現し、実用的なデータ分析の敷居を下げます。
Pricing