cs.AI」カテゴリーアーカイブ

CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes

要約 因果関係のあるビデオ質問応答 (QA) はますます関心を集めていますが、既 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes はコメントを受け付けていません

Make It Count: Text-to-Image Generation with an Accurate Number of Objects

要約 テキストから画像への拡散モデルは前例のない成功を収めましたが、テキストを使 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | Make It Count: Text-to-Image Generation with an Accurate Number of Objects はコメントを受け付けていません

Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding

要約 視覚言語モデルの最近の進歩により、ビデオの理解が大幅に促進されました。 た … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding はコメントを受け付けていません

VideoGUI: A Benchmark for GUI Automation from Instructional Videos

要約 グラフィカル ユーザー インターフェイス (GUI) の自動化は、コンピュ … 続きを読む

カテゴリー: cs.AI, cs.CV | VideoGUI: A Benchmark for GUI Automation from Instructional Videos はコメントを受け付けていません

VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

要約 マルチモーダル大規模モデル (MLLM) の急速な進歩は、視覚と言語を融合 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models はコメントを受け付けていません

On Softmax Direct Preference Optimization for Recommendation

要約 レコメンダー システムは、ユーザーの好みのデータに基づいてパーソナライズさ … 続きを読む

カテゴリー: cs.AI, cs.IR | On Softmax Direct Preference Optimization for Recommendation はコメントを受け付けていません

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

要約 4M や UnifiedIO などの現在のマルチモーダルおよびマルチタスク … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | 4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities はコメントを受け付けていません

Parameter-Efficient Active Learning for Foundational models

要約 基本的なビジョン トランスフォーマー モデルは、多くのビジョン タスクで数 … 続きを読む

カテゴリー: cs.AI, cs.CV | Parameter-Efficient Active Learning for Foundational models はコメントを受け付けていません

FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

要約 FinTral は、Mistral-7b モデルに基づいて構築され、財務分 … 続きを読む

カテゴリー: cs.AI, cs.CL | FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models はコメントを受け付けていません

RVT-2: Learning Precise Manipulation from Few Demonstrations

要約 この研究では、言語命令が与えられた複数の 3D 操作タスクを解決できるロボ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | RVT-2: Learning Precise Manipulation from Few Demonstrations はコメントを受け付けていません