「cs.AI」カテゴリーアーカイブ

CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes

投稿日: 2024年6月17日作成者: jarxiv

要約因果関係のあるビデオ質問応答 (QA) はますます関心を集めていますが、既 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Make It Count: Text-to-Image Generation with an Accurate Number of Objects

投稿日: 2024年6月17日作成者: jarxiv

要約テキストから画像への拡散モデルは前例のない成功を収めましたが、テキストを使 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding

投稿日: 2024年6月17日作成者: jarxiv

要約視覚言語モデルの最近の進歩により、ビデオの理解が大幅に促進されました。た … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

VideoGUI: A Benchmark for GUI Automation from Instructional Videos

投稿日: 2024年6月17日作成者: jarxiv

要約グラフィカルユーザーインターフェイス (GUI) の自動化は、コンピュ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

投稿日: 2024年6月17日作成者: jarxiv

要約マルチモーダル大規模モデル (MLLM) の急速な進歩は、視覚と言語を融合 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

On Softmax Direct Preference Optimization for Recommendation

投稿日: 2024年6月17日作成者: jarxiv

要約レコメンダーシステムは、ユーザーの好みのデータに基づいてパーソナライズさ … 続きを読む →

カテゴリー: cs.AI, cs.IR | コメントを受け付けていません

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

投稿日: 2024年6月17日作成者: jarxiv

要約 4M や UnifiedIO などの現在のマルチモーダルおよびマルチタスク … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Parameter-Efficient Active Learning for Foundational models

投稿日: 2024年6月17日作成者: jarxiv

要約基本的なビジョントランスフォーマーモデルは、多くのビジョンタスクで数 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

投稿日: 2024年6月17日作成者: jarxiv

要約 FinTral は、Mistral-7b モデルに基づいて構築され、財務分 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

RVT-2: Learning Precise Manipulation from Few Demonstrations

投稿日: 2024年6月14日作成者: jarxiv

要約この研究では、言語命令が与えられた複数の 3D 操作タスクを解決できるロボ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes

Make It Count: Text-to-Image Generation with an Accurate Number of Objects

Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding

VideoGUI: A Benchmark for GUI Automation from Instructional Videos

VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

On Softmax Direct Preference Optimization for Recommendation

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

Parameter-Efficient Active Learning for Foundational models

FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

RVT-2: Learning Precise Manipulation from Few Demonstrations

最近の投稿

最近のコメント

アーカイブ

カテゴリー