-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes
要約 因果関係のあるビデオ質問応答 (QA) はますます関心を集めていますが、既 … 続きを読む
Make It Count: Text-to-Image Generation with an Accurate Number of Objects
要約 テキストから画像への拡散モデルは前例のない成功を収めましたが、テキストを使 … 続きを読む
Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding
要約 視覚言語モデルの最近の進歩により、ビデオの理解が大幅に促進されました。 た … 続きを読む
VideoGUI: A Benchmark for GUI Automation from Instructional Videos
要約 グラフィカル ユーザー インターフェイス (GUI) の自動化は、コンピュ … 続きを読む
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models
要約 マルチモーダル大規模モデル (MLLM) の急速な進歩は、視覚と言語を融合 … 続きを読む
On Softmax Direct Preference Optimization for Recommendation
要約 レコメンダー システムは、ユーザーの好みのデータに基づいてパーソナライズさ … 続きを読む
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
要約 4M や UnifiedIO などの現在のマルチモーダルおよびマルチタスク … 続きを読む
Parameter-Efficient Active Learning for Foundational models
要約 基本的なビジョン トランスフォーマー モデルは、多くのビジョン タスクで数 … 続きを読む
FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models
要約 FinTral は、Mistral-7b モデルに基づいて構築され、財務分 … 続きを読む
RVT-2: Learning Precise Manipulation from Few Demonstrations
要約 この研究では、言語命令が与えられた複数の 3D 操作タスクを解決できるロボ … 続きを読む