-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning
要約 3D大手言語モデル(3DLLMS)の最近の進歩は、3D現実世界の汎用エージ … 続きを読む
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
要約 元のSiglipの成功に基づいて構築された新しい多言語ビジョン言語エンコー … 続きを読む
A Survey on Text-Driven 360-Degree Panorama Generation
要約 テキスト駆動型の360度のパノラマ生成の出現は、テキストの説明から直接36 … 続きを読む
FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis
要約 基礎モデルは、医療ドメインでますます効果的になりつつあり、下流のタスクに容 … 続きを読む
Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison
要約 視覚的な質問応答(VQA)は、コンピュータービジョンと自然言語処理の交差点 … 続きを読む
Improving the Diffusability of Autoencoders
要約 潜在的な拡散モデルは、高品質の画像とビデオを生成するための主要なアプローチ … 続きを読む
LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models
要約 既存の大きなビジョン言語モデル(LVLMS)は、最大128Kの視覚的および … 続きを読む
Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework
要約 マルチモーダル検索の高等世代(MRAG)は、外部の知識を統合することにより … 続きを読む
CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents
要約 セマンティックコード検索、特定の自然言語クエリに一致するコードの取得は、ソ … 続きを読む
Generative Predictive Control: Flow Matching Policies for Dynamic and Difficult-to-Demonstrate Tasks
要約 生成制御ポリシーは最近、ロボット工学の大きな進歩を解き放ちました。 これら … 続きを読む