-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
要約 空間理解は、ロボットが環境に基づいて根拠のある意思決定を行うための重要な能 … 続きを読む
A Review of Mechanistic Models of Event Comprehension
要約 このレビューでは、談話理解理論から現代の出来事認識フレームワークへの進化を … 続きを読む
CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features
要約 CLIP のようなマルチモーダル エンコーダは、ゼロショット画像分類やクロ … 続きを読む
CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation
要約 新しく提案された Generalized Referring Expres … 続きを読む
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval
要約 テキストから画像への人物検索 (TIPR) の目的は、指定されたテキストの … 続きを読む
Imperceptible Adversarial Examples in the Physical World
要約 ディープラーニングベースのコンピュータービジョンモデルに対するデジタルドメ … 続きを読む
Word4Per: Zero-shot Composed Person Retrieval
要約 特定の人物の検索には大きな社会的利点とセキュリティ上の価値があり、多くの場 … 続きを読む
DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding
要約 この研究では、最大 2,560$\times$2,560 の解像度で画像を … 続きを読む
DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation
要約 ストーリーテリング ビデオ生成 (SVG) は、入力テキスト スクリプトで … 続きを読む
OminiControl: Minimal and Universal Control for Diffusion Transformer
要約 このペーパーでは、画像条件を事前トレーニング済みの拡散変換 (DiT) モ … 続きを読む