-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Understanding Long Videos with Multimodal Language Models
要約 大規模言語モデル (LLM) により、最近の LLM ベースのアプローチが … 続きを読む
カテゴリー: cs.CV
Understanding Long Videos with Multimodal Language Models はコメントを受け付けていません
SAMPart3D: Segment Any Part in 3D Objects
要約 3D パーツのセグメンテーションは、3D 認識において重要かつ困難なタスク … 続きを読む
カテゴリー: cs.CV
SAMPart3D: Segment Any Part in 3D Objects はコメントを受け付けていません
Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags
要約 マルチモーダル大規模言語モデル (MLLM) の一般的な視覚的命令追従能力 … 続きを読む
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
要約 命令ガイド付き画像編集方法は、自動的に合成された、または手動で注釈が付けら … 続きを読む
DLCR: A Generative Data Expansion Framework via Diffusion for Clothes-Changing Person Re-ID
要約 最近示された生成拡散モデルの強みを考慮して、未解決の研究課題は \text … 続きを読む
カテゴリー: cs.CV
DLCR: A Generative Data Expansion Framework via Diffusion for Clothes-Changing Person Re-ID はコメントを受け付けていません
Grounding Video Models to Actions through Goal Conditioned Exploration
要約 大量のインターネット ビデオで事前トレーニングされた大規模なビデオ モデル … 続きを読む
Learning from Limited and Imperfect Data
要約 ディープ ニューラル ネットワークのトレーニングに使用されるデータセット … 続きを読む
カテゴリー: cs.CV
Learning from Limited and Imperfect Data はコメントを受け付けていません
INQUIRE: A Natural World Text-to-Image Retrieval Benchmark
要約 INQUIRE は、専門家レベルのクエリでマルチモーダルなビジョン言語モデ … 続きを読む
Watermark Anything with Localized Messages
要約 画像の透かし手法は、小さな透かし領域を処理するように調整されていません。 … 続きを読む