-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年7月
CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation
要約 Controllable Image Captioning (CIC) は … 続きを読む
An Evaluation of Continual Learning for Advanced Node Semiconductor Defect Inspection
要約 ディープラーニングベースの半導体欠陥検査は近年注目を集めており、ナノスケー … 続きを読む
NL2Contact: Natural Language Guided 3D Hand-Object Contact Modeling with Diffusion Model
要約 手と物体の物理的接触のモデル化は、不正確な手のポーズを修正し、3D 手と物 … 続きを読む
カテゴリー: cs.CV
NL2Contact: Natural Language Guided 3D Hand-Object Contact Modeling with Diffusion Model はコメントを受け付けていません
RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models
要約 大規模マルチモーダル モデル (LMM) は、さまざまな視覚言語タスクを大 … 続きを読む
Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image
要約 オープンボキャブラリー 3D オブジェクト検出 (OV-3DDet) は、 … 続きを読む
EchoSight: Advancing Visual-Language Models with Wiki Knowledge
要約 知識ベースのビジュアル質問応答 (KVQA) タスクでは、広範な背景知識を … 続きを読む
カテゴリー: cs.CV
EchoSight: Advancing Visual-Language Models with Wiki Knowledge はコメントを受け付けていません
CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference
要約 ビジョン トランスフォーマー (ViT) は、コンピューター ビジョンへの … 続きを読む
GroundUp: Rapid Sketch-Based 3D City Massing
要約 私たちは、都市部の 3D 都市集合体のための初のスケッチベースのアイデア作 … 続きを読む
DiverseDream: Diverse Text-to-3D Synthesis with Augmented Text Embedding
要約 テキストから 3D への合成は、事前トレーニング済みのテキストから画像への … 続きを読む
カテゴリー: cs.CV
DiverseDream: Diverse Text-to-3D Synthesis with Augmented Text Embedding はコメントを受け付けていません
LookupViT: Compressing visual information to a limited number of tokens
要約 ビジョン トランスフォーマー (ViT) は、数多くの業界グレードのビジョ … 続きを読む