-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年4月
Text-Based Reasoning About Vector Graphics
要約 大規模なマルチモーダル モデルは、広範な視覚言語のベンチマークでは優れてい … 続きを読む
RhythmMamba: Fast Remote Physiological Measurement with Arbitrary Length Videos
要約 リモート光電容積脈波計 (rPPG) は、顔のビデオから生理学的信号を検出 … 続きを読む
カテゴリー: cs.CV
RhythmMamba: Fast Remote Physiological Measurement with Arbitrary Length Videos はコメントを受け付けていません
Influencer Backdoor Attack on Semantic Segmentation
要約 少数の汚染されたサンプルがディープ ニューラル ネットワークのトレーニング … 続きを読む
カテゴリー: cs.CV
Influencer Backdoor Attack on Semantic Segmentation はコメントを受け付けていません
Flying With Photons: Rendering Novel Views of Propagating Light
要約 我々は、斬新な移動カメラ視点からシーン内を伝播する光のビデオを合成すること … 続きを読む
Multi-person 3D pose estimation from unlabelled data
要約 その多数のアプリケーションにより、複数人の 3D 姿勢推定が非常に影響力の … 続きを読む
Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions
要約 ゼロショット参照表現の理解は、提供されたテキスト プロンプトに対応する画像 … 続きを読む
カテゴリー: cs.CV
Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions はコメントを受け付けていません
Reconstructing Hand-Held Objects in 3D
要約 手で操作されるオブジェクト (マニピュランダなど) は、実際の RGB 画 … 続きを読む
カテゴリー: cs.CV
Reconstructing Hand-Held Objects in 3D はコメントを受け付けていません
Can Feedback Enhance Semantic Grounding in Large Vision-Language Models?
要約 視覚言語モデル (VLM) におけるセマンティックグラウンディング能力の強 … 続きを読む
カテゴリー: cs.CV
Can Feedback Enhance Semantic Grounding in Large Vision-Language Models? はコメントを受け付けていません
MoReVQA: Exploring Modular Reasoning Models for Video Question Answering
要約 このペーパーでは、分解された多段階のモジュール推論フレームワークを介してビ … 続きを読む
InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
要約 Large Vision-Language Model (LVLM) 分野 … 続きを読む