-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年6月
Task Me Anything
要約 大規模なマルチモーダル言語モデル (MLM) のベンチマークは、特定の機能 … 続きを読む
A Brief Survey on Leveraging Large Scale Vision Models for Enhanced Robot Grasping
要約 ロボットによる把持は、現実世界のシナリオでは困難な運動タスクを提示しており … 続きを読む
Mix-Domain Contrastive Learning for Unpaired H&E-to-IHC Stain Translation
要約 H&E から IHC への染色変換技術は、特に医療専門家が不足し … 続きを読む
PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models
要約 Text-to-image (T2I) モデルは、テキスト プロンプトから … 続きを読む
カテゴリー: cs.CV
PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models はコメントを受け付けていません
Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA
要約 広い時間間隔にまたがる長い形式のビデオは、情報の冗長性が高く、関連性の低い … 続きを読む
カテゴリー: cs.CV
Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA はコメントを受け付けていません
Ovis: Structural Embedding Alignment for Multimodal Large Language Model
要約 現在のマルチモーダル大規模言語モデル (MLLM) は通常、MLP などの … 続きを読む
Faces of Experimental Pain: Transferability of Deep Learned Heat Pain Features to Electrical Pain
要約 痛みのデータセットのサイズが限られていることが、痛みを認識するための堅牢な … 続きを読む
カテゴリー: cs.CV
Faces of Experimental Pain: Transferability of Deep Learned Heat Pain Features to Electrical Pain はコメントを受け付けていません
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning
要約 近年、命令調整されたラージ マルチモーダル モデル (LMM) は、画像キ … 続きを読む
VideoLLM-online: Online Video Large Language Model for Streaming Video
要約 最近の大規模言語モデルはビジョン機能で強化されており、画像、ビデオ、および … 続きを読む
カテゴリー: cs.CV
VideoLLM-online: Online Video Large Language Model for Streaming Video はコメントを受け付けていません
MegaScenes: Scene-Level View Synthesis at Scale
要約 シーンレベルのノベルビュー合成 (NVS) は、多くのビジョンおよびグラフ … 続きを読む
カテゴリー: cs.CV
MegaScenes: Scene-Level View Synthesis at Scale はコメントを受け付けていません