-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年3月
Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization
要約 視覚的に魅力的な画像を生成することは、最新のテキストからイメージまでの生成 … 続きを読む
カテゴリー: cs.CV
Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization はコメントを受け付けていません
Attention IoU: Examining Biases in CelebA using Attention Maps
要約 コンピュータービジョンモデルは、幅広いデータセットとタスクにわたってバイア … 続きを読む
Towards Online Multi-Modal Social Interaction Understanding
要約 マルチモーダルソーシャルインタラクション理解(MMSI)は、人間とロボット … 続きを読む
カテゴリー: cs.CV
Towards Online Multi-Modal Social Interaction Understanding はコメントを受け付けていません
FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs
要約 1時間のビデオでの情報検索は、特に目的の情報がフレームの小さなサブセット内 … 続きを読む
カテゴリー: cs.CV
FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs はコメントを受け付けていません
SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation
要約 参照ビデオオブジェクトセグメンテーション(RVO)は、自然言語表現に依存し … 続きを読む
カテゴリー: cs.CV
SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation はコメントを受け付けていません
Unpaired Translation of Chest X-ray Images for Lung Opacity Diagnosis via Adaptive Activation Masks and Cross-Domain Alignment
要約 胸部X線X線写真(CXR)は、心肺疾患の診断と監視において極めて重要な役割 … 続きを読む
GENIUS: A Generative Framework for Universal Multimodal Search
要約 生成検索は、クエリに基づいてターゲットデータの識別子(ID)を生成する情報 … 続きを読む
Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation
要約 SORAは、シングルシーンビデオ生成において、拡散トランス(DIT)アーキ … 続きを読む
カテゴリー: cs.CV
Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation はコメントを受け付けていません
Visuo-Tactile Object Pose Estimation for a Multi-Finger Robot Hand with Low-Resolution In-Hand Tactile Sensing
要約 把握されたオブジェクトの正確な3Dポーズ推定は、ロボットがアセンブリまたは … 続きを読む
MambaVision: A Hybrid Mamba-Transformer Vision Backbone
要約 視覚アプリケーションに合わせて特別に調整された、新しいハイブリッドマンバト … 続きを読む
カテゴリー: cs.CV
MambaVision: A Hybrid Mamba-Transformer Vision Backbone はコメントを受け付けていません