-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年1月
Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key
要約 幻覚は依然として大規模視覚言語モデル (LVLM) にとって大きな課題です … 続きを読む
カテゴリー: cs.CV
Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key はコメントを受け付けていません
Practical Continual Forgetting for Pre-trained Vision Models
要約 プライバシーとセキュリティの懸念から、事前トレーニングされた視覚モデルから … 続きを読む
FLOL: Fast Baselines for Real-World Low-Light Enhancement
要約 低照度画像強化 (LLIE) は、コンピューテーショナル フォトグラフィー … 続きを読む
A Simple Aerial Detection Baseline of Multimodal Language Models
要約 生成的な事前トレーニング済み Transformer に基づくマルチモーダ … 続きを読む
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
要約 生成モデルは、データ、計算リソース、モデル サイズの増加によるトレーニング … 続きを読む
カテゴリー: cs.CV
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps はコメントを受け付けていません
ComplexVAD: Detecting Interaction Anomalies in Video
要約 既存のビデオ異常検出データセットは、オブジェクト間の相互作用によって発生す … 続きを読む
カテゴリー: cs.CV
ComplexVAD: Detecting Interaction Anomalies in Video はコメントを受け付けていません
MAMo: Leveraging Memory and Attention for Monocular Video Depth Estimation
要約 我々は、単眼ビデオ深度推定のための新しい記憶および注意フレームワークである … 続きを読む
カテゴリー: cs.CV
MAMo: Leveraging Memory and Attention for Monocular Video Depth Estimation はコメントを受け付けていません
FutureDepth: Learning to Predict the Future Improves Video Depth Estimation
要約 この論文では、新しいビデオ奥行き推定アプローチ、FutureDepth を … 続きを読む
カテゴリー: cs.CV
FutureDepth: Learning to Predict the Future Improves Video Depth Estimation はコメントを受け付けていません
SRE-Conv: Symmetric Rotation Equivariant Convolution for Biomedical Image Classification
要約 畳み込みニューラル ネットワーク (CNN) は、コンピューター ビジョン … 続きを読む
Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues
要約 私たちの目的は、連続的な手話を音声言語テキストに翻訳することです。 人間の … 続きを読む
カテゴリー: cs.CV
Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues はコメントを受け付けていません