月別アーカイブ: 2025年1月

Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key

要約 幻覚は依然として大規模視覚言語モデル (LVLM) にとって大きな課題です … 続きを読む

カテゴリー: cs.CV | Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key はコメントを受け付けていません

Practical Continual Forgetting for Pre-trained Vision Models

要約 プライバシーとセキュリティの懸念から、事前トレーニングされた視覚モデルから … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Practical Continual Forgetting for Pre-trained Vision Models はコメントを受け付けていません

FLOL: Fast Baselines for Real-World Low-Light Enhancement

要約 低照度画像強化 (LLIE) は、コンピューテーショナル フォトグラフィー … 続きを読む

カテゴリー: cs.CV, cs.RO | FLOL: Fast Baselines for Real-World Low-Light Enhancement はコメントを受け付けていません

A Simple Aerial Detection Baseline of Multimodal Language Models

要約 生成的な事前トレーニング済み Transformer に基づくマルチモーダ … 続きを読む

カテゴリー: cs.AI, cs.CV | A Simple Aerial Detection Baseline of Multimodal Language Models はコメントを受け付けていません

Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps

要約 生成モデルは、データ、計算リソース、モデル サイズの増加によるトレーニング … 続きを読む

カテゴリー: cs.CV | Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps はコメントを受け付けていません

ComplexVAD: Detecting Interaction Anomalies in Video

要約 既存のビデオ異常検出データセットは、オブジェクト間の相互作用によって発生す … 続きを読む

カテゴリー: cs.CV | ComplexVAD: Detecting Interaction Anomalies in Video はコメントを受け付けていません

MAMo: Leveraging Memory and Attention for Monocular Video Depth Estimation

要約 我々は、単眼ビデオ深度推定のための新しい記憶および注意フレームワークである … 続きを読む

カテゴリー: cs.CV | MAMo: Leveraging Memory and Attention for Monocular Video Depth Estimation はコメントを受け付けていません

FutureDepth: Learning to Predict the Future Improves Video Depth Estimation

要約 この論文では、新しいビデオ奥行き推定アプローチ、FutureDepth を … 続きを読む

カテゴリー: cs.CV | FutureDepth: Learning to Predict the Future Improves Video Depth Estimation はコメントを受け付けていません

SRE-Conv: Symmetric Rotation Equivariant Convolution for Biomedical Image Classification

要約 畳み込みニューラル ネットワーク (CNN) は、コンピューター ビジョン … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | SRE-Conv: Symmetric Rotation Equivariant Convolution for Biomedical Image Classification はコメントを受け付けていません

Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues

要約 私たちの目的は、連続的な手話を音声言語テキストに翻訳することです。 人間の … 続きを読む

カテゴリー: cs.CV | Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues はコメントを受け付けていません