月別アーカイブ: 2025年1月

Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key

投稿日: 2025年1月17日作成者: jarxiv

要約幻覚は依然として大規模視覚言語モデル (LVLM) にとって大きな課題です … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Practical Continual Forgetting for Pre-trained Vision Models

投稿日: 2025年1月17日作成者: jarxiv

要約プライバシーとセキュリティの懸念から、事前トレーニングされた視覚モデルから … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

FLOL: Fast Baselines for Real-World Low-Light Enhancement

投稿日: 2025年1月17日作成者: jarxiv

要約低照度画像強化 (LLIE) は、コンピューテーショナルフォトグラフィー … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

A Simple Aerial Detection Baseline of Multimodal Language Models

投稿日: 2025年1月17日作成者: jarxiv

要約生成的な事前トレーニング済み Transformer に基づくマルチモーダ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps

投稿日: 2025年1月17日作成者: jarxiv

要約生成モデルは、データ、計算リソース、モデルサイズの増加によるトレーニング … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ComplexVAD: Detecting Interaction Anomalies in Video

投稿日: 2025年1月17日作成者: jarxiv

要約既存のビデオ異常検出データセットは、オブジェクト間の相互作用によって発生す … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MAMo: Leveraging Memory and Attention for Monocular Video Depth Estimation

投稿日: 2025年1月17日作成者: jarxiv

要約我々は、単眼ビデオ深度推定のための新しい記憶および注意フレームワークである … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FutureDepth: Learning to Predict the Future Improves Video Depth Estimation

投稿日: 2025年1月17日作成者: jarxiv

要約この論文では、新しいビデオ奥行き推定アプローチ、FutureDepth を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SRE-Conv: Symmetric Rotation Equivariant Convolution for Biomedical Image Classification

投稿日: 2025年1月17日作成者: jarxiv

要約畳み込みニューラルネットワーク (CNN) は、コンピュータービジョン … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues

投稿日: 2025年1月17日作成者: jarxiv

要約私たちの目的は、連続的な手話を音声言語テキストに翻訳することです。人間の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年1月

Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key

Practical Continual Forgetting for Pre-trained Vision Models

FLOL: Fast Baselines for Real-World Low-Light Enhancement

A Simple Aerial Detection Baseline of Multimodal Language Models

Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps

ComplexVAD: Detecting Interaction Anomalies in Video

MAMo: Leveraging Memory and Attention for Monocular Video Depth Estimation

FutureDepth: Learning to Predict the Future Improves Video Depth Estimation

SRE-Conv: Symmetric Rotation Equivariant Convolution for Biomedical Image Classification

Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues

最近の投稿

最近のコメント

アーカイブ

カテゴリー