月別アーカイブ: 2025年3月

Adaptive Keyframe Sampling for Long Video Understanding

投稿日: 2025年3月3日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）は、視覚入力をコンテキストとして大 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Back to the Future Cyclopean Stereo: a human perception approach unifying deep and geometric constraints

投稿日: 2025年3月3日作成者: jarxiv

要約深さの不連続性と閉塞を組み込んだシクロピアンアイモデルで見られるように、分 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Efficient and Context-Aware Label Propagation for Zero-/Few-Shot Training-Free Adaptation of Vision-Language Model

投稿日: 2025年3月3日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、さまざまな下流タスクに取り組むために、大規 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

投稿日: 2025年3月3日作成者: jarxiv

要約拡散ベースの画像生成の大幅な進歩にもかかわらず、被験者主導の生成と命令ベー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AutoComb: Automated Comb Sign Detector for 3D CTE Scans

投稿日: 2025年3月3日作成者: jarxiv

要約コームサインは、複数の胃腸疾患を検出するための重要なイメージングバイオマー … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

DELTA: Dense Efficient Long-range 3D Tracking for any video

投稿日: 2025年3月3日作成者: jarxiv

要約特に長いシーケンスにわたるピクセルレベルの精度を目指している場合、単眼ビデ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Unsupervised Parameter Efficient Source-free Post-pretraining

投稿日: 2025年3月3日作成者: jarxiv

要約 NLPでの成功に続いて、最高のビジョンモデルは現在、10億パラメーターの範 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos

投稿日: 2025年3月3日作成者: jarxiv

要約テキストからビデオへの生成は、拡散モデルの出現により有望な進歩を実証してい … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

How far can we go with ImageNet for Text-to-Image generation?

投稿日: 2025年3月3日作成者: jarxiv

要約最近のテキストからイメージ（T2I）生成モデルは、品質よりもデータ量を優先 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TomoSelfDEQ: Self-Supervised Deep Equilibrium Learning for Sparse-Angle CT Reconstruction

投稿日: 2025年3月3日作成者: jarxiv

要約ディープラーニングは、コンピューター断層撮影（CT）を含む、イメージングで … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

月別アーカイブ: 2025年3月

Adaptive Keyframe Sampling for Long Video Understanding

Back to the Future Cyclopean Stereo: a human perception approach unifying deep and geometric constraints

Efficient and Context-Aware Label Propagation for Zero-/Few-Shot Training-Free Adaptation of Vision-Language Model

MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

AutoComb: Automated Comb Sign Detector for 3D CTE Scans

DELTA: Dense Efficient Long-range 3D Tracking for any video

Unsupervised Parameter Efficient Source-free Post-pretraining

Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos

How far can we go with ImageNet for Text-to-Image generation?

TomoSelfDEQ: Self-Supervised Deep Equilibrium Learning for Sparse-Angle CT Reconstruction

最近の投稿

最近のコメント

アーカイブ

カテゴリー