「cs.CV」カテゴリーアーカイブ

Aligning Latent Spaces with Flow Priors

投稿日: 2025年6月6日作成者: jarxiv

要約このペーパーでは、流れベースの生成モデルを事前に活用することにより、学習可 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts

投稿日: 2025年6月6日作成者: jarxiv

要約偽情報の拡散は、信頼性が高くスケーラブルな事実確認ソリューションを必要とし … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Spatiotemporal Contrastive Learning for Cross-View Video Localization in Unstructured Off-road Terrains

投稿日: 2025年6月6日作成者: jarxiv

要約 GPSが除外するオフロード環境における堅牢なクロスビュー3-DOFローカリ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

LeanPO: Lean Preference Optimization for Likelihood Alignment in Video-LLMs

投稿日: 2025年6月6日作成者: jarxiv

要約ほとんどのビデオ大規模な言語モデル（ビデオ-LLM）は、優先アライメント手 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Can Foundation Models Generalise the Presentation Attack Detection Capabilities on ID Cards?

投稿日: 2025年6月6日作成者: jarxiv

要約現在、IDカードのプレゼンテーション攻撃検出（PAD）の主な課題の1つは、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos

投稿日: 2025年6月6日作成者: jarxiv

要約 Composed Video Retrieval（COVR）は、クエリビデ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting

投稿日: 2025年6月6日作成者: jarxiv

要約 NERFやGaussian Splatting（GS）を含むニューラルレン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Rectified Point Flow: Generic Point Cloud Pose Estimation

投稿日: 2025年6月6日作成者: jarxiv

要約ペアワイズポイントクラウド登録とマルチパート形状アセンブリを単一の条件付き … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Video World Models with Long-term Spatial Memory

投稿日: 2025年6月6日作成者: jarxiv

要約新しい世界モデルは、カメラの動きやテキストプロンプトなどのアクションに応じ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RaySt3R: Predicting Novel Depth Maps for Zero-Shot Object Completion

投稿日: 2025年6月6日作成者: jarxiv

要約 3D Shape Compleyは、ロボット工学、デジタルツイン再建、およ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Aligning Latent Spaces with Flow Priors

DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts

Spatiotemporal Contrastive Learning for Cross-View Video Localization in Unstructured Off-road Terrains

LeanPO: Lean Preference Optimization for Likelihood Alignment in Video-LLMs

Can Foundation Models Generalise the Presentation Attack Detection Capabilities on ID Cards?

From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos

Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting

Rectified Point Flow: Generic Point Cloud Pose Estimation

Video World Models with Long-term Spatial Memory

RaySt3R: Predicting Novel Depth Maps for Zero-Shot Object Completion

最近の投稿

最近のコメント

アーカイブ

カテゴリー