投稿者「jarxiv」のアーカイブ

Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit

投稿日: 2025年1月6日作成者: jarxiv

要約モデル編集は、大規模なモデルにおいて、コストのかかる再トレーニングを行うこ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Leveraging Consistent Spatio-Temporal Correspondence for Robust Visual Odometry

投稿日: 2025年1月6日作成者: jarxiv

要約 VOに対する最近のアプローチは、ビデオフレーム間のオプティカルフローを予測 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Universal Online Temporal Calibration for Optimization-based Visual-Inertial Navigation Systems

投稿日: 2025年1月6日作成者: jarxiv

要約視覚センサーと慣性センサーの組み合わせによる6自由度（6DoF）運動推定は … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Ingredients: Blending Custom Photos with Video Diffusion Transformers

投稿日: 2025年1月6日作成者: jarxiv

要約本論文では、ビデオ拡散トランスフォーマー(ビデオ拡散トランスフォーマー)を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Minimal Subset Approach for Efficient and Scalable Loop Closure

投稿日: 2025年1月6日作成者: jarxiv

要約大規模かつ長期的なミッションにおけるループ閉鎖検出は、ポーズグラフ最適化の … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation

投稿日: 2025年1月6日作成者: jarxiv

要約オープンボキャブラリセグメンテーションは、テキストベースの記述に基づいて、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

JoyGen: Audio-Driven 3D Depth-Aware Talking-Face Video Editing

投稿日: 2025年1月6日作成者: jarxiv

要約しかし、入力音声に基づく唇形状の編集において、正確な唇と音声の同期と高い視 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Balanced Residual Distillation Learning for 3D Point Cloud Class-Incremental Semantic Segmentation

投稿日: 2025年1月6日作成者: jarxiv

要約クラス増加学習(CIL)は、新しいクラスの継続的な学習を可能にする一方で、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

投稿日: 2025年1月6日作成者: jarxiv

要約画像-テキストペアデータと比較して、インターリーブコーパスは、視覚言語モデ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation

投稿日: 2025年1月6日作成者: jarxiv

要約しゃべるアバターの世代は、正確な音声同期において大きな進歩を遂げました。し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit

Leveraging Consistent Spatio-Temporal Correspondence for Robust Visual Odometry

Universal Online Temporal Calibration for Optimization-based Visual-Inertial Navigation Systems

Ingredients: Blending Custom Photos with Video Diffusion Transformers

A Minimal Subset Approach for Efficient and Scalable Loop Closure

FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation

JoyGen: Audio-Driven 3D Depth-Aware Talking-Face Video Editing

Balanced Residual Distillation Learning for 3D Point Cloud Class-Incremental Semantic Segmentation

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation

最近の投稿

最近のコメント

アーカイブ

カテゴリー