月別アーカイブ: 2025年1月

Universal Online Temporal Calibration for Optimization-based Visual-Inertial Navigation Systems

投稿日: 2025年1月6日作成者: jarxiv

要約視覚センサーと慣性センサーの組み合わせによる6自由度（6DoF）運動推定は … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Ingredients: Blending Custom Photos with Video Diffusion Transformers

投稿日: 2025年1月6日作成者: jarxiv

要約本論文では、ビデオ拡散トランスフォーマー(ビデオ拡散トランスフォーマー)を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Minimal Subset Approach for Efficient and Scalable Loop Closure

投稿日: 2025年1月6日作成者: jarxiv

要約大規模かつ長期的なミッションにおけるループ閉鎖検出は、ポーズグラフ最適化の … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation

投稿日: 2025年1月6日作成者: jarxiv

要約オープンボキャブラリセグメンテーションは、テキストベースの記述に基づいて、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

JoyGen: Audio-Driven 3D Depth-Aware Talking-Face Video Editing

投稿日: 2025年1月6日作成者: jarxiv

要約しかし、入力音声に基づく唇形状の編集において、正確な唇と音声の同期と高い視 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Balanced Residual Distillation Learning for 3D Point Cloud Class-Incremental Semantic Segmentation

投稿日: 2025年1月6日作成者: jarxiv

要約クラス増加学習(CIL)は、新しいクラスの継続的な学習を可能にする一方で、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

投稿日: 2025年1月6日作成者: jarxiv

要約画像-テキストペアデータと比較して、インターリーブコーパスは、視覚言語モデ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation

投稿日: 2025年1月6日作成者: jarxiv

要約しゃべるアバターの世代は、正確な音声同期において大きな進歩を遂げました。し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Uncertainty-Aware Label Refinement on Hypergraphs for Personalized Federated Facial Expression Recognition

投稿日: 2025年1月6日作成者: jarxiv

要約表情認識（FER）モデルの多くは、大規模な表情データを用いた集中学習によっ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Bridging Simplicity and Sophistication using GLinear: A Novel Architecture for Enhanced Time Series Prediction

投稿日: 2025年1月6日作成者: jarxiv

要約時系列予測（TSF）は多くの分野で重要なアプリケーションである。Trans … 続きを読む →

カテゴリー: cs.CV, cs.ET, cs.LG | コメントを受け付けていません

月別アーカイブ: 2025年1月

Universal Online Temporal Calibration for Optimization-based Visual-Inertial Navigation Systems

Ingredients: Blending Custom Photos with Video Diffusion Transformers

A Minimal Subset Approach for Efficient and Scalable Loop Closure

FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation

JoyGen: Audio-Driven 3D Depth-Aware Talking-Face Video Editing

Balanced Residual Distillation Learning for 3D Point Cloud Class-Incremental Semantic Segmentation

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation

Uncertainty-Aware Label Refinement on Hypergraphs for Personalized Federated Facial Expression Recognition

Bridging Simplicity and Sophistication using GLinear: A Novel Architecture for Enhanced Time Series Prediction

最近の投稿

最近のコメント

アーカイブ

カテゴリー