cs.CV」カテゴリーアーカイブ

LoSA: Long-Short-range Adapter for Scaling End-to-End Temporal Action Localization

要約 時間的アクション ローカリゼーション (TAL) には、トリミングされてい … 続きを読む

カテゴリー: cs.CV | LoSA: Long-Short-range Adapter for Scaling End-to-End Temporal Action Localization はコメントを受け付けていません

DynMF: Neural Motion Factorization for Real-time Dynamic View Synthesis with 3D Gaussian Splatting

要約 動的シーンとモーションを正確かつ効率的にモデリングすることは、時間的ダイナ … 続きを読む

カテゴリー: cs.CV, cs.GR | DynMF: Neural Motion Factorization for Real-time Dynamic View Synthesis with 3D Gaussian Splatting はコメントを受け付けていません

ActFusion: a Unified Diffusion Model for Action Segmentation and Anticipation

要約 時間的なアクションのセグメンテーションと長期的なアクションの予測は、ビデオ … 続きを読む

カテゴリー: cs.CV, cs.LG | ActFusion: a Unified Diffusion Model for Action Segmentation and Anticipation はコメントを受け付けていません

GeoPos: A Minimal Positional Encoding for Enhanced Fine-Grained Details in Image Synthesis Using Convolutional Neural Networks

要約 人間の手や指に存在するような複雑な幾何学的特徴を画像生成モデルが再現できな … 続きを読む

カテゴリー: 51, cs.AI, cs.CV, cs.LG, I.2.10 | GeoPos: A Minimal Positional Encoding for Enhanced Fine-Grained Details in Image Synthesis Using Convolutional Neural Networks はコメントを受け付けていません

A Hitchhiker’s Guide to Understanding Performances of Two-Class Classifiers

要約 分類器のパフォーマンスを適切に理解することは、さまざまなシナリオにおいて不 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.PF | A Hitchhiker’s Guide to Understanding Performances of Two-Class Classifiers はコメントを受け付けていません

SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

要約 大規模マルチモーダル モデル (LMM) は、多くのタスクや分野にわたって … 続きを読む

カテゴリー: cs.CV | SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation はコメントを受け付けていません

Discriminative Fine-tuning of LVLMs

要約 CLIP のような対照的にトレーニングされた視覚言語モデル (VLM) は … 続きを読む

カテゴリー: cs.AI, cs.CV | Discriminative Fine-tuning of LVLMs はコメントを受け付けていません

MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding

要約 マルチモーダルな理解と生成のためのセマンティック離散エンコーディングによる … 続きを読む

カテゴリー: cs.CV | MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding はコメントを受け付けていません

EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding

要約 3D 占有予測は周囲のシーンの包括的な説明を提供し、3D 認識にとって不可 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding はコメントを受け付けていません

SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding

要約 3D ビジュアル グラウンディング (3DVG) は、テキストの説明に基づ … 続きを読む

カテゴリー: cs.CV, cs.RO | SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding はコメントを受け付けていません