-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「cs.MM」カテゴリーアーカイブ
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition
要約 対照的クロスモダリティ事前トレーニングは、最近さまざまな分野で目覚ましい成 … 続きを読む
CASR: Refining Action Segmentation via Magrinalizing Frame-levle Causal Relationships
要約 ディープラーニングと因果関係発見を統合することで、Temporal Act … 続きを読む
GraphCFC: A Directed Graph Based Cross-Modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition
要約 会話中の感情認識 (ERC) は、共感的なサービスを提供できるため、ヒュー … 続きを読む
Rethinking Radiology Report Generation via Causal Reasoning and Counterfactual Augmentation
要約 Radiology Report Generation (RRG) は、視 … 続きを読む
CompenHR: Efficient Full Compensation for High-resolution Projector
要約 プロジェクターを完全に補償することは、プロジェクター カメラ システムの実 … 続きを読む
LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval Score Matching
要約 テキストから 3D への生成における最近の進歩は、生成モデルにおける重要な … 続きを読む
Enhancing Multi-modal Cooperation via Fine-grained Modality Valuation
要約 マルチモーダル学習の主なトピックの 1 つは、異なるモダリティからの異種情 … 続きを読む
Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatially Relation Matching
要約 自然言語コマンドによるドローンのナビゲーションは、公的に利用可能なマルチモ … 続きを読む
Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning
要約 我々は、生成を 2 つのステップに分解するテキストからビデオへの生成モデル … 続きを読む
RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection
要約 オンラインの誤った情報は本質的に多峰性であることが多く、テキストと付随する … 続きを読む