cs.MM」カテゴリーアーカイブ

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

要約 対照的クロスモダリティ事前トレーニングは、最近さまざまな分野で目覚ましい成 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition はコメントを受け付けていません

CASR: Refining Action Segmentation via Magrinalizing Frame-levle Causal Relationships

要約 ディープラーニングと因果関係発見を統合することで、Temporal Act … 続きを読む

カテゴリー: cs.CV, cs.MM | CASR: Refining Action Segmentation via Magrinalizing Frame-levle Causal Relationships はコメントを受け付けていません

GraphCFC: A Directed Graph Based Cross-Modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition

要約 会話中の感情認識 (ERC) は、共感的なサービスを提供できるため、ヒュー … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM | GraphCFC: A Directed Graph Based Cross-Modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition はコメントを受け付けていません

Rethinking Radiology Report Generation via Causal Reasoning and Counterfactual Augmentation

要約 Radiology Report Generation (RRG) は、視 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Rethinking Radiology Report Generation via Causal Reasoning and Counterfactual Augmentation はコメントを受け付けていません

CompenHR: Efficient Full Compensation for High-resolution Projector

要約 プロジェクターを完全に補償することは、プロジェクター カメラ システムの実 … 続きを読む

カテゴリー: cs.CV, cs.MM | CompenHR: Efficient Full Compensation for High-resolution Projector はコメントを受け付けていません

LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval Score Matching

要約 テキストから 3D への生成における最近の進歩は、生成モデルにおける重要な … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval Score Matching はコメントを受け付けていません

Enhancing Multi-modal Cooperation via Fine-grained Modality Valuation

要約 マルチモーダル学習の主なトピックの 1 つは、異なるモダリティからの異種情 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Enhancing Multi-modal Cooperation via Fine-grained Modality Valuation はコメントを受け付けていません

Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatially Relation Matching

要約 自然言語コマンドによるドローンのナビゲーションは、公的に利用可能なマルチモ … 続きを読む

カテゴリー: cs.CV, cs.MM | Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatially Relation Matching はコメントを受け付けていません

Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning

要約 我々は、生成を 2 つのステップに分解するテキストからビデオへの生成モデル … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.MM | Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning はコメントを受け付けていません

RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection

要約 オンラインの誤った情報は本質的に多峰性であることが多く、テキストと付随する … 続きを読む

カテゴリー: cs.CV, cs.MM | RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection はコメントを受け付けていません