cs.MM」カテゴリーアーカイブ

Trajectory Approximation of Video Based on Phase Correlation for Forward Facing Camera

要約 このペーパーでは、視覚的なオドメトリを活用して、GPS が拒否された環境で … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM, cs.RO | Trajectory Approximation of Video Based on Phase Correlation for Forward Facing Camera はコメントを受け付けていません

FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline

要約 マルチメディア生成アプローチは、人工知能研究において重要な位置を占めていま … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline はコメントを受け付けていません

A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

要約 OpenAI の GPT-4V(ision) など、マルチモーダル大規模言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise はコメントを受け付けていません

Learning from Mistakes: Self-Regularizing Hierarchical Representations in Point Cloud Semantic Segmentation

要約 自律型ロボット技術の最近の進歩により、正確な環境分析の必要性が高まっていま … 続きを読む

カテゴリー: cs.CV, cs.MM, stat.ML | Learning from Mistakes: Self-Regularizing Hierarchical Representations in Point Cloud Semantic Segmentation はコメントを受け付けていません

A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

要約 OpenAI の GPT-4V(ision) など、マルチモーダル大規模言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise はコメントを受け付けていません

Debiasing Multimodal Sarcasm Detection with Contrastive Learning

要約 既存の研究によって達成された賞賛に値する成果にもかかわらず、一般的なマルチ … 続きを読む

カテゴリー: cs.CL, cs.MM | Debiasing Multimodal Sarcasm Detection with Contrastive Learning はコメントを受け付けていません

Debiasing Multimodal Sarcasm Detection with Contrastive Learning

要約 既存の研究によって達成された賞賛に値する成果にもかかわらず、一般的なマルチ … 続きを読む

カテゴリー: cs.CL, cs.MM | Debiasing Multimodal Sarcasm Detection with Contrastive Learning はコメントを受け付けていません

Part Representation Learning with Teacher-Student Decoder for Occluded Person Re-identification

要約 遮蔽された人物の再識別 (ReID) は、遮蔽障害と不完全なターゲット情報 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Part Representation Learning with Teacher-Student Decoder for Occluded Person Re-identification はコメントを受け付けていません

Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis

要約 マルチモーダル感情分析 (MSA) は、複数のソース (言語、ビデオ、音声 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis はコメントを受け付けていません

CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor

要約 既存のオープンボキャブラリーの画像セグメンテーション方法では、マスクの注釈 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor はコメントを受け付けていません