cs.MM」カテゴリーアーカイブ

Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space

要約 不規則な動きと区別できない外観を持つ複数のオブジェクトを追跡するための C … 続きを読む

カテゴリー: cs.CV, cs.MM | Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space はコメントを受け付けていません

Can CLIP Help Sound Source Localization?

要約 大規模な事前トレーニング済み画像テキスト モデルは、その堅牢な表現機能と効 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Can CLIP Help Sound Source Localization? はコメントを受け付けていません

Towards Garment Sewing Pattern Reconstruction from a Single Image

要約 衣服の縫製パターンは衣服の本質的な残りの形状を表し、ファッション デザイン … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.MM | Towards Garment Sewing Pattern Reconstruction from a Single Image はコメントを受け付けていません

Out-of-distribution Detection Learning with Unreliable Out-of-distribution Sources

要約 分布外 (OOD) 検出は、予測子が有効な予測を行うことができない OOD … 続きを読む

カテゴリー: cs.LG, cs.MM | Out-of-distribution Detection Learning with Unreliable Out-of-distribution Sources はコメントを受け付けていません

Leveraging Automatic Personalised Nutrition: Food Image Recognition Benchmark and Dataset based on Nutrition Taxonomy

要約 不適切な食生活が特徴的な今日の座りっぱなしの社会では、健康的なライフスタイ … 続きを読む

カテゴリー: cs.CV, cs.MM | Leveraging Automatic Personalised Nutrition: Food Image Recognition Benchmark and Dataset based on Nutrition Taxonomy はコメントを受け付けていません

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

要約 拡散プロセスに基づくテキストから画像への (T2I) モデルは、ユーザーが … 続きを読む

カテゴリー: cs.CV, cs.MM | GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation はコメントを受け付けていません

LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing

要約 LLaVA-Interactive は、マルチモーダルな人間と AI のイ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.MM | LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing はコメントを受け付けていません

A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations

要約 会話における感情認識 (ERC) は、会話中の各発話の感情を認識するタスク … 続きを読む

カテゴリー: cs.AI, cs.MM | A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations はコメントを受け付けていません

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

要約 一般化されたディープ モデルに対する緊急の需要に伴い、BERT、ViT、G … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey はコメントを受け付けていません

AMPose: Alternately Mixed Global-Local Attention Model for 3D Human Pose Estimation

要約 グラフ畳み込みネットワーク (GCN) は、3D 人間姿勢推定 (HPE) … 続きを読む

カテゴリー: cs.CV, cs.MM | AMPose: Alternately Mixed Global-Local Attention Model for 3D Human Pose Estimation はコメントを受け付けていません