cs.MM」カテゴリーアーカイブ

Sound Source Localization is All about Cross-Modal Alignment

要約 人間は、音源定位と呼ばれる、視覚的なシーンにおける音源の方向を容易に認識で … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Sound Source Localization is All about Cross-Modal Alignment はコメントを受け付けていません

MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily Behavior Recognition in Group Settings

要約 身体行動言語は重要な社会的合図であり、その自動分析は人工知能システムの理解 … 続きを読む

カテゴリー: cs.CV, cs.HC, cs.MM | MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily Behavior Recognition in Group Settings はコメントを受け付けていません

AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models

要約 視聴覚表現学習は、聴覚情報と視覚情報の相関関係を利用して、人間のような知覚 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models はコメントを受け付けていません

Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion

要約 ビジュアルテキストの事実知識を整理するマルチモーダル ナレッジ グラフ ( … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion はコメントを受け付けていません

Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval

要約 個人の再識別 (re-ID) には、高密度に分散されたカメラが必要です。 … 続きを読む

カテゴリー: cs.CV, cs.MM | Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval はコメントを受け付けていません

Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment

要約 この論文では、音声ヒューマノイド肉体型会話エージェント (HECAs) が … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.MM, H.5.2 | Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment はコメントを受け付けていません

Usability Evaluation of Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games

要約 この論文では、音声ヒューマノイド肉体型会話エージェント (HECAs) が … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.MM, H.5.2 | Usability Evaluation of Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games はコメントを受け付けていません

A Survey on Interpretable Cross-modal Reasoning

要約 近年、さまざまなモダリティを超えて理解および推論するプロセスであるクロスモ … 続きを読む

カテゴリー: A.1, cs.AI, cs.MM | A Survey on Interpretable Cross-modal Reasoning はコメントを受け付けていません

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

要約 マルチモーダル タスクにおける有望な進歩にもかかわらず、現在の大規模マルチ … 続きを読む

カテゴリー: cs.AI, cs.CE, cs.CL, cs.CV, cs.MM | Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

要約 対照的クロスモダリティ事前トレーニングは、最近さまざまな分野で目覚ましい成 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition はコメントを受け付けていません