cs.MM」カテゴリーアーカイブ

AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models

要約 視聴覚表現学習は、聴覚情報と視覚情報の相関関係を利用して、人間のような知覚 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models はコメントを受け付けていません

Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion

要約 ビジュアルテキストの事実知識を整理するマルチモーダル ナレッジ グラフ ( … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion はコメントを受け付けていません

Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval

要約 個人の再識別 (re-ID) には、高密度に分散されたカメラが必要です。 … 続きを読む

カテゴリー: cs.CV, cs.MM | Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval はコメントを受け付けていません

Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment

要約 この論文では、音声ヒューマノイド肉体型会話エージェント (HECAs) が … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.MM, H.5.2 | Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment はコメントを受け付けていません

Usability Evaluation of Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games

要約 この論文では、音声ヒューマノイド肉体型会話エージェント (HECAs) が … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.MM, H.5.2 | Usability Evaluation of Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games はコメントを受け付けていません

A Survey on Interpretable Cross-modal Reasoning

要約 近年、さまざまなモダリティを超えて理解および推論するプロセスであるクロスモ … 続きを読む

カテゴリー: A.1, cs.AI, cs.MM | A Survey on Interpretable Cross-modal Reasoning はコメントを受け付けていません

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

要約 マルチモーダル タスクにおける有望な進歩にもかかわらず、現在の大規模マルチ … 続きを読む

カテゴリー: cs.AI, cs.CE, cs.CL, cs.CV, cs.MM | Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

要約 対照的クロスモダリティ事前トレーニングは、最近さまざまな分野で目覚ましい成 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition はコメントを受け付けていません

Gpachov at CheckThat! 2023: A Diverse Multi-Approach Ensemble for Subjectivity Detection in News Articles

要約 ソーシャル ネットワークの普及により、主観的で誤解を招く、さらには誤った情 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | Gpachov at CheckThat! 2023: A Diverse Multi-Approach Ensemble for Subjectivity Detection in News Articles はコメントを受け付けていません

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

要約 ノイズ除去拡散確率モデル (DDPM) は、音声合成において有望なパフォー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model はコメントを受け付けていません