「cs.MM」カテゴリーアーカイブ

AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models

投稿日: 2023年9月20日作成者: jarxiv

要約視聴覚表現学習は、聴覚情報と視覚情報の相関関係を利用して、人間のような知覚 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion

投稿日: 2023年9月19日作成者: jarxiv

要約ビジュアルテキストの事実知識を整理するマルチモーダルナレッジグラフ ( … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval

投稿日: 2023年9月18日作成者: jarxiv

要約個人の再識別 (re-ID) には、高密度に分散されたカメラが必要です。 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment

投稿日: 2023年9月18日作成者: jarxiv

要約この論文では、音声ヒューマノイド肉体型会話エージェント (HECAs) が … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.MM, H.5.2 | コメントを受け付けていません

Usability Evaluation of Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games

投稿日: 2023年9月15日作成者: jarxiv

要約この論文では、音声ヒューマノイド肉体型会話エージェント (HECAs) が … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.MM, H.5.2 | コメントを受け付けていません

A Survey on Interpretable Cross-modal Reasoning

投稿日: 2023年9月15日作成者: jarxiv

要約近年、さまざまなモダリティを超えて理解および推論するプロセスであるクロスモ … 続きを読む →

カテゴリー: A.1, cs.AI, cs.MM | コメントを受け付けていません

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

投稿日: 2023年9月15日作成者: jarxiv

要約マルチモーダルタスクにおける有望な進歩にもかかわらず、現在の大規模マルチ … 続きを読む →

カテゴリー: cs.AI, cs.CE, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

投稿日: 2023年9月14日作成者: jarxiv

要約対照的クロスモダリティ事前トレーニングは、最近さまざまな分野で目覚ましい成 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Gpachov at CheckThat! 2023: A Diverse Multi-Approach Ensemble for Subjectivity Detection in News Articles

投稿日: 2023年9月14日作成者: jarxiv

要約ソーシャルネットワークの普及により、主観的で誤解を招く、さらには誤った情 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM | コメントを受け付けていません

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

投稿日: 2023年9月14日作成者: jarxiv

要約ノイズ除去拡散確率モデル (DDPM) は、音声合成において有望なパフォー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models

Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion

Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval

Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment

Usability Evaluation of Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games

A Survey on Interpretable Cross-modal Reasoning

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

Gpachov at CheckThat! 2023: A Diverse Multi-Approach Ensemble for Subjectivity Detection in News Articles

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

最近の投稿

最近のコメント

アーカイブ

カテゴリー