cs.MM」カテゴリーアーカイブ

Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media

要約 Reddit ディスカッションなどのオンライン ソーシャル ネットワークに … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SI | Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media はコメントを受け付けていません

Terrain Diffusion Network: Climatic-Aware Terrain Generation with Geological Sketch Guidance

要約 スケッチベースの地形生成は、コンピューター ゲーム、アニメーション、仮想現 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Terrain Diffusion Network: Climatic-Aware Terrain Generation with Geological Sketch Guidance はコメントを受け付けていません

Priority-Centric Human Motion Generation in Discrete Latent Space

要約 テキストからモーションへの生成は、人間の能力と物理法則に準拠しながら、入力 … 続きを読む

カテゴリー: cs.CV, cs.MM | Priority-Centric Human Motion Generation in Discrete Latent Space はコメントを受け付けていません

Priority-Centric Human Motion Generation in Discrete Latent Space

要約 テキストからモーションへの生成は、人間の能力と物理法則に準拠しながら、入力 … 続きを読む

カテゴリー: cs.CV, cs.MM | Priority-Centric Human Motion Generation in Discrete Latent Space はコメントを受け付けていません

Exploiting Diverse Feature for Multimodal Sentiment Analysis

要約 このペーパーでは、MuSe 2023 マルチモーダル感情分析チャレンジの … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Exploiting Diverse Feature for Multimodal Sentiment Analysis はコメントを受け付けていません

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?

要約 マルチメディア コミュニティは、マルチモーダルな事前学習済みニューラル ネ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining? はコメントを受け付けていません

With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning

要約 画像のキャプション作成は、視覚と言語を伴う多くのタスクと同様に、現在、画像 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning はコメントを受け付けていません

Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations

要約 大規模な視覚言語の事前トレーニングは、マルチモーダルな理解と生成タスクにお … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations はコメントを受け付けていません

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?

要約 マルチメディア コミュニティは、マルチモーダルな事前学習済みニューラル ネ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining? はコメントを受け付けていません

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE

要約 多様でマルチモーダルなデータから学習するためのスケーラブルなビジョン言語モ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE はコメントを受け付けていません