cs.MM」カテゴリーアーカイブ

GPT4MIA: Utilizing Generative Pre-trained Transformer (GPT-3) as A Plug-and-Play Transductive Model for Medical Image Analysis

要約 この論文では、医用画像解析 (MIA) 用のプラグアンドプレイ変換推論ツー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | GPT4MIA: Utilizing Generative Pre-trained Transformer (GPT-3) as A Plug-and-Play Transductive Model for Medical Image Analysis はコメントを受け付けていません

PheME: A deep ensemble framework for improving phenotype prediction from multi-modal data

要約 詳細な表現型情報は、疾患の正確な診断とリスク推定に不可欠です。 表現型情報 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM, q-bio.QM | PheME: A deep ensemble framework for improving phenotype prediction from multi-modal data はコメントを受け付けていません

GraphCFC: A Directed Graph based Cross-modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition

要約 会話における感情認識 (ERC) は、共感的なサービスを提供できるため、ヒ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM | GraphCFC: A Directed Graph based Cross-modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition はコメントを受け付けていません

Multitrack Music Transformer

要約 変圧器モデルを使用してマルチトラック音楽を生成するための既存のアプローチは … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS | Multitrack Music Transformer はコメントを受け付けていません

T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

要約 大規模な text-to-image (T2I) モデルの信じられないほど … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models はコメントを受け付けていません

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

要約 拡散プロセスに基づくテキストから画像 (T2I) モデルは、ユーザー提供の … 続きを読む

カテゴリー: cs.CV, cs.MM | GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation はコメントを受け付けていません

DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via Contrastive Prompt-Tuning

要約 大規模なテキストから画像への生成モデルは、テキストに導かれた高解像度の高品 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via Contrastive Prompt-Tuning はコメントを受け付けていません

TriDet: Temporal Action Detection with Relative Boundary Modeling

要約 この論文では、一時的なアクション検出のための 1 段階のフレームワーク T … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | TriDet: Temporal Action Detection with Relative Boundary Modeling はコメントを受け付けていません

Lana: A Language-Capable Navigator for Instruction Following and Generation

要約 最近、ロボット エージェントがナビゲーションの指示に従うことを伴う視覚言語 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO | Lana: A Language-Capable Navigator for Instruction Following and Generation はコメントを受け付けていません

Evaluating gesture-generation in a large-scale open challenge: The GENEA Challenge 2022

要約 このペーパーでは、データ駆動型の自動共同音声ジェスチャ生成をベンチマークす … 続きを読む

カテゴリー: cs.HC, cs.LG, cs.MM, I.2 | Evaluating gesture-generation in a large-scale open challenge: The GENEA Challenge 2022 はコメントを受け付けていません