cs.MM」カテゴリーアーカイブ

Egocentric Audio-Visual Object Localization

要約 人間は、音と視覚を統合して一人称視点で周囲の景色を自然に知覚します。 同様 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Egocentric Audio-Visual Object Localization はコメントを受け付けていません

Positive-Augmented Constrastive Learning for Image and Video Captioning Evaluation

要約 CLIP モデルは最近、視覚と言語のアーキテクチャから生成されたキャプショ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Positive-Augmented Constrastive Learning for Image and Video Captioning Evaluation はコメントを受け付けていません

Reliable and Efficient Evaluation of Adversarial Robustness for Deep Hashing-Based Retrieval

要約 ディープ ハッシングは、その効率と有効性から大量の画像検索に広く適用されて … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG, cs.MM | Reliable and Efficient Evaluation of Adversarial Robustness for Deep Hashing-Based Retrieval はコメントを受け付けていません

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

要約 ChatGPT が口コミで広まるにつれ、ジェネレーティブ AI (AIGC … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? はコメントを受け付けていません

GPT4MIA: Utilizing Generative Pre-trained Transformer (GPT-3) as A Plug-and-Play Transductive Model for Medical Image Analysis

要約 この論文では、医用画像解析 (MIA) 用のプラグアンドプレイ変換推論ツー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | GPT4MIA: Utilizing Generative Pre-trained Transformer (GPT-3) as A Plug-and-Play Transductive Model for Medical Image Analysis はコメントを受け付けていません

PheME: A deep ensemble framework for improving phenotype prediction from multi-modal data

要約 詳細な表現型情報は、疾患の正確な診断とリスク推定に不可欠です。 表現型情報 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM, q-bio.QM | PheME: A deep ensemble framework for improving phenotype prediction from multi-modal data はコメントを受け付けていません

GraphCFC: A Directed Graph based Cross-modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition

要約 会話における感情認識 (ERC) は、共感的なサービスを提供できるため、ヒ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM | GraphCFC: A Directed Graph based Cross-modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition はコメントを受け付けていません

Multitrack Music Transformer

要約 変圧器モデルを使用してマルチトラック音楽を生成するための既存のアプローチは … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS | Multitrack Music Transformer はコメントを受け付けていません

T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

要約 大規模な text-to-image (T2I) モデルの信じられないほど … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models はコメントを受け付けていません

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

要約 拡散プロセスに基づくテキストから画像 (T2I) モデルは、ユーザー提供の … 続きを読む

カテゴリー: cs.CV, cs.MM | GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation はコメントを受け付けていません