cs.MM」カテゴリーアーカイブ

On Evaluating Adversarial Robustness of Large Vision-Language Models

要約 GPT-4 などの大規模ビジョン言語モデル (VLM) は、応答生成、特に … 続きを読む

カテゴリー: cs.CL, cs.CR, cs.CV, cs.LG, cs.MM | On Evaluating Adversarial Robustness of Large Vision-Language Models はコメントを受け付けていません

StereoVAE: A lightweight stereo matching system through embedded GPUs

要約 組み込み GPU を使用したステレオ マッチングのための軽量システムを紹介 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO | StereoVAE: A lightweight stereo matching system through embedded GPUs はコメントを受け付けていません

EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels

要約 テキスト読み上げ技術の採用の増加により、会話の文脈や感情的な調子に適応する … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM | EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels はコメントを受け付けていません

ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst

要約 現実世界の多様なモダリティを認識し、さまざまなタスクを解決できる汎用モデル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst はコメントを受け付けていません

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation

要約 最近、言語や音声などのマルチモーダル信号によって参照されるビデオ オブジェ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation はコメントを受け付けていません

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

要約 STS (Speech-to-Singing) 音声変換タスクは、音声録音 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment はコメントを受け付けていません

VIP5: Towards Multimodal Foundation Models for Recommendation

要約 コンピューター ビジョン (CV)、自然言語処理 (NLP)、およびレコメ … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.IR, cs.LG, cs.MM | VIP5: Towards Multimodal Foundation Models for Recommendation はコメントを受け付けていません

Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers

要約 深度センサーの利用可能性が高まるにつれ、色情報と深度データを組み合わせるマ … 続きを読む

カテゴリー: cs.CV, cs.MM | Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers はコメントを受け付けていません

DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving

要約 リアルタイム認識、つまりストリーミング認識は自動運転の重要な側面ですが、既 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO | DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving はコメントを受け付けていません

EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels

要約 テキスト読み上げ技術の採用の増加により、会話の文脈や感情的な調子に適応する … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM | EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels はコメントを受け付けていません