cs.MM」カテゴリーアーカイブ

Diverse Sign Language Translation

要約 話し言葉と同様に、単一の手話表現は複数の有効なテキスト解釈に対応する可能性 … 続きを読む

カテゴリー: cs.CV, cs.MM | Diverse Sign Language Translation はコメントを受け付けていません

TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning

要約 マルチモーダル大規模言語モデル (MLLM) は、短いビデオの理解において … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning はコメントを受け付けていません

Taming Data and Transformers for Audio Generation

要約 環境音の生成は、データ不足とキャプションの品質が不十分なことが多いため、困 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | Taming Data and Transformers for Audio Generation はコメントを受け付けていません

Exploring Self-Supervised Skeleton-Based Human Action Recognition under Occlusions

要約 自己監視型のスケルトンベースの動作認識手法を自律ロボット システムに統合す … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | Exploring Self-Supervised Skeleton-Based Human Action Recognition under Occlusions はコメントを受け付けていません

LocoMotion: Learning Motion-Focused Video-Language Representations

要約 この論文は、動きに焦点を当てたビデオ言語表現を目指しています。 ビデオ言語 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | LocoMotion: Learning Motion-Focused Video-Language Representations はコメントを受け付けていません

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

要約 言語モデルは、画像、ビデオ、音声、オーディオなどの自然信号のモデル化に効果 … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS, eess.SP | WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling はコメントを受け付けていません

AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results

要約 ビデオ品質評価 (VQA) は、視聴者のエクスペリエンスに直接影響を与える … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results はコメントを受け付けていません

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

要約 Explainable AI for the Arts (XAIxArts … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) はコメントを受け付けていません

Movie101v2: Improved Movie Narration Benchmark

要約 自動映画ナレーションは、視覚障害のある視聴者を支援するために、ビデオに合わ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Movie101v2: Improved Movie Narration Benchmark はコメントを受け付けていません

Parallel Backpropagation for Inverse of a Convolution with Application to Normalizing Flows

要約 可逆畳み込みの逆は、フローの正規化や画像のブレ除去などで登場する重要な操作 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, math.PR | Parallel Backpropagation for Inverse of a Convolution with Application to Normalizing Flows はコメントを受け付けていません