cs.MM」カテゴリーアーカイブ

Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization

要約 最近、新しい形式の音声部分偽造がフォレンジックに課題をもたらしており、長時 … 続きを読む

カテゴリー: 68T07, 68T10, cs.CV, cs.MM, cs.SD, eess.AS, I.2 | Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization はコメントを受け付けていません

FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of Creative Process

要約 ショートビデオ共有プラットフォームがニュース消費の重要なチャネルになるにつ … 続きを読む

カテゴリー: cs.CV, cs.CY, cs.MM | FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of Creative Process はコメントを受け付けていません

360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation

要約 VR関連技術の発展により、視聴者はヘッドマウントディスプレイを通じてリアル … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | 360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation はコメントを受け付けていません

HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning

要約 幻覚は大規模な言語モデルにとって大きな問題であり、視覚言語モデル (VLM … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning はコメントを受け付けていません

Multimodal Misinformation Detection using Large Vision-Language Models

要約 誤った情報の蔓延とその憂慮すべき影響により、産業界と学界の両方が誤った情報 … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.MM | Multimodal Misinformation Detection using Large Vision-Language Models はコメントを受け付けていません

Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio

要約 音楽生成における最近の進歩により、創造的な音楽プロセス、現在のビジネス モ … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio はコメントを受け付けていません

Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment

要約 学習ベースの音源定位に関する最近の研究は、主に定位パフォーマンスの観点に焦 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment はコメントを受け付けていません

Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation

要約 この研究では、シーンのテキストをソース言語 (ヒンディー語など) からター … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation はコメントを受け付けていません

Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation

要約 我々は、ビデオの異常検出のための非常に高速なフレームレベルのモデルを提案し … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, stat.ML | Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation はコメントを受け付けていません

MMSD-Net: Towards Multi-modal Stuttering Detection

要約 吃音は、音声生成の不規則な中断によって引き起こされる一般的な音声障害であり … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | MMSD-Net: Towards Multi-modal Stuttering Detection はコメントを受け付けていません