「cs.MM」カテゴリーアーカイブ

TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

投稿日: 2025年4月1日作成者: jarxiv

要約通信詐欺の検出は、オーディオ信号を推論指向のテキスト分析と統合する高品質の … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues

投稿日: 2025年4月1日作成者: jarxiv

要約オーディオビジュアルターゲットスピーカー抽出（AV-TSE）は、時間同期さ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

投稿日: 2025年4月1日作成者: jarxiv

要約ぼやけたマルチビュー画像からのシャープな3D表現の再構築は、コンピューター … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

投稿日: 2025年4月1日作成者: jarxiv

要約リモートセンシング（RS）画像のオブジェクト検出（OD）と視覚的接地（VG … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Knowledge Bridger: Towards Training-free Missing Multi-modality Completion

投稿日: 2025年3月31日作成者: jarxiv

要約欠落したモダリティ完了に対する以前の成功したアプローチは、慎重に設計された … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Using AI to Summarize US Presidential Campaign TV Advertisement Videos, 1952-2012

投稿日: 2025年3月31日作成者: jarxiv

要約このペーパーでは、デジタル形式で入手可能な米国大統領キャンペーンテレビ広告 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models

投稿日: 2025年3月31日作成者: jarxiv

要約大規模な言語モデル（LLMS）の開発は、一般的なアシスタントとしてマルチモ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Unicorn: Text-Only Data Synthesis for Vision Language Model Training

投稿日: 2025年3月31日作成者: jarxiv

要約トレーニングビジョン言語モデル（VLM）には通常、大規模で高品質の画像テキ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

投稿日: 2025年3月28日作成者: jarxiv

要約ビデオ編集は、エンターテイメント、教育、専門的なコミュニケーションのアプリ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems

投稿日: 2025年3月27日作成者: jarxiv

要約大規模なマルチモーダルモデル（LMM）の最近の進歩は、自律運転システム（A … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues

DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

Knowledge Bridger: Towards Training-free Missing Multi-modality Completion

Using AI to Summarize US Presidential Campaign TV Advertisement Videos, 1952-2012

RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models

Unicorn: Text-Only Data Synthesis for Vision Language Model Training

VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems

最近の投稿

最近のコメント

アーカイブ

カテゴリー