cs.MM」カテゴリーアーカイブ

TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

要約 通信詐欺の検出は、オーディオ信号を推論指向のテキスト分析と統合する高品質の … 続きを読む

カテゴリー: cs.CL, cs.MM | TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection はコメントを受け付けていません

TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

要約 通信詐欺の検出は、オーディオ信号を推論指向のテキスト分析と統合する高品質の … 続きを読む

カテゴリー: cs.CL, cs.MM | TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection はコメントを受け付けていません

TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

要約 通信詐欺の検出は、オーディオ信号を推論指向のテキスト分析と統合する高品質の … 続きを読む

カテゴリー: cs.CL, cs.MM | TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection はコメントを受け付けていません

MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues

要約 オーディオビジュアルターゲットスピーカー抽出(AV-TSE)は、時間同期さ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues はコメントを受け付けていません

DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

要約 ぼやけたマルチビュー画像からのシャープな3D表現の再構築は、コンピューター … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting はコメントを受け付けていません

MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

要約 リモートセンシング(RS)画像のオブジェクト検出(OD)と視覚的接地(VG … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing はコメントを受け付けていません

Knowledge Bridger: Towards Training-free Missing Multi-modality Completion

要約 欠落したモダリティ完了に対する以前の成功したアプローチは、慎重に設計された … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Knowledge Bridger: Towards Training-free Missing Multi-modality Completion はコメントを受け付けていません

Using AI to Summarize US Presidential Campaign TV Advertisement Videos, 1952-2012

要約 このペーパーでは、デジタル形式で入手可能な米国大統領キャンペーンテレビ広告 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Using AI to Summarize US Presidential Campaign TV Advertisement Videos, 1952-2012 はコメントを受け付けていません

RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models

要約 大規模な言語モデル(LLMS)の開発は、一般的なアシスタントとしてマルチモ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models はコメントを受け付けていません

Unicorn: Text-Only Data Synthesis for Vision Language Model Training

要約 トレーニングビジョン言語モデル(VLM)には通常、大規模で高品質の画像テキ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Unicorn: Text-Only Data Synthesis for Vision Language Model Training はコメントを受け付けていません