-
最近の投稿
- Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles
- Reinforcement Learning-based Fault-Tolerant Control for Quadrotor with Online Transformer Adaptation
- Enhanced Importance Sampling through Latent Space Exploration in Normalizing Flows
- Enhancing Scene Coordinate Regression with Efficient Keypoint Detection and Sequential Information
- Constrained Factor Graph Optimization for Robust Networked Pedestrian Inertial Navigation
-
最近のコメント
表示できるコメントはありません。 cs.AI (38035) cs.CL (28747) cs.CV (43624) cs.HC (2908) cs.LG (42962) cs.RO (22623) cs.SY (3469) eess.IV (5057) eess.SY (3461) stat.ML (5597)
「cs.MM」カテゴリーアーカイブ
TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
要約 通信詐欺の検出は、オーディオ信号を推論指向のテキスト分析と統合する高品質の … 続きを読む
TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
要約 通信詐欺の検出は、オーディオ信号を推論指向のテキスト分析と統合する高品質の … 続きを読む
TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
要約 通信詐欺の検出は、オーディオ信号を推論指向のテキスト分析と統合する高品質の … 続きを読む
MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues
要約 オーディオビジュアルターゲットスピーカー抽出(AV-TSE)は、時間同期さ … 続きを読む
DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting
要約 ぼやけたマルチビュー画像からのシャープな3D表現の再構築は、コンピューター … 続きを読む
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing
要約 リモートセンシング(RS)画像のオブジェクト検出(OD)と視覚的接地(VG … 続きを読む
Knowledge Bridger: Towards Training-free Missing Multi-modality Completion
要約 欠落したモダリティ完了に対する以前の成功したアプローチは、慎重に設計された … 続きを読む
Using AI to Summarize US Presidential Campaign TV Advertisement Videos, 1952-2012
要約 このペーパーでは、デジタル形式で入手可能な米国大統領キャンペーンテレビ広告 … 続きを読む
RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models
要約 大規模な言語モデル(LLMS)の開発は、一般的なアシスタントとしてマルチモ … 続きを読む
Unicorn: Text-Only Data Synthesis for Vision Language Model Training
要約 トレーニングビジョン言語モデル(VLM)には通常、大規模で高品質の画像テキ … 続きを読む