-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
要約 通信詐欺の検出は、オーディオ信号を推論指向のテキスト分析と統合する高品質の … 続きを読む
MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues
要約 オーディオビジュアルターゲットスピーカー抽出(AV-TSE)は、時間同期さ … 続きを読む
DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting
要約 ぼやけたマルチビュー画像からのシャープな3D表現の再構築は、コンピューター … 続きを読む
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing
要約 リモートセンシング(RS)画像のオブジェクト検出(OD)と視覚的接地(VG … 続きを読む
Knowledge Bridger: Towards Training-free Missing Multi-modality Completion
要約 欠落したモダリティ完了に対する以前の成功したアプローチは、慎重に設計された … 続きを読む
Using AI to Summarize US Presidential Campaign TV Advertisement Videos, 1952-2012
要約 このペーパーでは、デジタル形式で入手可能な米国大統領キャンペーンテレビ広告 … 続きを読む
RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models
要約 大規模な言語モデル(LLMS)の開発は、一般的なアシスタントとしてマルチモ … 続きを読む
Unicorn: Text-Only Data Synthesis for Vision Language Model Training
要約 トレーニングビジョン言語モデル(VLM)には通常、大規模で高品質の画像テキ … 続きを読む
VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing
要約 ビデオ編集は、エンターテイメント、教育、専門的なコミュニケーションのアプリ … 続きを読む