-
最近の投稿
- Nearest-Neighbourless Asymptotically Optimal Motion Planning with Fully Connected Informed Trees (FCIT*)
- Performance assessment of ADAS in a representative subset of critical traffic situations
- Exciting Contact Modes in Differentiable Simulations for Robot Learning
- Can LLMs plan paths in the real world?
- DECODE: Domain-aware Continual Domain Expansion for Motion Prediction
-
最近のコメント
表示できるコメントはありません。 cs.AI (30257) cs.CL (22857) cs.CR (2346) cs.CV (36632) cs.LG (35077) cs.RO (17603) cs.SY (2704) eess.IV (4458) eess.SY (2698) stat.ML (4675)
「cs.MM」カテゴリーアーカイブ
Unified Hallucination Detection for Multimodal Large Language Models
要約 マルチモーダル タスクの大幅な進歩にも関わらず、マルチモーダル大規模言語モ … 続きを読む
Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond
要約 生成言語モデルの最近の進歩により、文書から知識を記憶し、知識を思い出してユ … 続きを読む
UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
要約 マルチカメラ 3D 認識は、自動運転における著名な研究分野として浮上してお … 続きを読む
Lester: rotoscope animation through video object segmentation and tracking
要約 この記事では、ビデオからレトロスタイルの 2D アニメーションを自動的に合 … 続きを読む
MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding
要約 知覚では、複数の感覚情報が統合されて、2D ビューからの視覚情報が 3D … 続きを読む
Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio
要約 我々は、プロトタイプ学習に基づいた音楽オーディオ分類の解釈可能なモデル P … 続きを読む
LL-GABR: Energy Efficient Live Video Streaming Using Reinforcement Learning
要約 近年、ライブ ビデオ ストリーミング用のアダプティブ ビットレート (AB … 続きを読む
Customizable Perturbation Synthesis for Robust SLAM Benchmarking
要約 堅牢性は、非構造化環境、特に同時ローカリゼーションとマッピング (SLAM … 続きを読む
Test-Time Backdoor Attacks on Multimodal Large Language Models
要約 バックドア攻撃は通常、トレーニング データを汚染することによって実行され、 … 続きを読む
Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image Data
要約 テキストと画像の両方を含むマルチモーダルな入力に応じて感情制御されたフィー … 続きを読む