-
最近の投稿
- Topological mapping for traversability-aware long-range navigation in off-road terrain
- Equality Constrained Diffusion for Direct Trajectory Optimization
- Learning-Based Autonomous Navigation, Benchmark Environments and Simulation Framework for Endovascular Interventions
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case
- Bi-Level Motion Imitation for Humanoid Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (27641) cs.CL (20879) cs.CR (2167) cs.CV (34375) cs.LG (32373) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「cs.MM」カテゴリーアーカイブ
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning
要約 テキストから音楽への編集における最近の進歩は、テキスト クエリを使用して音 … 続きを読む
Unified Hallucination Detection for Multimodal Large Language Models
要約 マルチモーダル タスクの大幅な進歩にも関わらず、マルチモーダル大規模言語モ … 続きを読む
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation
要約 近年、現実的な生成結果と幅広いパーソナライズされたアプリケーションにより、 … 続きを読む
WorDepth: Variational Language Prior for Monocular Depth Estimation
要約 単一の画像からの 3 次元 (3D) 再構成は、スケールなどの固有の曖昧さ … 続きを読む
Looking Backward: Streaming Video-to-Video Translation with Feature Banks
要約 このペーパーでは、ユーザー プロンプトを使用してリアルタイムのストリーミン … 続きを読む
OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance
要約 リアルで自然な、唇で読み取れる話し顔ビデオを作成することは、依然として困難 … 続きを読む
A Dataset and Baselines for Measuring and Predicting the Music Piece Memorability
要約 今日、人類は自発的なストリーミング サービスやコマーシャルの休憩中の偶然の … 続きを読む
ProtT3: Protein-to-Text Generation for Text-based Protein Understanding
要約 言語モデル (LM) は、生物医学の質問応答タスクで明らかなように、タンパ … 続きを読む
Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances
要約 マルチモーダルな発話の意味論を発見することは、人間の言語を理解し、人間と機 … 続きを読む