-
最近の投稿
- HCOA*: Hierarchical Class-ordered A* for Navigation in Semantic Environments
- Sensor-Based Distributionally Robust Control for Safe Robot Navigation in Dynamic Environments
- Learn to Swim: Data-Driven LSTM Hydrodynamic Model for Quadruped Robot Gait Optimization
- Neural Configuration-Space Barriers for Manipulation Planning and Control
- Systematic Evaluation of Initial States and Exploration-Exploitation Strategies in PID Auto-Tuning: A Framework-Driven Approach Applied on Mobile Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (37691) cs.CL (28491) cs.CV (43310) cs.HC (2883) cs.LG (42610) cs.RO (22380) cs.SY (3435) eess.IV (5028) eess.SY (3427) stat.ML (5560)
「cs.MM」カテゴリーアーカイブ
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation
要約 近年、現実的な生成結果と幅広いパーソナライズされたアプリケーションにより、 … 続きを読む
WorDepth: Variational Language Prior for Monocular Depth Estimation
要約 単一の画像からの 3 次元 (3D) 再構成は、スケールなどの固有の曖昧さ … 続きを読む
Looking Backward: Streaming Video-to-Video Translation with Feature Banks
要約 このペーパーでは、ユーザー プロンプトを使用してリアルタイムのストリーミン … 続きを読む
OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance
要約 リアルで自然な、唇で読み取れる話し顔ビデオを作成することは、依然として困難 … 続きを読む
A Dataset and Baselines for Measuring and Predicting the Music Piece Memorability
要約 今日、人類は自発的なストリーミング サービスやコマーシャルの休憩中の偶然の … 続きを読む
ProtT3: Protein-to-Text Generation for Text-based Protein Understanding
要約 言語モデル (LM) は、生物医学の質問応答タスクで明らかなように、タンパ … 続きを読む
Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances
要約 マルチモーダルな発話の意味論を発見することは、人間の言語を理解し、人間と機 … 続きを読む
Alzheimer’s Magnetic Resonance Imaging Classification Using Deep and Meta-Learning Models
要約 最先端の機械学習アプローチであるディープラーニングは、特に医療分野において … 続きを読む
Images that Sound: Composing Images and Sounds on a Single Canvas
要約 スペクトログラムは、私たちの視覚世界にある画像とは大きく異なるサウンドの … 続きを読む
Picking watermarks from noise (PWFN): an improved robust watermarking model against intensive distortions
要約 電子透かしは、人間の目には検出できない方法で画像を変更することで秘密情報を … 続きを読む