-
最近の投稿
- Predicting center of mass position in non-cyclic activities: The influence of acceleration, prediction horizon, and ground reaction forces
- Are Transformers Truly Foundational for Robotics?
- Performance Evaluation of Deep Learning-Based State Estimation: A Comparative Study of KalmanNet
- Performance Assessment of Lidar Odometry Frameworks: A Case Study at the Australian Botanic Garden Mount Annan
- VLM-Social-Nav: Socially Aware Robot Navigation through Scoring using Vision-Language Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (30189) cs.CL (22805) cs.CR (2340) cs.CV (36561) cs.LG (35013) cs.RO (17553) cs.SY (2697) eess.IV (4453) eess.SY (2691) stat.ML (4664)
「cs.MM」カテゴリーアーカイブ
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation
要約 近年、現実的な生成結果と幅広いパーソナライズされたアプリケーションにより、 … 続きを読む
WorDepth: Variational Language Prior for Monocular Depth Estimation
要約 単一の画像からの 3 次元 (3D) 再構成は、スケールなどの固有の曖昧さ … 続きを読む
Looking Backward: Streaming Video-to-Video Translation with Feature Banks
要約 このペーパーでは、ユーザー プロンプトを使用してリアルタイムのストリーミン … 続きを読む
OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance
要約 リアルで自然な、唇で読み取れる話し顔ビデオを作成することは、依然として困難 … 続きを読む
A Dataset and Baselines for Measuring and Predicting the Music Piece Memorability
要約 今日、人類は自発的なストリーミング サービスやコマーシャルの休憩中の偶然の … 続きを読む
ProtT3: Protein-to-Text Generation for Text-based Protein Understanding
要約 言語モデル (LM) は、生物医学の質問応答タスクで明らかなように、タンパ … 続きを読む
Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances
要約 マルチモーダルな発話の意味論を発見することは、人間の言語を理解し、人間と機 … 続きを読む
Alzheimer’s Magnetic Resonance Imaging Classification Using Deep and Meta-Learning Models
要約 最先端の機械学習アプローチであるディープラーニングは、特に医療分野において … 続きを読む
Images that Sound: Composing Images and Sounds on a Single Canvas
要約 スペクトログラムは、私たちの視覚世界にある画像とは大きく異なるサウンドの … 続きを読む
Picking watermarks from noise (PWFN): an improved robust watermarking model against intensive distortions
要約 電子透かしは、人間の目には検出できない方法で画像を変更することで秘密情報を … 続きを読む