-
最近の投稿
- On the Feedback Law in Stochastic Optimal Nonlinear Control
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16023) cs.SY (2485) eess.IV (4238) eess.SY (2479) stat.ML (4372)
「cs.MM」カテゴリーアーカイブ
Temporal Sentence Grounding in Videos: A Survey and Future Directions
要約 ビデオにおける時間的文のグラウンディング (TSGV)、別名自然言語ビデオ … 続きを読む
Leveraging Computer Vision Application in Visual Arts: A Case Study on the Use of Residual Neural Network to Classify and Analyze Baroque Paintings
要約 大規模なデジタル化された美術コレクションの利用可能性が高まるにつれて、絵画 … 続きを読む
TPFNet: A Novel Text In-painting Transformer for Text Removal
要約 画像からのテキスト消去は、画像の編集やプライバシーの保護など、さまざまなタ … 続きを読む
ProContEXT: Exploring Progressive Context Transformer for Tracking
要約 既存のビジュアル オブジェクト トラッキング (VOT) は、最初のフレー … 続きを読む
LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception
要約 ストリーミング認識は、自動運転システムの遅延と精度を首尾一貫して考慮する自 … 続きを読む
TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction
要約 人間の意図の予測は、ビデオ内のアクティビティを視覚ベースのシステムで予測す … 続きを読む
Learning Audio-Visual embedding for Person Verification in the Wild
要約 オーディオビジュアルの埋め込みは、個人の検証において単一モダリティの埋め込 … 続きを読む
AMPose: Alternatively Mixed Global-Local Attention Model for 3D Human Pose Estimation
要約 グラフ畳み込みネットワーク (GCN) は、3D 人間の姿勢推定 (HPE … 続きを読む
End-to-end Transformer for Compressed Video Quality Enhancement
要約 畳み込みニューラル ネットワークは、近年、圧縮ビデオの品質向上タスクで優れ … 続きを読む
Image-Text Retrieval with Binary and Continuous Label Supervision
要約 ほとんどの画像とテキストの検索作業では、画像とテキストのペアが一致するかど … 続きを読む