-
最近の投稿
- On the Feedback Law in Stochastic Optimal Nonlinear Control
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16023) cs.SY (2485) eess.IV (4238) eess.SY (2479) stat.ML (4372)
「cs.MM」カテゴリーアーカイブ
MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning
要約 以前のビジョン言語事前トレーニング モデルは、主にトークンとオブジェクト … 続きを読む
Time-of-Day Neural Style Transfer for Architectural Photographs
要約 建築写真は、建物や構造物を前景に、ドラマチックな照明を背景に捉えることに焦 … 続きを読む
Estimating Visual Information From Audio Through Manifold Learning
要約 オーディオ信号のみを使用してシーンに関する視覚情報を抽出するための新しいフ … 続きを読む
Learning Audio-Visual embedding for Wild Person Verification
要約 これらの 2 つのモダリティからオーディオビジュアル埋め込みを抽出して、人 … 続きを読む
VICTOR: Visual Incompatibility Detection with Transformers and Fashion-specific contrastive pre-training
要約 ファッションの着こなしが美的であるとみなされるためには、それを構成する衣服 … 続きを読む
Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering
要約 マルチモーダルビデオ質問応答は、正解を予測し、質問に関連する時間的境界を局 … 続きを読む
Saliency-based Multiple Region of Interest Detection from a Single 360° image
要約 360度画像は、カメラ周辺の全方位的な視覚情報を含んでいるため、情報量が豊 … 続きを読む
CorrI2P: Deep Image-to-Point Cloud Registration via Dense Correspondence
要約 本論文では、2次元画像を3次元点群に位置決めするための重要なステップは、両 … 続きを読む
DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality Attention
要約 デジタル広告や電子商取引などの様々なウェブアプリケーションにおいて、マルチ … 続きを読む
Identification of Small Objects in Satellite Image Benchmarks
要約 近年の航空画像へのアクセスと量の増加、計算能力の向上、およびアプリケーショ … 続きを読む