-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「cs.MM」カテゴリーアーカイブ
DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via Contrastive Prompt-Tuning
要約 大規模なテキストから画像への生成モデルは、テキストに導かれた高解像度の高品 … 続きを読む
TriDet: Temporal Action Detection with Relative Boundary Modeling
要約 この論文では、一時的なアクション検出のための 1 段階のフレームワーク T … 続きを読む
Lana: A Language-Capable Navigator for Instruction Following and Generation
要約 最近、ロボット エージェントがナビゲーションの指示に従うことを伴う視覚言語 … 続きを読む
Evaluating gesture-generation in a large-scale open challenge: The GENEA Challenge 2022
要約 このペーパーでは、データ駆動型の自動共同音声ジェスチャ生成をベンチマークす … 続きを読む
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos
要約 トリミングされていないビデオが与えられた場合、テンポラル センテンス グラ … 続きを読む
SuS-X: Training-Free Name-Only Transfer of Vision-Language Models
要約 Contrastive Language-Image Pre-traini … 続きを読む
Temporal Sentence Grounding in Videos: A Survey and Future Directions
要約 ビデオにおける時間的文のグラウンディング (TSGV)、別名自然言語ビデオ … 続きを読む
PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents
要約 大規模なデータセットでトレーニングされた Foundation モデルは、 … 続きを読む
TriDet: Temporal Action Detection with Relative Boundary Modeling
要約 この論文では、一時的なアクション検出のための 1 段階のフレームワーク T … 続きを読む
MuLTI: Efficient Video-and-Language Understanding with MultiWay-Sampler and Multiple Choice Modeling
要約 ビデオと言語の理解には、ビデオによる質問への回答、テキストとビデオの検索、 … 続きを読む