-
最近の投稿
- On the Feedback Law in Stochastic Optimal Nonlinear Control
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16023) cs.SY (2485) eess.IV (4238) eess.SY (2479) stat.ML (4372)
「cs.MM」カテゴリーアーカイブ
SPRING: Situated Conversation Agent Pretrained with Multimodal Questions from Incremental Layout Graph
要約 既存のマルチモーダル会話エージェントは、単純なシナリオでは絶対位置の特定や … 続きを読む
Attention-Aware Anime Line Drawing Colorization
要約 近年、アニメの線画の自動着色は、アニメ産業に多大な利益をもたらすことから注 … 続きを読む
Applicability limitations of differentiable full-reference image-quality
要約 画像処理アプリケーションの開発において、主観的な画質測定は重要な役割を担っ … 続きを読む
Training Vision-Language Transformers from Captions Alone
要約 Vision-Language Transformersは、人間のラベル( … 続きを読む
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training
要約 ビデオ言語の事前トレーニングにより、下流のさまざまなビデオ言語タスクのパフ … 続きを読む
Learning to Estimate 3D Human Pose from Point Cloud
要約 3D 姿勢推定は、コンピューター ビジョンにおける困難な問題です。 既存の … 続きを読む
Generative Colorization of Structured Mobile Web Pages
要約 色は Web ページの重要なデザイン要素であり、閲覧者の感情や Web サ … 続きを読む
MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation
要約 マルチモーダル コンテンツで応答することは、インテリジェントな会話型エージ … 続きを読む
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models
要約 大規模言語モデル (LLM) は、新しい言語タスクに対する優れたゼロショッ … 続きを読む