-
最近の投稿
- A Systematic Approach to Design Real-World Human-in-the-Loop Deep Reinforcement Learning: Salient Features, Challenges and Trade-offs
- Robo-Troj: Attacking LLM-based Task Planners
- SE(3)-Equivariant Robot Learning and Control: A Tutorial Survey
- Geometric Formulation of Unified Force-Impedance Control on SE(3) for Robotic Manipulators
- Subframework-based Bearing Rigidity Maintenance Control in Multirobot Networks
-
最近のコメント
表示できるコメントはありません。 cs.AI (37106) cs.CL (28087) cs.CV (42847) cs.HC (2837) cs.LG (42044) cs.RO (21987) cs.SY (3355) eess.IV (4990) eess.SY (3347) stat.ML (5498)
「cs.MM」カテゴリーアーカイブ
Diverse Sign Language Translation
要約 話し言葉と同様に、単一の手話表現は複数の有効なテキスト解釈に対応する可能性 … 続きを読む
TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning
要約 マルチモーダル大規模言語モデル (MLLM) は、短いビデオの理解において … 続きを読む
Taming Data and Transformers for Audio Generation
要約 環境音の生成は、データ不足とキャプションの品質が不十分なことが多いため、困 … 続きを読む
Exploring Self-Supervised Skeleton-Based Human Action Recognition under Occlusions
要約 自己監視型のスケルトンベースの動作認識手法を自律ロボット システムに統合す … 続きを読む
LocoMotion: Learning Motion-Focused Video-Language Representations
要約 この論文は、動きに焦点を当てたビデオ言語表現を目指しています。 ビデオ言語 … 続きを読む
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling
要約 言語モデルは、画像、ビデオ、音声、オーディオなどの自然信号のモデル化に効果 … 続きを読む
AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results
要約 ビデオ品質評価 (VQA) は、視聴者のエクスペリエンスに直接影響を与える … 続きを読む
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
Movie101v2: Improved Movie Narration Benchmark
要約 自動映画ナレーションは、視覚障害のある視聴者を支援するために、ビデオに合わ … 続きを読む