-
最近の投稿
- Mastering Contact-rich Tasks by Combining Soft and Rigid Robotics with Imitation Learning
- From CAD to URDF: Co-Design of a Jet-Powered Humanoid Robot Including CAD Geometry
- SPA: 3D Spatial-Awareness Enables Effective Embodied Representation
- Lean Methodology for Garment Modernization
- Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
-
最近のコメント
表示できるコメントはありません。 cs.AI (27921) cs.CL (21096) cs.CR (2183) cs.CV (34619) cs.LG (32651) cs.RO (16028) cs.SY (2485) eess.IV (4238) eess.SY (2479) stat.ML (4372)
「cs.MM」カテゴリーアーカイブ
Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning
要約 クロスモーダル検索の分野における最近の開発にもかかわらず、手動で注釈を付け … 続きを読む
Late multimodal fusion for image and audio music transcription
要約 音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む
Learned Lossless JPEG Transcoding via Joint Lossy and Residual Compression
要約 一般的に使用される画像圧縮形式として、JPEG は画像の送信と保存に広く適 … 続きを読む
Retrieval-Augmented Transformer for Image Captioning
要約 画像キャプション モデルは、入力画像の自然言語による説明を提供することで、 … 続きを読む
Proposal-Free Temporal Action Detection via Global Segmentation Mask Learning
要約 既存の時間アクション検出 (TAD) メソッドは、ビデオごとに圧倒的に多数 … 続きを読む
Causal Reasoning Meets Visual Representation Learning: A Prospective Study
要約 視覚表現学習は、視覚理解、ビデオ理解、マルチモーダル分析、ヒューマン コン … 続きを読む
GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement
要約 Grounded Situation Recognition (GSR) … 続きを読む
Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis
要約 ユーザーが作成したオンライン動画の急増に伴い、マルチモーダル感情分析 (M … 続きを読む
Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation
要約 ビデオの音源をローカライズするために、オーディオビジュアル表現学習のための … 続きを読む
A Unified Image Preprocessing Framework For Image Compression
要約 ストリーミング メディア テクノロジーの発展に伴い、音声と視覚情報に依存す … 続きを読む