-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.MM」カテゴリーアーカイブ
Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media
要約 Reddit ディスカッションなどのオンライン ソーシャル ネットワークに … 続きを読む
Terrain Diffusion Network: Climatic-Aware Terrain Generation with Geological Sketch Guidance
要約 スケッチベースの地形生成は、コンピューター ゲーム、アニメーション、仮想現 … 続きを読む
Priority-Centric Human Motion Generation in Discrete Latent Space
要約 テキストからモーションへの生成は、人間の能力と物理法則に準拠しながら、入力 … 続きを読む
Priority-Centric Human Motion Generation in Discrete Latent Space
要約 テキストからモーションへの生成は、人間の能力と物理法則に準拠しながら、入力 … 続きを読む
Exploiting Diverse Feature for Multimodal Sentiment Analysis
要約 このペーパーでは、MuSe 2023 マルチモーダル感情分析チャレンジの … 続きを読む
Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?
要約 マルチメディア コミュニティは、マルチモーダルな事前学習済みニューラル ネ … 続きを読む
With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning
要約 画像のキャプション作成は、視覚と言語を伴う多くのタスクと同様に、現在、画像 … 続きを読む
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations
要約 大規模な視覚言語の事前トレーニングは、マルチモーダルな理解と生成タスクにお … 続きを読む
Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?
要約 マルチメディア コミュニティは、マルチモーダルな事前学習済みニューラル ネ … 続きを読む