-
最近の投稿
- RT-cache: Efficient Robot Trajectory Retrieval System
- Reach-Avoid-Stabilize Using Admissible Control Sets
- Solving Reach- and Stabilize-Avoid Problems Using Discounted Reachability
- A Novel 6-axis Force/Torque Sensor Using Inductance Sensors
- Deployable and Generalizable Motion Prediction: Taxonomy, Open Challenges and Future Directions
-
最近のコメント
表示できるコメントはありません。 cs.AI (38110) cs.CL (28797) cs.CV (43686) cs.HC (2911) cs.LG (43032) cs.RO (22672) cs.SY (3480) eess.IV (5065) eess.SY (3472) stat.ML (5604)
「cs.MM」カテゴリーアーカイブ
A Comprehensive Survey on Composed Image Retrieval
要約 Composed Image Retrieval(CIR)は、ユーザーが参 … 続きを読む
FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation
要約 レシピデータを用いた食品イメージの理解に関する研究は、そのデータの多様性と … 続きを読む
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
要約 ドメイン固有の定理を理解するには、多くの場合、単なるテキストベースの推論以 … 続きを読む
Language-Guided Diffusion Model for Visual Grounding
要約 視覚的に接地(VG)タスクには、明示的に対応する画像領域が提供される言語フ … 続きを読む
ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
要約 視覚的なストーリーテリングには、キャラクターやシーンの一貫性を維持しながら … 続きを読む
LightThinker: Thinking Step-by-Step Compression
要約 大規模な言語モデル(LLM)は、複雑な推論タスクで顕著なパフォーマンスを示 … 続きを読む
Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation
要約 人間のアフォーダンス学習は、推定されたポーズがシーン内の有効な人間の行動を … 続きを読む
Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation
要約 既存の方法は、分類の問題として偽のニュースビデオの検出に対処していますが、 … 続きを読む
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention
要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む
Multi-scale Attention Guided Pose Transfer
要約 ポーズ転送とは、異なるポーズをとっている人の別のイメージから、以前に見えな … 続きを読む