-
最近の投稿
- Computing High-dimensional Confidence Sets for Arbitrary Distributions
- Reservoir Computing: A New Paradigm for Neural Networks
- A Dynamic, Ordinal Gaussian Process Item Response Theoretic Model
- Solving the Paint Shop Problem with Flexible Management of Multi-Lane Buffers Using Reinforcement Learning and Action Masking
- MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators
-
最近のコメント
表示できるコメントはありません。 cs.AI (36107) cs.CL (27319) cs.CR (2749) cs.CV (41949) cs.LG (41080) cs.RO (21304) cs.SY (3219) eess.IV (4921) eess.SY (3213) stat.ML (5380)
「cs.MM」カテゴリーアーカイブ
FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation
要約 レシピデータを用いた食品イメージの理解に関する研究は、そのデータの多様性と … 続きを読む
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
要約 ドメイン固有の定理を理解するには、多くの場合、単なるテキストベースの推論以 … 続きを読む
Language-Guided Diffusion Model for Visual Grounding
要約 視覚的に接地(VG)タスクには、明示的に対応する画像領域が提供される言語フ … 続きを読む
ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
要約 視覚的なストーリーテリングには、キャラクターやシーンの一貫性を維持しながら … 続きを読む
LightThinker: Thinking Step-by-Step Compression
要約 大規模な言語モデル(LLM)は、複雑な推論タスクで顕著なパフォーマンスを示 … 続きを読む
Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation
要約 人間のアフォーダンス学習は、推定されたポーズがシーン内の有効な人間の行動を … 続きを読む
Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation
要約 既存の方法は、分類の問題として偽のニュースビデオの検出に対処していますが、 … 続きを読む
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention
要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む
Multi-scale Attention Guided Pose Transfer
要約 ポーズ転送とは、異なるポーズをとっている人の別のイメージから、以前に見えな … 続きを読む
TIPS: Text-Induced Pose Synthesis
要約 コンピュータービジョンでは、人間のポーズ統合と転送は、その人のすでに利用可 … 続きを読む