-
最近の投稿
- Finding Minimum-Cost Explanations for Predictions made by Tree Ensembles
- Supervised learning with probabilistic morphisms and kernel mean embeddings
- A Bayesian approach to modeling topic-metadata relationships
- APEX-MR: Multi-Robot Asynchronous Planning and Execution for Cooperative Assembly
- An End-to-End Framework for Optimizing Foot Trajectory and Force in Dry Adhesion Legged Wall-Climbing Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (37255) cs.CL (28190) cs.CV (42957) cs.HC (2847) cs.LG (42192) cs.RO (22087) cs.SY (3373) eess.IV (5001) eess.SY (3365) stat.ML (5517)
「cs.MM」カテゴリーアーカイブ
Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling
要約 ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類などの広範な主観 … 続きを読む
HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection
要約 オープン語彙オブジェクト検出 (OVD) モデルは、その広範なトレーニング … 続きを読む
MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion
要約 テキストベースの人間のモーション生成のための、新しいマルチパート融合ベース … 続きを読む
Vista3D: Unravel the 3D Darkside of a Single Image
要約 私たちは、目に見える部分を垣間見るだけで、オブジェクトの隠された次元を明ら … 続きを読む
NVLM: Open Frontier-Class Multimodal LLMs
要約 NVLM 1.0 は、視覚言語タスクで最先端の結果を達成するフロンティアク … 続きを読む
Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models
要約 マルチモーダル大規模言語モデル (MLLM) の最近の進歩では、MLLM … 続きを読む
DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis
要約 オーディオ駆動トーキング ヘッド合成は、提供されたオーディオから本物のよう … 続きを読む
On the Computation of BD-Rate over a Set of Videos for Fair Assessment of Performance of Learned Video Codecs
要約 Bjntegaard デルタ (BD) 測定は、さまざまなコーデック間のレ … 続きを読む
Learning Video Context as Interleaved Multimodal Sequences
要約 映画などのナラティブビデオは、その豊富なコンテキスト (キャラクター、会話 … 続きを読む
ComAlign: Compositional Alignment in Vision-Language Models
要約 CLIP のようなビジョン言語モデル (VLM) は、下流のタスクに転送可 … 続きを読む