-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
LocoMotion: Learning Motion-Focused Video-Language Representations
要約 この論文は、動きに焦点を当てたビデオ言語表現を目指しています。 ビデオ言語 … 続きを読む
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling
要約 言語モデルは、画像、ビデオ、音声、オーディオなどの自然信号のモデル化に効果 … 続きを読む
AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results
要約 ビデオ品質評価 (VQA) は、視聴者のエクスペリエンスに直接影響を与える … 続きを読む
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
Movie101v2: Improved Movie Narration Benchmark
要約 自動映画ナレーションは、視覚障害のある視聴者を支援するために、ビデオに合わ … 続きを読む
Parallel Backpropagation for Inverse of a Convolution with Application to Normalizing Flows
要約 可逆畳み込みの逆は、フローの正規化や画像のブレ除去などで登場する重要な操作 … 続きを読む
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
要約 AI モデルが現実世界の信号から効果的に学習し、それに関与するには、多様な … 続きを読む
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
要約 AI モデルが現実世界の信号から効果的に学習し、それに関与するには、多様な … 続きを読む
Beyond Coarse-Grained Matching in Video-Text Retrieval
要約 ビデオテキストの検索は大幅に進歩しましたが、キャプションの微妙な違いを識別 … 続きを読む
Improving Multi-modal Large Language Model through Boosting Vision Capabilities
要約 私たちは、視覚言語モデルを強化するための視覚理解能力の向上に焦点を当ててい … 続きを読む