-
最近の投稿
- Lightning UQ Box: A Comprehensive Framework for Uncertainty Quantification in Deep Learning
- Fine-Grained Expressive Power of Weisfeiler-Leman: A Homomorphism Counting Perspective
- Hybrid Feedback for Three-dimensional Convex Obstacle Avoidance (Extended version)
- Self-Deployable, Adaptive Soft Robots Based on Contracting-Cord Particle Jamming
- DecTrain: Deciding When to Train a DNN Online
-
最近のコメント
表示できるコメントはありません。 cs.AI (27713) cs.CL (20937) cs.CR (2171) cs.CV (34430) cs.LG (32450) cs.RO (15866) cs.SY (2464) eess.IV (4226) eess.SY (2458) stat.ML (4346)
「cs.MM」カテゴリーアーカイブ
Self-Adaptive Sampling for Efficient Video Question-Answering on Image–Text Models
要約 ビデオの質問応答は、ビデオ理解の分野における基本的なタスクです。 Vide … 続きを読む
Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization
要約 パーソナライズされた生成パラダイムにより、デザイナーは、いくつかの画像に対 … 続きを読む
WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar
要約 人間の意図に基づく水路の認識は、水環境での自律航行および無人水上車両 (U … 続きを読む
Rethinking Multi-view Representation Learning via Distilled Disentangling
要約 マルチビュー表現学習の目的は、多様なデータ ソースからビューの一貫性とビュ … 続きを読む
Language Model Beats Diffusion — Tokenizer is Key to Visual Generation
要約 大規模言語モデル (LLM) は、言語の生成タスクでは主要なモデルですが、 … 続きを読む
Evaluating gesture generation in a large-scale open challenge: The GENEA Challenge 2022
要約 この論文では、データ駆動型自動同時音声ジェスチャ生成のベンチマークを目的と … 続きを読む
MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions
要約 画像検索、つまり参照画像から目的の画像を見つけることには、本質的に豊富で多 … 続きを読む
Bringing Textual Prompt to AI-Generated Image Quality Assessment
要約 AI 生成画像 (AGI) には、本質的にマルチモーダルな性質があります。 … 続きを読む
Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding
要約 大規模視覚言語モデル (LVLM) は、視覚入力から状況に応じて詳細で一貫 … 続きを読む