-
最近の投稿
- LLMSteer: Improving Long-Context LLM Inference by Steering Attention on Reused Contexts
- ViSTa Dataset: Do vision-language models understand sequential tasks?
- Pushing the Limits of Sparsity: A Bag of Tricks for Extreme Pruning
- Predicting Wall Thickness Changes in Cold Forging Processes: An Integrated FEM and Neural Network approach
- Geometric Algebra Planes: Convex Implicit Neural Volumes
-
最近のコメント
表示できるコメントはありません。 cs.AI (29928) cs.CL (22604) cs.CR (2321) cs.CV (36303) cs.LG (34749) cs.RO (17366) cs.SY (2670) eess.IV (4416) eess.SY (2664) stat.ML (4635)
「cs.MM」カテゴリーアーカイブ
Taming Data and Transformers for Audio Generation
要約 環境音の生成は、データ不足とキャプションの品質が不十分なことが多いため、困 … 続きを読む
Exploring Self-Supervised Skeleton-Based Human Action Recognition under Occlusions
要約 自己監視型のスケルトンベースの動作認識手法を自律ロボット システムに統合す … 続きを読む
LocoMotion: Learning Motion-Focused Video-Language Representations
要約 この論文は、動きに焦点を当てたビデオ言語表現を目指しています。 ビデオ言語 … 続きを読む
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling
要約 言語モデルは、画像、ビデオ、音声、オーディオなどの自然信号のモデル化に効果 … 続きを読む
AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results
要約 ビデオ品質評価 (VQA) は、視聴者のエクスペリエンスに直接影響を与える … 続きを読む
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
Movie101v2: Improved Movie Narration Benchmark
要約 自動映画ナレーションは、視覚障害のある視聴者を支援するために、ビデオに合わ … 続きを読む
Parallel Backpropagation for Inverse of a Convolution with Application to Normalizing Flows
要約 可逆畳み込みの逆は、フローの正規化や画像のブレ除去などで登場する重要な操作 … 続きを読む
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
要約 AI モデルが現実世界の信号から効果的に学習し、それに関与するには、多様な … 続きを読む
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
要約 AI モデルが現実世界の信号から効果的に学習し、それに関与するには、多様な … 続きを読む