-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Unified Hallucination Detection for Multimodal Large Language Models
要約 マルチモーダル タスクの大幅な進歩にも関わらず、マルチモーダル大規模言語モ … 続きを読む
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation
要約 近年、現実的な生成結果と幅広いパーソナライズされたアプリケーションにより、 … 続きを読む
WorDepth: Variational Language Prior for Monocular Depth Estimation
要約 単一の画像からの 3 次元 (3D) 再構成は、スケールなどの固有の曖昧さ … 続きを読む
Looking Backward: Streaming Video-to-Video Translation with Feature Banks
要約 このペーパーでは、ユーザー プロンプトを使用してリアルタイムのストリーミン … 続きを読む
OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance
要約 リアルで自然な、唇で読み取れる話し顔ビデオを作成することは、依然として困難 … 続きを読む
A Dataset and Baselines for Measuring and Predicting the Music Piece Memorability
要約 今日、人類は自発的なストリーミング サービスやコマーシャルの休憩中の偶然の … 続きを読む
ProtT3: Protein-to-Text Generation for Text-based Protein Understanding
要約 言語モデル (LM) は、生物医学の質問応答タスクで明らかなように、タンパ … 続きを読む
Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances
要約 マルチモーダルな発話の意味論を発見することは、人間の言語を理解し、人間と機 … 続きを読む
Alzheimer’s Magnetic Resonance Imaging Classification Using Deep and Meta-Learning Models
要約 最先端の機械学習アプローチであるディープラーニングは、特に医療分野において … 続きを読む