-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training
要約 ビデオ言語の事前トレーニングにより、下流のさまざまなビデオ言語タスクのパフ … 続きを読む
Learning to Estimate 3D Human Pose from Point Cloud
要約 3D 姿勢推定は、コンピューター ビジョンにおける困難な問題です。 既存の … 続きを読む
Generative Colorization of Structured Mobile Web Pages
要約 色は Web ページの重要なデザイン要素であり、閲覧者の感情や Web サ … 続きを読む
MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation
要約 マルチモーダル コンテンツで応答することは、インテリジェントな会話型エージ … 続きを読む
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models
要約 大規模言語モデル (LLM) は、新しい言語タスクに対する優れたゼロショッ … 続きを読む
Attention-Aware Anime Line Drawing Colorization
要約 アニメの線画の自動彩色は、アニメ業界に大きなメリットをもたらすことから、近 … 続きを読む
QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity
要約 既存のスタイル転送アルゴリズムのメカニズムは、ハイブリッド損失関数を最小化 … 続きを読む
MAViL: Masked Audio-Video Learners
要約 オーディオビジュアル表現をトレーニングするために、Masked Audio … 続きを読む
Overview of The MediaEval 2022 Predicting Video Memorability Task
要約 このホワイト ペーパーでは、MediaEval2022 の一部として、ビデ … 続きを読む
Memories are One-to-Many Mapping Alleviators in Talking Face Generation
要約 話す顔の生成は、入力オーディオによって駆動される対象人物の写真のようにリア … 続きを読む