-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年6月
Multistep Consistency Models
要約 拡散モデルは比較的訓練しやすいが、サンプルを生成するのに多くのステップを必 … 続きを読む
SpeechAct: Towards Generating Whole-body Motion from Speech
要約 本稿では、音声から全身運動を生成する問題を取り上げる。大きな成功を収めたに … 続きを読む
カテゴリー: cs.CV
SpeechAct: Towards Generating Whole-body Motion from Speech はコメントを受け付けていません
FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis
要約 十分に注釈付けされた医療データセットが少ないため、ImageNetのような … 続きを読む
ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation
要約 自然言語生成(NLG)は、画像、動画、テキストの形で入力データを受け入れ、 … 続きを読む
Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach
要約 自己教師付き視覚表現学習は、伝統的に画像レベルのインスタンス識別に焦点を当 … 続きを読む
カテゴリー: cs.CV
Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach はコメントを受け付けていません
Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models
要約 事前に学習された視覚言語モデル(VLM)の出現に伴い、下流のタスクのために … 続きを読む
Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast
要約 マルチモーダル大規模言語モデル(MLLM)エージェントは、指示を受け取り、 … 続きを読む
Interpreting and Improving Diffusion Models from an Optimization Perspective
要約 ノイズ除去は直感的に射影と関連している。実際、多様体仮説の下では、ランダム … 続きを読む
Iterative Motion Editing with Natural Language
要約 テキストからモーションへの拡散モデルは、テキストプロンプトからリアルなアニ … 続きを読む
Cross-view Masked Diffusion Transformers for Person Image Synthesis
要約 X-MDPT ($underline{Cross}$-view $-ask … 続きを読む
カテゴリー: cs.CV
Cross-view Masked Diffusion Transformers for Person Image Synthesis はコメントを受け付けていません