-
最近の投稿
- Physical Reservoir Computing in Hook-Shaped Rover Wheel Spokes for Real-Time Terrain Identification
- Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models
- Multi-Sensor Fusion-Based Mobile Manipulator Remote Control for Intelligent Smart Home Assistance
- Integration of a Graph-Based Path Planner and Mixed-Integer MPC for Robot Navigation in Cluttered Environments
- Demonstrating CavePI: Autonomous Exploration of Underwater Caves by Semantic Guidance
-
最近のコメント
表示できるコメントはありません。 cs.AI (36829) cs.CL (27883) cs.CV (42623) cs.HC (2814) cs.LG (41781) cs.RO (21795) cs.SY (3320) eess.IV (4979) eess.SY (3312) stat.ML (5469)
月別アーカイブ: 2024年6月
Multistep Consistency Models
要約 拡散モデルは比較的訓練しやすいが、サンプルを生成するのに多くのステップを必 … 続きを読む
SpeechAct: Towards Generating Whole-body Motion from Speech
要約 本稿では、音声から全身運動を生成する問題を取り上げる。大きな成功を収めたに … 続きを読む
カテゴリー: cs.CV
SpeechAct: Towards Generating Whole-body Motion from Speech はコメントを受け付けていません
FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis
要約 十分に注釈付けされた医療データセットが少ないため、ImageNetのような … 続きを読む
ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation
要約 自然言語生成(NLG)は、画像、動画、テキストの形で入力データを受け入れ、 … 続きを読む
Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach
要約 自己教師付き視覚表現学習は、伝統的に画像レベルのインスタンス識別に焦点を当 … 続きを読む
カテゴリー: cs.CV
Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach はコメントを受け付けていません
Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models
要約 事前に学習された視覚言語モデル(VLM)の出現に伴い、下流のタスクのために … 続きを読む
Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast
要約 マルチモーダル大規模言語モデル(MLLM)エージェントは、指示を受け取り、 … 続きを読む
Interpreting and Improving Diffusion Models from an Optimization Perspective
要約 ノイズ除去は直感的に射影と関連している。実際、多様体仮説の下では、ランダム … 続きを読む
Iterative Motion Editing with Natural Language
要約 テキストからモーションへの拡散モデルは、テキストプロンプトからリアルなアニ … 続きを読む
Cross-view Masked Diffusion Transformers for Person Image Synthesis
要約 X-MDPT ($underline{Cross}$-view $-ask … 続きを読む
カテゴリー: cs.CV
Cross-view Masked Diffusion Transformers for Person Image Synthesis はコメントを受け付けていません