-
最近の投稿
- Digi2Real: Bridging the Realism Gap in Synthetic Data Face Recognition via Foundation Models
- Tencent Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation
- Predicting the Temperature-Dependent CMC of Surfactant Mixtures with Graph Neural Networks
- Evaluating the Ability of Large Language Models to Generate Verifiable Specifications in VeriFast
- Advancements and limitations of LLMs in replicating human color-word associations
-
最近のコメント
表示できるコメントはありません。 cs.AI (29087) cs.CL (21984) cs.CR (2262) cs.CV (35616) cs.LG (33907) cs.RO (16835) cs.SY (2586) eess.IV (4336) eess.SY (2580) stat.ML (4549)
月別アーカイブ: 2024年6月
Multistep Consistency Models
要約 拡散モデルは比較的訓練しやすいが、サンプルを生成するのに多くのステップを必 … 続きを読む
SpeechAct: Towards Generating Whole-body Motion from Speech
要約 本稿では、音声から全身運動を生成する問題を取り上げる。大きな成功を収めたに … 続きを読む
カテゴリー: cs.CV
SpeechAct: Towards Generating Whole-body Motion from Speech はコメントを受け付けていません
FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis
要約 十分に注釈付けされた医療データセットが少ないため、ImageNetのような … 続きを読む
ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation
要約 自然言語生成(NLG)は、画像、動画、テキストの形で入力データを受け入れ、 … 続きを読む
Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach
要約 自己教師付き視覚表現学習は、伝統的に画像レベルのインスタンス識別に焦点を当 … 続きを読む
カテゴリー: cs.CV
Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach はコメントを受け付けていません
Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models
要約 事前に学習された視覚言語モデル(VLM)の出現に伴い、下流のタスクのために … 続きを読む
Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast
要約 マルチモーダル大規模言語モデル(MLLM)エージェントは、指示を受け取り、 … 続きを読む
Interpreting and Improving Diffusion Models from an Optimization Perspective
要約 ノイズ除去は直感的に射影と関連している。実際、多様体仮説の下では、ランダム … 続きを読む
Iterative Motion Editing with Natural Language
要約 テキストからモーションへの拡散モデルは、テキストプロンプトからリアルなアニ … 続きを読む
Cross-view Masked Diffusion Transformers for Person Image Synthesis
要約 X-MDPT ($underline{Cross}$-view $-ask … 続きを読む
カテゴリー: cs.CV
Cross-view Masked Diffusion Transformers for Person Image Synthesis はコメントを受け付けていません