月別アーカイブ: 2024年6月

Multistep Consistency Models

要約 拡散モデルは比較的訓練しやすいが、サンプルを生成するのに多くのステップを必 … 続きを読む

カテゴリー: cs.CV, cs.LG, stat.ML | Multistep Consistency Models はコメントを受け付けていません

SpeechAct: Towards Generating Whole-body Motion from Speech

要約 本稿では、音声から全身運動を生成する問題を取り上げる。大きな成功を収めたに … 続きを読む

カテゴリー: cs.CV | SpeechAct: Towards Generating Whole-body Motion from Speech はコメントを受け付けていません

FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis

要約 十分に注釈付けされた医療データセットが少ないため、ImageNetのような … 続きを読む

カテゴリー: cs.AI, cs.CV | FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis はコメントを受け付けていません

ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation

要約 自然言語生成(NLG)は、画像、動画、テキストの形で入力データを受け入れ、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation はコメントを受け付けていません

Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach

要約 自己教師付き視覚表現学習は、伝統的に画像レベルのインスタンス識別に焦点を当 … 続きを読む

カテゴリー: cs.CV | Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach はコメントを受け付けていません

Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models

要約 事前に学習された視覚言語モデル(VLM)の出現に伴い、下流のタスクのために … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models はコメントを受け付けていません

Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast

要約 マルチモーダル大規模言語モデル(MLLM)エージェントは、指示を受け取り、 … 続きを読む

カテゴリー: cs.CL, cs.CR, cs.CV, cs.LG, cs.MA | Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast はコメントを受け付けていません

Interpreting and Improving Diffusion Models from an Optimization Perspective

要約 ノイズ除去は直感的に射影と関連している。実際、多様体仮説の下では、ランダム … 続きを読む

カテゴリー: cs.CV, cs.LG, math.OC, stat.ML | Interpreting and Improving Diffusion Models from an Optimization Perspective はコメントを受け付けていません

Iterative Motion Editing with Natural Language

要約 テキストからモーションへの拡散モデルは、テキストプロンプトからリアルなアニ … 続きを読む

カテゴリー: cs.CV, cs.GR | Iterative Motion Editing with Natural Language はコメントを受け付けていません

Cross-view Masked Diffusion Transformers for Person Image Synthesis

要約 X-MDPT ($underline{Cross}$-view $-ask … 続きを読む

カテゴリー: cs.CV | Cross-view Masked Diffusion Transformers for Person Image Synthesis はコメントを受け付けていません