月別アーカイブ: 2024年6月

Multistep Consistency Models

投稿日: 2024年6月4日作成者: jarxiv

要約拡散モデルは比較的訓練しやすいが、サンプルを生成するのに多くのステップを必 … 続きを読む →

カテゴリー: cs.CV, cs.LG, stat.ML | コメントを受け付けていません

SpeechAct: Towards Generating Whole-body Motion from Speech

投稿日: 2024年6月4日作成者: jarxiv

要約本稿では、音声から全身運動を生成する問題を取り上げる。大きな成功を収めたに … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis

投稿日: 2024年6月4日作成者: jarxiv

要約十分に注釈付けされた医療データセットが少ないため、ImageNetのような … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation

投稿日: 2024年6月4日作成者: jarxiv

要約自然言語生成(NLG)は、画像、動画、テキストの形で入力データを受け入れ、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach

投稿日: 2024年6月4日作成者: jarxiv

要約自己教師付き視覚表現学習は、伝統的に画像レベルのインスタンス識別に焦点を当 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models

投稿日: 2024年6月4日作成者: jarxiv

要約事前に学習された視覚言語モデル（VLM）の出現に伴い、下流のタスクのために … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast

投稿日: 2024年6月4日作成者: jarxiv

要約マルチモーダル大規模言語モデル（MLLM）エージェントは、指示を受け取り、 … 続きを読む →

カテゴリー: cs.CL, cs.CR, cs.CV, cs.LG, cs.MA | コメントを受け付けていません

Interpreting and Improving Diffusion Models from an Optimization Perspective

投稿日: 2024年6月4日作成者: jarxiv

要約ノイズ除去は直感的に射影と関連している。実際、多様体仮説の下では、ランダム … 続きを読む →

カテゴリー: cs.CV, cs.LG, math.OC, stat.ML | コメントを受け付けていません

Iterative Motion Editing with Natural Language

投稿日: 2024年6月4日作成者: jarxiv

要約テキストからモーションへの拡散モデルは、テキストプロンプトからリアルなアニ … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Cross-view Masked Diffusion Transformers for Person Image Synthesis

投稿日: 2024年6月4日作成者: jarxiv

要約 X-MDPT ($underline{Cross}$-view $-ask … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年6月

Multistep Consistency Models

SpeechAct: Towards Generating Whole-body Motion from Speech

FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis

ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation

Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach

Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models

Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast

Interpreting and Improving Diffusion Models from an Optimization Perspective

Iterative Motion Editing with Natural Language

Cross-view Masked Diffusion Transformers for Person Image Synthesis

最近の投稿

最近のコメント

アーカイブ

カテゴリー