$\textbf{PLUM}$: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases

要約

優先学習は、正しいコードと間違ったコードを区別するようにモデルが明示的にトレーニングされていない、コード言語モデルの教師あり微調整 (SFT) の制限に対処する有望なソリューションを提供します。
最近の調査結果は、ポリシー上のデータが優先学習の成功の鍵であることを示しており、優先データはトレーニングされている同じポリシー LM を使用して収集されます。
これに触発されて、コード L$\textbf{M} のテスト ケースを備えたオンポリシー $\textbf{P}$reference $\textbf{L}$獲得フレームワーク A$\textbf{u}$gmented PLUM を提案します。
$s。
このフレームワークは 3 つの主要な段階で動作します: (1) 自然言語命令からのテスト ケースの自動生成、(2) ポリシーからサンプリングされた候補コード ソリューションを評価することによる優先データの作成。その後、そのデータは (3) トレーニングに使用できます。
政策LM。
PLUM を使用すると、報酬モデルをトレーニングする必要性がなくなり、ポリシーに基づいた大規模なデータ照合やオンライン嗜好データの照合が可能になります。
PLUM は、標準的なベンチマーク (HumanEval、MBPP) とより困難なベンチマーク (LiveCodeBench) の両方で評価され、元の SFT モデルやその他の実行フィードバック主導のアプローチに比べて大幅な改善を実現します。
PLUM の利点は、SFT で十分にトレーニングされている場合でも、広く使用されているさまざまなコード LM にわたって一貫していることを示します。
たとえば、PLUM は、標準ベンチマークでは平均で最大 4.8%、LiveCodeBench では 11.8% 合格率を向上させ、その有効性と汎用性を実証しています。
また、包括的な実験により、ポリシーに基づく学習とオンラインの好みの学習の利点も実証します。

要約(オリジナル)

Preference learning provides a promising solution to address the limitations of supervised fine-tuning (SFT) for code language models, where the model is not explicitly trained to differentiate between correct and incorrect code. Recent findings demonstrate that on-policy data is the key to successful preference learning, where the preference data is collected using the same policy LM being trained. Inspired by this, we propose PLUM, an on-policy $\textbf{P}$reference $\textbf{L}$earning framework A$\textbf{u}$gmented with test cases for code L$\textbf{M}$ s. The framework operates in three key stages: (1) automatic generation of test cases from natural language instructions, (2) creation of a preference data by evaluating candidate code solutions sampled from the policy, which can then be used to (3) train the policy LM. PLUM levitates the need to train reward models, allowing for large scale on-policy and online preference data collation. PLUM is evaluated on both standard benchmarks (HumanEval, MBPP) and more challenging ones (LiveCodeBench), delivering substantial improvements over original SFT’ed models and other execution-feedback-driven approaches. We show PLUM’s benefits are consistent across various widely-used code LMs even they have been well-trained with SFT. For example, PLUM increases pass rates by up to 4.8% on average on standard benchmarks and 11.8% on LiveCodeBench, demonstrating its effectiveness and generalizability. We also demonstrate the benefits of on-policy and online preference learning by comprehensive experimentation.

arxiv情報

著者 Dylan Zhang,Shizhe Diao,Xueyan Zou,Hao Peng
発行日 2024-10-10 17:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL, cs.SE | コメントする

From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions

要約

ツール学習により、大規模言語モデル (LLM) はツールを呼び出して外部環境と対話できるようになり、トレーニング前のデータに固有の制限を軽減する効果的な戦略として機能します。
このプロセスでは、LLM の使用手順を提供するツールのドキュメントが重要な役割を果たし、それによってツールの効果的な利用が促進されます。
このホワイトペーパーでは、既存の人間中心のツールのドキュメントに内在する不備や不正確さによる、LLM と外部ツールとの間の理解のギャップを埋めるという重要な課題に焦点を当てます。
私たちは、LLM と外部ツールとの相互作用から生じるフィードバックと軌跡の分析を通じて、ツールのドキュメントを動的に洗練することを目的とした新しいフレームワークである DRAFT を提案します。
この方法論は革新的な試行錯誤のアプローチを軸にしており、経験の収集、経験からの学習、ドキュメントの書き換えという 3 つの異なる学習フェーズで構成され、ツールのドキュメントを繰り返し強化します。
このプロセスは、多様性を促進する探索戦略を実装して探索の多様性を確保し、ツール適応型終了メカニズムを実装することでさらに最適化され、効率を高めながら過剰適合を防止します。
複数のデータセットに対する広範な実験により、DRAFT の反復的なフィードバックベースの改良によりドキュメントの品質が大幅に改善され、LLM によるツールのより深い理解とより効果的な利用が促進されることが実証されました。
特に、私たちの分析により、私たちのアプローチによって洗練されたツールのドキュメントが堅牢なクロスモデル一般化機能を実証していることが明らかになりました。

要約(オリジナル)

Tool learning enables Large Language Models (LLMs) to interact with external environments by invoking tools, serving as an effective strategy to mitigate the limitations inherent in their pre-training data. In this process, tool documentation plays a crucial role by providing usage instructions for LLMs, thereby facilitating effective tool utilization. This paper concentrates on the critical challenge of bridging the comprehension gap between LLMs and external tools due to the inadequacies and inaccuracies inherent in existing human-centric tool documentation. We propose a novel framework, DRAFT, aimed at Dynamically Refining tool documentation through the Analysis of Feedback and Trails emanating from LLMs’ interactions with external tools. This methodology pivots on an innovative trial-and-error approach, consisting of three distinct learning phases: experience gathering, learning from experience, and documentation rewriting, to iteratively enhance the tool documentation. This process is further optimized by implementing a diversity-promoting exploration strategy to ensure explorative diversity and a tool-adaptive termination mechanism to prevent overfitting while enhancing efficiency. Extensive experiments on multiple datasets demonstrate that DRAFT’s iterative, feedback-based refinement significantly ameliorates documentation quality, fostering a deeper comprehension and more effective utilization of tools by LLMs. Notably, our analysis reveals that the tool documentation refined via our approach demonstrates robust cross-model generalization capabilities.

arxiv情報

著者 Changle Qu,Sunhao Dai,Xiaochi Wei,Hengyi Cai,Shuaiqiang Wang,Dawei Yin,Jun Xu,Ji-Rong Wen
発行日 2024-10-10 17:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations

要約

この論文では、最新の畳み込みニューラル ネットワーク (ConvNet) の設計における大規模畳み込みカーネルのパラダイムを提案します。
私たちは、複数の小さなカーネルを積み重ねる代わりに、いくつかの大きなカーネルを採用することが優れた設計戦略となり得ることを証明しています。
私たちの取り組みでは、大規模カーネル ConvNet の効率とパフォーマンスを最適化する一連のアーキテクチャ設計ガイドラインを導入しています。
私たちは UniRepLKNet アーキテクチャを提案します。これは、大規模カーネル ConvNet 向けに特別に作成された体系的なアーキテクチャ設計原則を提供し、深い層のスタッキングを行わずに広範な空間情報をキャプチャする独自の機能を強調します。
その結果、ImageNet 精度 88.0%、ADE20K mIoU 55.6%、COCO box AP 56.4% という以前のモデルを上回るだけでなく、時系列予測などのさまざまなモダリティで優れたスケーラビリティとパフォーマンスを実証するモデルが実現しました。
、オーディオ、点群、ビデオ認識。
これらの結果は、ビジョン トランスフォーマーと比較して推論速度が速い大規模カーネル ConvNet の汎用モデリング能力を示しています。
私たちの調査結果は、大きなカーネルの ConvNet はより大きな有効受容野とより高い形状バイアスを持ち、小さなカーネルの CNN に典型的なテクスチャ バイアスから離れていることを明らかにしています。
すべてのコードとモデルは https://github.com/AILab-CVC/UniRepLKNet で公開されており、コミュニティでのさらなる研究開発が促進されます。

要約(オリジナル)

This paper proposes the paradigm of large convolutional kernels in designing modern Convolutional Neural Networks (ConvNets). We establish that employing a few large kernels, instead of stacking multiple smaller ones, can be a superior design strategy. Our work introduces a set of architecture design guidelines for large-kernel ConvNets that optimize their efficiency and performance. We propose the UniRepLKNet architecture, which offers systematical architecture design principles specifically crafted for large-kernel ConvNets, emphasizing their unique ability to capture extensive spatial information without deep layer stacking. This results in a model that not only surpasses its predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a COCO box AP of 56.4% but also demonstrates impressive scalability and performance on various modalities such as time-series forecasting, audio, point cloud, and video recognition. These results indicate the universal modeling abilities of large-kernel ConvNets with faster inference speed compared with vision transformers. Our findings reveal that large-kernel ConvNets possess larger effective receptive fields and a higher shape bias, moving away from the texture bias typical of smaller-kernel CNNs. All codes and models are publicly available at https://github.com/AILab-CVC/UniRepLKNet promoting further research and development in the community.

arxiv情報

著者 Yiyuan Zhang,Xiaohan Ding,Xiangyu Yue
発行日 2024-10-10 15:43:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

A framework for compressing unstructured scientific data via serialization

要約

既知のローカル接続を使用して非構造化科学データを圧縮するための一般的なフレームワークを紹介します。
一般的なアプリケーションは、任意の有限要素メッシュ上に定義されたシミュレーション データです。
このフレームワークは、元のノードの並べ替えを維持する貪欲なトポロジを採用しており、既存のデータ処理パイプラインへのシームレスな統合を可能にします。
この並べ替えプロセスはメッシュ接続のみに依存しており、最適な効率を得るためにオフラインで実行できます。
ただし、アルゴリズムの貪欲な性質により、オンザフライ実装もサポートされます。
提案された方法は、データ内の空間相関を利用するあらゆる圧縮アルゴリズムと互換性があります。
このアプローチの有効性は、MGARD、SZ、ZFP などのいくつかの圧縮方法を使用して、大規模な実際のデータセットで実証されています。

要約(オリジナル)

We present a general framework for compressing unstructured scientific data with known local connectivity. A common application is simulation data defined on arbitrary finite element meshes. The framework employs a greedy topology preserving reordering of original nodes which allows for seamless integration into existing data processing pipelines. This reordering process depends solely on mesh connectivity and can be performed offline for optimal efficiency. However, the algorithm’s greedy nature also supports on-the-fly implementation. The proposed method is compatible with any compression algorithm that leverages spatial correlations within the data. The effectiveness of this approach is demonstrated on a large-scale real dataset using several compression methods, including MGARD, SZ, and ZFP.

arxiv情報

著者 Viktor Reshniak,Qian Gong,Rick Archibald,Scott Klasky,Norbert Podhorszki
発行日 2024-10-10 15:53:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Reversible Decoupling Network for Single Image Reflection Removal

要約

単一画像の反射除去に対する最近の深層学習ベースのアプローチは、主に 2 つの理由により、有望な進歩を示しています。1) 認識事前学習済みの特徴を入力として利用すること、2) デュアルストリーム インタラクション ネットワークの設計。
ただし、情報ボトルネックの原則によれば、高レベルの意味論的な手がかりは、レイヤーごとの伝播中に圧縮または破棄される傾向があります。
さらに、デュアルストリーム ネットワークでのインタラクションはさまざまなレイヤー間で固定パターンに従い、全体的なパフォーマンスが制限されます。
これらの制限に対処するために、私たちは可逆デカップリング ネットワーク (RDNet) と呼ばれる新しいアーキテクチャを提案します。このアーキテクチャは、可逆エンコーダを採用して貴重な情報を保護しながら、転送パス中に送信および反射関連の機能を柔軟にデカップリングします。
さらに、伝送速度を考慮したプロンプト ジェネレーターをカスタマイズして機能を動的に調整し、パフォーマンスをさらに向上させます。
広範な実験により、広く採用されている 5 つのベンチマーク データセットにおける既存の SOTA 手法に対する RDNet の優位性が実証されています。
私たちのコードは公開されます。

要約(オリジナル)

Recent deep-learning-based approaches to single-image reflection removal have shown promising advances, primarily for two reasons: 1) the utilization of recognition-pretrained features as inputs, and 2) the design of dual-stream interaction networks. However, according to the Information Bottleneck principle, high-level semantic clues tend to be compressed or discarded during layer-by-layer propagation. Additionally, interactions in dual-stream networks follow a fixed pattern across different layers, limiting overall performance. To address these limitations, we propose a novel architecture called Reversible Decoupling Network (RDNet), which employs a reversible encoder to secure valuable information while flexibly decoupling transmission- and reflection-relevant features during the forward pass. Furthermore, we customize a transmission-rate-aware prompt generator to dynamically calibrate features, further boosting performance. Extensive experiments demonstrate the superiority of RDNet over existing SOTA methods on five widely-adopted benchmark datasets. Our code will be made publicly available.

arxiv情報

著者 Hao Zhao,Mingjia Li,Qiming Hu,Xiaojie Guo
発行日 2024-10-10 15:58:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Unlearning-based Neural Interpretations

要約

勾配ベースの解釈では、多くの場合、特徴量の重要性の計算における飽和を避けるために、比較のアンカー ポイントが必要になります。
静的関数 (一定のマッピング、平均化、ぼかしなど) を使用して定義された現在のベースラインが、モデルの動作から逸脱する有害な色、テクスチャ、または周波数の仮定を注入することを示します。
これにより、不規則な勾配が蓄積され、偏り、脆弱で、操作可能なアトリビューション マップが生成されます。
静的なアプローチから離れて、最も急な上昇の非学習方向に向かって入力を摂動させることによって、(非)学習可能で偏りのない適応ベースラインを計算する UNI を提案します。
私たちの方法は信頼できるベースラインを発見し、顕著な特徴を消去することに成功し、それによって高曲率の決定境界を局所的に平滑化します。
私たちの分析では、忠実で効率的かつ堅牢な解釈を生成するための有望な手段としてアンラーニングが指摘されています。

要約(オリジナル)

Gradient-based interpretations often require an anchor point of comparison to avoid saturation in computing feature importance. We show that current baselines defined using static functions–constant mapping, averaging or blurring–inject harmful colour, texture or frequency assumptions that deviate from model behaviour. This leads to accumulation of irregular gradients, resulting in attribution maps that are biased, fragile and manipulable. Departing from the static approach, we propose UNI to compute an (un)learnable, debiased and adaptive baseline by perturbing the input towards an unlearning direction of steepest ascent. Our method discovers reliable baselines and succeeds in erasing salient features, which in turn locally smooths the high-curvature decision boundaries. Our analyses point to unlearning as a promising avenue for generating faithful, efficient and robust interpretations.

arxiv情報

著者 Ching Lam Choi,Alexandre Duplessis,Serge Belongie
発行日 2024-10-10 16:02:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Mapping the Unseen: Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models

要約

ロボティクスとコンピューター ビジョンの分野では、複雑な環境を理解し、相互作用できるインテリジェント マシンに対する需要が高まっているため、効率的かつ正確なセマンティック マッピングが依然として大きな課題となっています。
しかし、従来のパノプティック マッピング方法は、事前定義されたセマンティック クラスによって制限されているため、新しいオブジェクトや予期しないオブジェクトを処理するのには効果的ではありません。
この制限に対応して、Unified Promptable Panoptic Mapping (UPPM) メソッドを導入します。
UPPM は基礎モデルの最近の進歩を利用して、自然言語プロンプトを使用したリアルタイムのオンデマンドのラベル生成を可能にします。
従来のパノプティック マッピング技術に動的ラベル付け戦略を組み込むことにより、UPPM はマップ再構築の高いパフォーマンス レベルを維持しながら、適応性と汎用性を大幅に向上させます。
現実世界のデータセットとシミュレートされたデータセットに対するアプローチを示します。
結果は、UPPM が自然言語対話を通じて豊富な意味ラベルを生成しながら、シーンを正確に再構築し、オブジェクトをセグメント化できることを示しています。
一連のアブレーション実験により、固定ラベル セットに対する基礎モデルベースのラベル付けの利点が検証されました。

要約(オリジナル)

In the field of robotics and computer vision, efficient and accurate semantic mapping remains a significant challenge due to the growing demand for intelligent machines that can comprehend and interact with complex environments. Conventional panoptic mapping methods, however, are limited by predefined semantic classes, thus making them ineffective for handling novel or unforeseen objects. In response to this limitation, we introduce the Unified Promptable Panoptic Mapping (UPPM) method. UPPM utilizes recent advances in foundation models to enable real-time, on-demand label generation using natural language prompts. By incorporating a dynamic labeling strategy into traditional panoptic mapping techniques, UPPM provides significant improvements in adaptability and versatility while maintaining high performance levels in map reconstruction. We demonstrate our approach on real-world and simulated datasets. Results show that UPPM can accurately reconstruct scenes and segment objects while generating rich semantic labels through natural language interactions. A series of ablation experiments validated the advantages of foundation model-based labeling over fixed label sets.

arxiv情報

著者 Mohamad Al Mdfaa,Raghad Salameh,Sergey Zagoruyko,Gonzalo Ferrer
発行日 2024-10-10 16:03:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする

DualStreamFoveaNet: A Dual Stream Fusion Architecture with Anatomical Awareness for Robust Fovea Localization

要約

網膜疾患を分析して不可逆的な視力喪失を防ぐには、中心窩の正確な位置特定が不可欠です。
現在の深層学習ベースの方法は従来の方法より優れていますが、中心窩周囲の局所的な解剖学的ランドマークの欠如、疾患のある網膜画像を堅牢に処理できないこと、画像状態の変動などの課題に依然として直面しています。
この論文では、マルチキュー融合のための DualStreamFoveaNet (DSFN) と呼ばれる新しいトランスフォーマーベースのアーキテクチャを提案します。
このアーキテクチャには、網膜と血管の分布を使用した長距離接続とグローバルな特徴が明示的に組み込まれており、堅牢な中心窩の位置特定が可能です。
デュアルストリーム エンコーダに空間注意メカニズムを導入して、自己学習した解剖学的情報を抽出して融合し、血管に沿って分布する特徴にさらに焦点を当て、トークン数を減らすことで計算コストを大幅に削減します。
私たちの広範な実験により、提案されたアーキテクチャが 2 つのパブリック データセットと 1 つの大規模プライベート データセットで最先端のパフォーマンスを達成することが示されました。
さらに、DSFN は正常な網膜画像と病気の網膜画像の両方でより堅牢であり、データセット間の実験においてより優れた汎化能力を備えていることを実証します。

要約(オリジナル)

Accurate fovea localization is essential for analyzing retinal diseases to prevent irreversible vision loss. While current deep learning-based methods outperform traditional ones, they still face challenges such as the lack of local anatomical landmarks around the fovea, the inability to robustly handle diseased retinal images, and the variations in image conditions. In this paper, we propose a novel transformer-based architecture called DualStreamFoveaNet (DSFN) for multi-cue fusion. This architecture explicitly incorporates long-range connections and global features using retina and vessel distributions for robust fovea localization. We introduce a spatial attention mechanism in the dual-stream encoder to extract and fuse self-learned anatomical information, focusing more on features distributed along blood vessels and significantly reducing computational costs by decreasing token numbers. Our extensive experiments show that the proposed architecture achieves state-of-the-art performance on two public datasets and one large-scale private dataset. Furthermore, we demonstrate that the DSFN is more robust on both normal and diseased retina images and has better generalization capacity in cross-dataset experiments.

arxiv情報

著者 Sifan Song,Jinfeng Wang,Zilong Wang,Hongxing Wang,Jionglong Su,Xiaowei Ding,Kang Dang
発行日 2024-10-10 16:07:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Morphing Tokens Draw Strong Masked Image Models

要約

マスク イメージ モデリング (MIM) は、ビジョン トランスフォーマー (ViT) をトレーニングするための有望なアプローチとして浮上しています。
MIM の本質は、マスクされたトークンのトークンごとの予測にあり、画像からトークン化されたターゲット、または視覚言語モデルなどの事前トレーニングされたモデルによって生成されたターゲットを予測することを目的としています。
トークナイザーや事前トレーニングされたモデルの使用は MIM ターゲットとして考えられますが、隣接するトークンであっても空間的に一貫性のないターゲットを提供することが多く、統一された識別表現を学習するためのモデルが複雑になります。
私たちのパイロット研究では、空間的な不一致を特定し、それらを解決することで表現学習を加速できることを示唆しています。
この洞察に基づいて、ダイナミック トークン モーフィング (DTM) と呼ばれる新しい自己監視信号を導入します。これは、コンテキストに関連するトークンを動的に集約してコンテキスト化されたターゲットを生成し、それによって空間の不一致を軽減します。
DTM はさまざまな SSL フレームワークと互換性があります。
DTM を採用することで、追加のトレーニング コストをほとんど発生させずに、MIM の結果が改善されたことを紹介します。
私たちの方法では、一貫した目標を使用することでトレーニングが容易になり、1) トレーニングが高速化され、2) 損失が減少します。
ImageNet-1K および ADE20K での実験では、最先端の複雑な MIM 手法と比較して、私たちの手法の優位性が実証されています。
さらに、iNaturalists と詳細な視覚分類データセットの比較評価により、さまざまな下流タスクへの私たちの手法の移転可能性がさらに検証されます。
コードはhttps://github.com/naver-ai/dtmで入手できます。

要約(オリジナル)

Masked image modeling (MIM) has emerged as a promising approach for training Vision Transformers (ViTs). The essence of MIM lies in the token-wise prediction of masked tokens, which aims to predict targets tokenized from images or generated by pre-trained models like vision-language models. While using tokenizers or pre-trained models are plausible MIM targets, they often offer spatially inconsistent targets even for neighboring tokens, complicating models to learn unified and discriminative representations. Our pilot study identifies spatial inconsistencies and suggests that resolving them can accelerate representation learning. Building upon this insight, we introduce a novel self-supervision signal called Dynamic Token Morphing (DTM), which dynamically aggregates contextually related tokens to yield contextualized targets, thereby mitigating spatial inconsistency. DTM is compatible with various SSL frameworks; we showcase improved MIM results by employing DTM, barely introducing extra training costs. Our method facilitates training by using consistent targets, resulting in 1) faster training and 2) reduced losses. Experiments on ImageNet-1K and ADE20K demonstrate the superiority of our method compared with state-of-the-art, complex MIM methods. Furthermore, the comparative evaluation of the iNaturalists and fine-grained visual classification datasets further validates the transferability of our method on various downstream tasks. Code is available at https://github.com/naver-ai/dtm

arxiv情報

著者 Taekyung Kim,Byeongho Heo,Dongyoon Han
発行日 2024-10-10 16:07:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

PromptFix: You Prompt and We Fix the Photo

要約

言語モデルを備えた拡散モデルは、画像生成作業において優れた制御性を発揮し、人間の指示に忠実な画像処理を実現します。
しかし、多様な命令追従データが不足しているため、特に低レベルのタスクにおいて、ユーザーがカスタマイズした命令を効果的に認識して実行するモデルの開発が妨げられています。
さらに、拡散プロセスの確率的な性質により、生成された画像を詳細に保存する必要がある画像生成または編集作業に欠陥が生じます。
これらの制限に対処するために、私たちは、拡散モデルが人間の指示に従ってさまざまな画像処理タスクを実行できるようにする包括的なフレームワークである PromptFix を提案します。
まず、低レベルのタスク、画像編集、オブジェクト作成などの包括的な画像処理タスクをカバーする大規模な命令追従データセットを構築します。
次に、ノイズ除去プロセスを明示的に制御し、未処理領域の高周波の詳細を保存する高周波ガイダンス サンプリング方法を提案します。
最後に、視覚言語モデル (VLM) を利用してテキスト プロンプトを強化し、モデルのタスクの一般化を改善する補助プロンプト アダプターを設計します。
実験結果は、PromptFix がさまざまな画像処理タスクにおいて以前の方法よりも優れたパフォーマンスを発揮することを示しています。
私たちが提案したモデルは、これらのベースライン モデルと同等の推論効率も達成し、ブラインド復元および組み合わせタスクにおいて優れたゼロショット機能を示します。
データセットとコードは https://www.yongshengyu.com/PromptFix-Page で入手できます。

要約(オリジナル)

Diffusion models equipped with language models demonstrate excellent controllability in image generation tasks, allowing image processing to adhere to human instructions. However, the lack of diverse instruction-following data hampers the development of models that effectively recognize and execute user-customized instructions, particularly in low-level tasks. Moreover, the stochastic nature of the diffusion process leads to deficiencies in image generation or editing tasks that require the detailed preservation of the generated images. To address these limitations, we propose PromptFix, a comprehensive framework that enables diffusion models to follow human instructions to perform a wide variety of image-processing tasks. First, we construct a large-scale instruction-following dataset that covers comprehensive image-processing tasks, including low-level tasks, image editing, and object creation. Next, we propose a high-frequency guidance sampling method to explicitly control the denoising process and preserve high-frequency details in unprocessed areas. Finally, we design an auxiliary prompting adapter, utilizing Vision-Language Models (VLMs) to enhance text prompts and improve the model’s task generalization. Experimental results show that PromptFix outperforms previous methods in various image-processing tasks. Our proposed model also achieves comparable inference efficiency with these baseline models and exhibits superior zero-shot capabilities in blind restoration and combination tasks. The dataset and code are available at https://www.yongshengyu.com/PromptFix-Page.

arxiv情報

著者 Yongsheng Yu,Ziyun Zeng,Hang Hua,Jianlong Fu,Jiebo Luo
発行日 2024-10-10 16:09:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする