Distribution Learning with Valid Outputs Beyond the Worst-Case

要約

生成モデルは、生成アーティファクトや不自然なサウンドを含む画像などの「無効な」出力を生成することがあります。
妥当性制約付き分布学習は、学習された分布が空間の無効な部分にその質量のほんの一部を占めることを証明することを要求することで、この問題に対処しようとします。これは標準的な損失最小化では必ずしも保証されません。
この目的を達成するために、このモデルの学習者は、個々の例の妥当性を確認できる「妥当性クエリ」を介して学習をガイドできます。
この問題に対するこれまでの研究は最悪の場合の立場をとっており、適切な学習には指数関数的な数の妥当性クエリが必要であることを示し、広範囲の設定で保証を生成しながらも、非典型的な多項式数を作成する不適切なアルゴリズムを実証しました。
有効性のクエリ。
この研究では、最悪の場合よりも妥当性の保証が容易な体制を特徴付けるための第一歩を踏み出します。
データ分布がモデル クラス内にあり、対数損失が最小限に抑えられる場合、妥当性を保証するために必要なサンプル数は妥当性要件に弱い依存性を持つことを示します。
さらに、有効性領域が VC クラスに属している場合、限られた数の有効性クエリで十分であることが多いことを示します。

要約(オリジナル)

Generative models at times produce ‘invalid’ outputs, such as images with generation artifacts and unnatural sounds. Validity-constrained distribution learning attempts to address this problem by requiring that the learned distribution have a provably small fraction of its mass in invalid parts of space — something which standard loss minimization does not always ensure. To this end, a learner in this model can guide the learning via ‘validity queries’, which allow it to ascertain the validity of individual examples. Prior work on this problem takes a worst-case stance, showing that proper learning requires an exponential number of validity queries, and demonstrating an improper algorithm which — while generating guarantees in a wide-range of settings — makes an atypical polynomial number of validity queries. In this work, we take a first step towards characterizing regimes where guaranteeing validity is easier than in the worst-case. We show that when the data distribution lies in the model class and the log-loss is minimized, the number of samples required to ensure validity has a weak dependence on the validity requirement. Additionally, we show that when the validity region belongs to a VC-class, a limited number of validity queries are often sufficient.

arxiv情報

著者 Nick Rittler,Kamalika Chaudhuri
発行日 2024-10-21 17:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク