Exploring Facets of Language Generation in the Limit

要約

Kleinberg と Mullainathan の最近の研究 [KM24] は、極限における言語生成の具体的なモデルを提供します。未知のターゲット言語から一連の例が与えられた場合、目標は、間違った例が生成されないようにターゲット言語から新しい例を生成することです。
ある時点を超えて。
言語の識別という密接に関連した問題に対する強い否定的な結果とは対照的に、可算言語のすべてのコレクションの限界における言語生成に対して肯定的な結果が確立されています。
Raman & Tewari [RT24] によるフォローアップ研究では、正しい言語生成が達成される前にアルゴリズムが必要とする個別の入力の数の限界を研究しています。つまり、これがコレクション内のすべての言語に対して定数であるか (均一な生成)、
言語に依存する定数 (不均一な生成)。
すべての可算言語コレクションには、極限内で不均一生成のより強い性質を持つジェネレーターがあることを示します。
しかし、[KM24] の生成アルゴリズムはメンバーシップ クエリを使用して実装できますが、メンバーシップ クエリのみを使用して、わずか 2 つの言語のコレクションであっても、いかなるアルゴリズムも不均一に生成できないことを示します。
また、[KM24] の生成アルゴリズムにおける有効性と幅の間の緊張関係を、網羅的生成の定義を導入することによって形式化し、網羅的生成に対して強い否定的な結果を示します。
私たちの結果は、有効性と幅の間のトレードオフが、極限での生成に固有のものであることを示しています。
また、網羅的な生成が可能な言語コレクションの正確な特徴付けも提供します。
最後に、フィードバックを取得することを選択できるアルゴリズムに触発されて、フィードバックを伴う均一生成のモデルを検討します。これは、コレクションの複雑さの尺度の観点から、そのようなフィードバックを伴う均一生成が可能な言語コレクションを完全に特徴付けます。

要約(オリジナル)

The recent work of Kleinberg & Mullainathan [KM24] provides a concrete model for language generation in the limit: given a sequence of examples from an unknown target language, the goal is to generate new examples from the target language such that no incorrect examples are generated beyond some point. In sharp contrast to strong negative results for the closely related problem of language identification, they establish positive results for language generation in the limit for all countable collections of languages. Follow-up work by Raman & Tewari [RT24] studies bounds on the number of distinct inputs required by an algorithm before correct language generation is achieved — namely, whether this is a constant for all languages in the collection (uniform generation) or a language-dependent constant (non-uniform generation). We show that every countable language collection has a generator which has the stronger property of non-uniform generation in the limit. However, while the generation algorithm of [KM24] can be implemented using membership queries, we show that any algorithm cannot non-uniformly generate even for collections of just two languages, using only membership queries. We also formalize the tension between validity and breadth in the generation algorithm of [KM24] by introducing a definition of exhaustive generation, and show a strong negative result for exhaustive generation. Our result shows that a tradeoff between validity and breadth is inherent for generation in the limit. We also provide a precise characterization of the language collections for which exhaustive generation is possible. Finally, inspired by algorithms that can choose to obtain feedback, we consider a model of uniform generation with feedback, completely characterizing language collections for which such uniform generation with feedback is possible in terms of a complexity measure of the collection.

arxiv情報

著者 Moses Charikar,Chirag Pabbaraju
発行日 2024-12-24 10:57:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DS, cs.LG パーマリンク