Generation through the lens of learning theory

要約

私たちは統計学習理論のレンズを通して生成を研究します。
まず、抽象インスタンス空間上で定義された二項仮説クラスの観点から、極限における言語識別/生成に関する Gold [1967]、Angluin [1979、1980]、および Kleinberg と Mullainathan [2024] の結果を抽象化し、形式化します。
次に、Kleinberg と Mullainathan [2024] によって研究された、「均一生成」と呼ばれる生成の異なるパラダイムを形式化し、どの仮説クラスが均一に生成可能であるかの特徴付けを提供します。
統計的学習理論の標準であるように、私たちの特徴付けは、クロージャ次元と呼ばれる新しい組み合わせ次元の有限性の観点から行われます。
そうすることで、生成可能性と予測可能性 (PAC およびオンライン学習可能性を介して取得) を比較し、仮説クラスのこれら 2 つの特性が \emph{互換性がない} – 生成可能だが予測不可能なクラスもあり、その逆も存在することを示すことができます。

要約(オリジナル)

We study generation through the lens of statistical learning theory. First, we abstract and formalize the results of Gold [1967], Angluin [1979, 1980], and Kleinberg and Mullainathan [2024] for language identification/generation in the limit in terms of a binary hypothesis class defined over an abstract instance space. Then, we formalize a different paradigm of generation studied by Kleinberg and Mullainathan [2024], which we call “uniform generation,’ and provide a characterization of which hypothesis classes are uniformly generatable. As is standard in statistical learning theory, our characterization is in terms of the finiteness of a new combinatorial dimension we call the Closure dimension. By doing so, we are able to compare generatability with predictability (captured via PAC and online learnability) and show that these two properties of hypothesis classes are \emph{incompatible} – there are classes that are generatable but not predictable and vice versa.

arxiv情報

著者 Vinod Raman,Ambuj Tewari
発行日 2024-10-21 17:21:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Generation through the lens of learning theory はコメントを受け付けていません

A Realistic Threat Model for Large Language Model Jailbreaks

要約

安全に調整された LLM から有害な応答を取得するために、多数の脱獄攻撃が提案されています。
元の設定では、これらのメソッドはすべて、ターゲットの出力を強制することにほぼ成功していますが、攻撃の流暢さと計算量は大幅に異なります。
この研究では、これらの手法を原理的に比較するための統一脅威モデルを提案します。
私たちの脅威モデルは、複雑さの制約を組み合わせ、ジェイルブレイクが自然テキストからどれだけ逸脱するか、および計算量を総 FLOP で測定します。
前者の場合、1T トークンに N グラム モデルを構築します。これにより、モデルベースの複雑性とは対照的に、LLM に依存せず、本質的に解釈可能な評価が可能になります。
私たちは一般的な攻撃をこの新しい現実的な脅威モデルに適応させ、初めてこれらの攻撃を同等の立場でベンチマークします。
厳密な比較の結果、安全性が調整された最新のモデルに対する攻撃の成功率が以前に提示されたものよりも低いことが判明しただけでなく、個別の最適化に基づいた攻撃が最近の LLM ベースの攻撃よりも大幅に優れていることがわかりました。
当社の脅威モデルは本質的に解釈可能であるため、ジェイルブレイク攻撃の包括的な分析と比較が可能です。
私たちは、効果的な攻撃が頻度の低い N グラムを悪用し悪用し、現実世界のテキストに存在しない N グラムまたはまれな N グラムを選択することを発見しました。
コード データセットに固有です。

要約(オリジナル)

A plethora of jailbreaking attacks have been proposed to obtain harmful responses from safety-tuned LLMs. In their original settings, these methods all largely succeed in coercing the target output, but their attacks vary substantially in fluency and computational effort. In this work, we propose a unified threat model for the principled comparison of these methods. Our threat model combines constraints in perplexity, measuring how far a jailbreak deviates from natural text, and computational budget, in total FLOPs. For the former, we build an N-gram model on 1T tokens, which, in contrast to model-based perplexity, allows for an LLM-agnostic and inherently interpretable evaluation. We adapt popular attacks to this new, realistic threat model, with which we, for the first time, benchmark these attacks on equal footing. After a rigorous comparison, we not only find attack success rates against safety-tuned modern models to be lower than previously presented but also find that attacks based on discrete optimization significantly outperform recent LLM-based attacks. Being inherently interpretable, our threat model allows for a comprehensive analysis and comparison of jailbreak attacks. We find that effective attacks exploit and abuse infrequent N-grams, either selecting N-grams absent from real-world text or rare ones, e.g. specific to code datasets.

arxiv情報

著者 Valentyn Boreiko,Alexander Panfilov,Vaclav Voracek,Matthias Hein,Jonas Geiping
発行日 2024-10-21 17:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Realistic Threat Model for Large Language Model Jailbreaks はコメントを受け付けていません

Hypergraph: A Unified and Uniform Definition with Application to Chemical Hypergraph and More

要約

従来のハイパーグラフの定義には 2 つの大きな問題があります。(1) 有向ハイパーグラフの標準定義がありません。(2) ネストされたハイパーグラフの正式な定義がありません。
これらの問題を解決するために、無向ハイパーグラフ、有向ハイパーグラフ、入れ子ハイパーグラフの概念を統一し、物事の間の高次の相関関係、つまりノードとハイパーエッジを表すための単一の構造としてハイパーエッジを使用する点で統一されたハイパーグラフの新しい定義を提案します。
具体的には、ハイパーエッジを単純なハイパーエッジ、ネストしたハイパーエッジ、または有向ハイパーエッジとして定義します。
この新しい定義では、ハイパーグラフは、ネストされたハイパーエッジがある場合はネストされ、有向ハイパーエッジがある場合は有向になります。
それ以外の場合、ハイパーグラフは単純なハイパーグラフです。
この新しい定義の均一性と強力な視覚化により、一般に (階層的な) 高次相関、特に化学系を表現するためのハイパーグラフの使用が容易になるはずです。
グラフは、分子構造や 3D 分子幾何学に関する機械学習のための数学的構造として広く使用されています。
ただし、グラフには大きな制限があります。グラフはノード間のペアごとの相関しか表現できません。
ハイパーグラフは、ノード間の高次の相関を使用してグラフを拡張します。
この拡張は、化学システムの機械学習にとって重要または不可欠です。
分子にとって、これは多中心結合や分子の下部構造を直接的かつ明示的に表現できるため、重要です。
化学反応の場合、ほとんどの化学反応には複数の参加者が関与するため、これは不可欠です。
我々は、化学システムを表現するための単一の数学的構造として、単純な入れ子ハイパーエッジと有向ハイパーエッジを備えたマルチレベル ハイパーグラフである化学ハイパーグラフの使用を提案します。
ハイパーグラフの新しい定義を化学ハイパーグラフに適用し、簡易バージョンとして分子ハイパーグラフと化学反応ハイパーグラフに適用します。

要約(オリジナル)

The conventional definition of hypergraph has two major issues: (1) there is not a standard definition of directed hypergraph and (2) there is not a formal definition of nested hypergraph. To resolve these issues, we propose a new definition of hypergraph that unifies the concepts of undirected, directed and nested hypergraphs, and that is uniform in using hyperedge as a single construct for representing high-order correlations among things, i.e., nodes and hyperedges. Specifically, we define a hyperedge to be a simple hyperedge, a nesting hyperedge, or a directed hyperedge. With this new definition, a hypergraph is nested if it has nesting hyperedge(s), and is directed if it has directed hyperedge(s). Otherwise, a hypergraph is a simple hypergraph. The uniformity and power of this new definition, with visualization, should facilitate the use of hypergraph for representing (hierarchical) high-order correlations in general and chemical systems in particular. Graph has been widely used as a mathematical structure for machine learning on molecular structures and 3D molecular geometries. However, graph has a major limitation: it can represent only pairwise correlations between nodes. Hypergraph extends graph with high-order correlations among nodes. This extension is significant or essential for machine learning on chemical systems. For molecules, this is significant as it allows the direct, explicit representation of multicenter bonds and molecular substructures. For chemical reactions, this is essential since most chemical reactions involve multiple participants. We propose the use of chemical hypergraph, a multilevel hypergraph with simple, nesting and directed hyperedges, as a single mathematical structure for representing chemical systems. We apply the new definition of hypergraph to chemical hypergraph and, as simplified versions, molecular hypergraph and chemical reaction hypergraph.

arxiv情報

著者 Daniel T. Chang
発行日 2024-10-21 17:34:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM | Hypergraph: A Unified and Uniform Definition with Application to Chemical Hypergraph and More はコメントを受け付けていません

Comparing the information content of probabilistic representation spaces

要約

確率的表現空間はデータセットに関する情報を伝達し、トレーニング損失やネットワーク アーキテクチャなどの要因の影響を理解するために、そのような空間の情報内容を比較しようとします。
ただし、表現空間を比較する既存の方法のほとんどは、表現が点であると仮定し、確率的表現の分布的性質を無視しています。
ここでは、ポイントベースの比較尺度に基づいて構築するのではなく、ハード クラスタリングに関する文献からの古典的な手法に基づいて構築します。
ハード クラスタリング割り当てを比較する 2 つの情報理論的手法を一般化して、一般的な確率的表現空間に適用します。
次に、データセットのサンプルを使用して表現空間をフィンガープリンティングすることに基づいた実用的な推定方法を提案します。この方法は、伝達される情報がほんの数ビットである場合に適用できます。
教師なし解きほぐしを動機となる問題として、VAE と InfoGAN アンサンブルの個々の潜在次元に繰り返し含まれる情報の断片を見つけます。
次に、モデルの完全な潜在空間を比較することで、繰り返し実行中にはトレーニング中に大幅に変化するポイントが存在する場合が多いにもかかわらず、データセット、メソッド、ハイパーパラメーター全体で一貫性の高い情報コンテンツが見つかります。
最後に、提案された方法の微分可能性を活用し、それぞれがデータセットのグローバル構造を表すことができない複数の弱学習器の情報内容を合成することによってモデル融合を実行します。
ケーススタディ全体で、情報内容を直接比較することで、情報の処理を理解するための自然な基礎が得られます。

要約(オリジナル)

Probabilistic representation spaces convey information about a dataset, and to understand the effects of factors such as training loss and network architecture, we seek to compare the information content of such spaces. However, most existing methods to compare representation spaces assume representations are points, and neglect the distributional nature of probabilistic representations. Here, instead of building upon point-based measures of comparison, we build upon classic methods from literature on hard clustering. We generalize two information-theoretic methods of comparing hard clustering assignments to be applicable to general probabilistic representation spaces. We then propose a practical method of estimation that is based on fingerprinting a representation space with a sample of the dataset and is applicable when the communicated information is only a handful of bits. With unsupervised disentanglement as a motivating problem, we find information fragments that are repeatedly contained in individual latent dimensions in VAE and InfoGAN ensembles. Then, by comparing the full latent spaces of models, we find highly consistent information content across datasets, methods, and hyperparameters, even though there is often a point during training with substantial variety across repeat runs. Finally, we leverage the differentiability of the proposed method and perform model fusion by synthesizing the information content of multiple weak learners, each incapable of representing the global structure of a dataset. Across the case studies, the direct comparison of information content provides a natural basis for understanding the processing of information.

arxiv情報

著者 Kieran A. Murphy,Sam Dillavou,Dani S. Bassett
発行日 2024-10-21 17:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Comparing the information content of probabilistic representation spaces はコメントを受け付けていません

Implicit Regularization for Tubal Tensor Factorizations via Gradient Descent

要約

遅延トレーニング方式を超えた、オーバーパラメータ化されたテンソル因数分解問題における暗黙的な正則化の厳密な分析を提供します。
行列因数分解の問題については、この現象が多くの研究で研究されています。
特に課題となっているのは、勾配降下法における暗黙的な正則化につながる普遍的な初期化戦略を設計することでした。
同時に、それは Cohen らによって主張されています。
アル。
2016 年には、テンソル因数分解を考慮することで、より一般的なクラスのニューラル ネットワークを捉えることができることがわかりました。
ただし、テンソルの場合、暗黙的な正則化は勾配フローまたは遅延トレーニング領域でのみ厳密に確立されています。
この論文では、勾配流れではなく勾配降下に関するこの種の最初のテンソル結果を証明します。
私たちは、画像データに対するこのモデルの関連性によって促進される、卵管テンソル積と、それに関連する低い卵管ランクの概念に焦点を当てます。
我々は、小さなランダム初期化を伴うオーバーパラメータ化されたテンソル因数分解モデルにおける勾配降下法が、低いチューブランクの解に対する暗黙的なバイアスを示すことを確立します。
私たちの理論的発見は、私たちの理論によって予測されるダイナミクスと小さなランダム初期化の使用の重要な役割を示す広範な数値シミュレーションのセットで示されています。

要約(オリジナル)

We provide a rigorous analysis of implicit regularization in an overparametrized tensor factorization problem beyond the lazy training regime. For matrix factorization problems, this phenomenon has been studied in a number of works. A particular challenge has been to design universal initialization strategies which provably lead to implicit regularization in gradient-descent methods. At the same time, it has been argued by Cohen et. al. 2016 that more general classes of neural networks can be captured by considering tensor factorizations. However, in the tensor case, implicit regularization has only been rigorously established for gradient flow or in the lazy training regime. In this paper, we prove the first tensor result of its kind for gradient descent rather than gradient flow. We focus on the tubal tensor product and the associated notion of low tubal rank, encouraged by the relevance of this model for image data. We establish that gradient descent in an overparametrized tensor factorization model with a small random initialization exhibits an implicit bias towards solutions of low tubal rank. Our theoretical findings are illustrated in an extensive set of numerical simulations show-casing the dynamics predicted by our theory as well as the crucial role of using a small random initialization.

arxiv情報

著者 Santhosh Karnik,Anna Veselovska,Mark Iwen,Felix Krahmer
発行日 2024-10-21 17:52:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.ST, stat.ML, stat.TH | Implicit Regularization for Tubal Tensor Factorizations via Gradient Descent はコメントを受け付けていません

Distribution Learning with Valid Outputs Beyond the Worst-Case

要約

生成モデルは、生成アーティファクトや不自然なサウンドを含む画像などの「無効な」出力を生成することがあります。
妥当性制約付き分布学習は、学習された分布が空間の無効な部分にその質量のほんの一部を占めることを証明することを要求することで、この問題に対処しようとします。これは標準的な損失最小化では必ずしも保証されません。
この目的を達成するために、このモデルの学習者は、個々の例の妥当性を確認できる「妥当性クエリ」を介して学習をガイドできます。
この問題に対するこれまでの研究は最悪の場合の立場をとっており、適切な学習には指数関数的な数の妥当性クエリが必要であることを示し、広範囲の設定で保証を生成しながらも、非典型的な多項式数を作成する不適切なアルゴリズムを実証しました。
有効性のクエリ。
この研究では、最悪の場合よりも妥当性の保証が容易な体制を特徴付けるための第一歩を踏み出します。
データ分布がモデル クラス内にあり、対数損失が最小限に抑えられる場合、妥当性を保証するために必要なサンプル数は妥当性要件に弱い依存性を持つことを示します。
さらに、有効性領域が VC クラスに属している場合、限られた数の有効性クエリで十分であることが多いことを示します。

要約(オリジナル)

Generative models at times produce ‘invalid’ outputs, such as images with generation artifacts and unnatural sounds. Validity-constrained distribution learning attempts to address this problem by requiring that the learned distribution have a provably small fraction of its mass in invalid parts of space — something which standard loss minimization does not always ensure. To this end, a learner in this model can guide the learning via ‘validity queries’, which allow it to ascertain the validity of individual examples. Prior work on this problem takes a worst-case stance, showing that proper learning requires an exponential number of validity queries, and demonstrating an improper algorithm which — while generating guarantees in a wide-range of settings — makes an atypical polynomial number of validity queries. In this work, we take a first step towards characterizing regimes where guaranteeing validity is easier than in the worst-case. We show that when the data distribution lies in the model class and the log-loss is minimized, the number of samples required to ensure validity has a weak dependence on the validity requirement. Additionally, we show that when the validity region belongs to a VC-class, a limited number of validity queries are often sufficient.

arxiv情報

著者 Nick Rittler,Kamalika Chaudhuri
発行日 2024-10-21 17:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Distribution Learning with Valid Outputs Beyond the Worst-Case はコメントを受け付けていません

Large Language Models Know What To Say But Not When To Speak

要約

交代は人間のコミュニケーションにおける基本的なメカニズムであり、スムーズで一貫した言葉によるやり取りを保証します。
大規模言語モデル (LLM) の最近の進歩により、適切なタイミングで応答する能力など、音声対話システム (SDS) の順番交代機能の向上に LLM の使用が促進されています。
しかし、既存のモデルは、ターン内の TRP ではなくターン終了の TRP のみに焦点を当てており、台本なしの自然な会話で発話の機会 (TRP) と呼ばれる発話の機会を予測するのに苦労することがよくあります。
これらの制限に対処するために、参加者によってラベル付けされたターン内 TRP の新しいデータセットを導入し、それを使用して、発言の機会を予測する際の最先端の LLM のパフォーマンスを評価します。
私たちの実験により、台本なしの音声対話のモデリングにおける LLM の現在の限界が明らかになり、改善の余地があることが明らかになり、より自然な対話システムへの道が開かれました。

要約(オリジナル)

Turn-taking is a fundamental mechanism in human communication that ensures smooth and coherent verbal interactions. Recent advances in Large Language Models (LLMs) have motivated their use in improving the turn-taking capabilities of Spoken Dialogue Systems (SDS), such as their ability to respond at appropriate times. However, existing models often struggle to predict opportunities for speaking — called Transition Relevance Places (TRPs) — in natural, unscripted conversations, focusing only on turn-final TRPs and not within-turn TRPs. To address these limitations, we introduce a novel dataset of participant-labeled within-turn TRPs and use it to evaluate the performance of state-of-the-art LLMs in predicting opportunities for speaking. Our experiments reveal the current limitations of LLMs in modeling unscripted spoken interactions, highlighting areas for improvement and paving the way for more naturalistic dialogue systems.

arxiv情報

著者 Muhammad Umair,Vasanth Sarathy,JP de Ruiter
発行日 2024-10-21 14:20:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models Know What To Say But Not When To Speak はコメントを受け付けていません

A Bi-consolidating Model for Joint Relational Triple Extraction

要約

関係トリプルを直接抽出する現在の方法は、エンティティ認識に依存せずに、生の文内の考えられるエンティティのペアに基づいて予測を行います。
このタスクは、いくつかの関係トリプルが文内の 1 つまたは 2 つのエンティティを共有する可能性があるという、深刻な意味の重複問題に悩まされています。
この論文では、二次元の文表現に基づいて、関係トリプルに関連するローカルおよびグローバルの意味論的特徴を同時に強化することによってこの問題に対処する二重統合モデルを提案します。
このモデルは、ローカル統合コンポーネントとグローバル統合コンポーネントで構成されます。
最初のコンポーネントは、ピクセル差分畳み込みを使用して、隣接領域からの可能なトリプル表現の意味情報を強化し、隣接領域のノイズを軽減します。
2 番目のコンポーネントは、チャネルの注意と空間の注意に基づいたトリプル表現を強化します。これには、文内のリモートの意味の依存関係を学習するという利点があります。
これらは、関係トリプル抽出におけるエンティティの識別と関係タイプの分類の両方のパフォーマンスを向上させるのに役立ちます。
いくつかの公開データセットで評価された後、二重統合モデルは競争力のあるパフォーマンスを達成します。
分析実験により、リレーショナル トリプル抽出に対するモデルの有効性が実証され、他の自然言語処理タスクへの動機付けが得られます。

要約(オリジナル)

Current methods to extract relational triples directly make a prediction based on a possible entity pair in a raw sentence without depending on entity recognition. The task suffers from a serious semantic overlapping problem, in which several relation triples may share one or two entities in a sentence. In this paper, based on a two-dimensional sentence representation, a bi-consolidating model is proposed to address this problem by simultaneously reinforcing the local and global semantic features relevant to a relation triple. This model consists of a local consolidation component and a global consolidation component. The first component uses a pixel difference convolution to enhance semantic information of a possible triple representation from adjacent regions and mitigate noise in neighbouring neighbours. The second component strengthens the triple representation based a channel attention and a spatial attention, which has the advantage to learn remote semantic dependencies in a sentence. They are helpful to improve the performance of both entity identification and relation type classification in relation triple extraction. After evaluated on several publish datasets, the bi-consolidating model achieves competitive performance. Analytical experiments demonstrate the effectiveness of our model for relational triple extraction and give motivation for other natural language processing tasks.

arxiv情報

著者 Xiaocheng Luo,Yanping Chen,Ruixue Tang,Caiwei Yang,Ruizhang Huang,Yongbin Qin
発行日 2024-10-21 14:29:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Bi-consolidating Model for Joint Relational Triple Extraction はコメントを受け付けていません

Surprise! Uniform Information Density Isn’t the Whole Story: Predicting Surprisal Contours in Long-form Discourse

要約

均一情報密度 (UID) 仮説は、話者は効率的なコミュニケーションを達成するために言語単位全体に情報を均等に分散する傾向があると仮定しています。
もちろん、テキストや談話の情報量は完全に均一ではありません。
これらの変動は、理論的には均一なターゲット上の興味のないノイズと見なすことができますが、別の説明として、言語の情報内容を制御する機能的圧力は UID だけではないということです。
講演者は、関心を維持し、書き方の慣習を遵守し、説得力のある議論を構築しようとすることもあります。
この論文では、そのような機能的圧力の 1 つを提案します。
つまり、話者は階層構造の談話モデル内の位置に基づいて情報速度を調整します。
私たちはこれを構造化コンテキスト仮説と呼び、談話構造から導き出された予測子を使用して、大規模な言語モデルから抽出された自然に発生する談話の意外な輪郭を予測することによってそれをテストします。
階層的予測子は言説の情報輪郭の重要な予測子であり、深くネストされた階層的予測子は浅い予測子よりも予測性が高いことがわかりました。
この研究は、UID を超えた最初のステップを踏み、情報速度が予測可能な方法で変動する理由について検証可能な仮説を提案します。

要約(オリジナル)

The Uniform Information Density (UID) hypothesis posits that speakers tend to distribute information evenly across linguistic units to achieve efficient communication. Of course, information rate in texts and discourses is not perfectly uniform. While these fluctuations can be viewed as theoretically uninteresting noise on top of a uniform target, another explanation is that UID is not the only functional pressure regulating information content in a language. Speakers may also seek to maintain interest, adhere to writing conventions, and build compelling arguments. In this paper, we propose one such functional pressure; namely that speakers modulate information rate based on location within a hierarchically-structured model of discourse. We term this the Structured Context Hypothesis and test it by predicting the surprisal contours of naturally occurring discourses extracted from large language models using predictors derived from discourse structure. We find that hierarchical predictors are significant predictors of a discourse’s information contour and that deeply nested hierarchical predictors are more predictive than shallow ones. This work takes an initial step beyond UID to propose testable hypotheses for why the information rate fluctuates in predictable ways

arxiv情報

著者 Eleftheria Tsipidi,Franz Nowak,Ryan Cotterell,Ethan Wilcox,Mario Giulianelli,Alex Warstadt
発行日 2024-10-21 14:42:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Surprise! Uniform Information Density Isn’t the Whole Story: Predicting Surprisal Contours in Long-form Discourse はコメントを受け付けていません

Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context

要約

人間によるイディオムの処理は、イディオムが出現する文脈上の文の理解に加え、頻度などの言語固有の特徴や、親しみやすさなどの話者固有の要素の理解に依存しています。
LLM は慣用句検出タスクで高いパフォーマンスを示していますが、この成功は既存のデータセットの推論ショートカットに起因している可能性があります。
この目的を達成するために、LLM が慣用的な意味を明確にするためにコンテキストを効果的に使用できるかどうかをテストするように設計された、新しい制御された対照的なデータセットを構築します。
さらに、共起頻度と文確率がモデルのパフォーマンスにどのような影響を与えるかを調査します。
私たちの調査結果は、LLM が周囲のコンテキストに注意を払う必要がある場合に慣用性を解決できないことがよくあること、および可能性が高い文ではモデルのパフォーマンスが優れていることを明らかにしています。
式の連語頻度もパフォーマンスに影響します。
私たちはコードとデータセットを公開しています。

要約(オリジナル)

Human processing of idioms relies on understanding the contextual sentences in which idioms occur, as well as language-intrinsic features such as frequency and speaker-intrinsic factors like familiarity. While LLMs have shown high performance on idiomaticity detection tasks, this success may be attributed to reasoning shortcuts in existing datasets. To this end, we construct a novel, controlled contrastive dataset designed to test whether LLMs can effectively use context to disambiguate idiomatic meaning. Additionally, we explore how collocational frequency and sentence probability influence model performance. Our findings reveal that LLMs often fail to resolve idiomaticity when it is required to attend to the surrounding context, and that models perform better on sentences that have higher likelihood. The collocational frequency of expressions also impacts performance. We make our code and dataset publicly available.

arxiv情報

著者 Maggie Mi,Aline Villavicencio,Nafise Sadat Moosavi
発行日 2024-10-21 14:47:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context はコメントを受け付けていません