Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model Editing

要約

大規模言語モデル (LLM) は最近 NLP 分野に革命をもたらしましたが、一部の特定の下流タスクではまだ不十分です。
この研究では、LLM を利用して機械翻訳を実行することに焦点を当てています。その結果、言語の不一致と反復という 2 つのパターンのエラーが頻繁に発生し、翻訳品質に大きな影響を与えることが観察されました。
この研究は、モデル編集手法を活用することによって、たとえば、エラーの原因となるフィードフォワード ネットワーク (FFN) ニューロンなどを特定し、推論時間中にそれらを非アクティブ化することによって、これら 2 つの問題を軽減する可能性を探ることを目的としています。
このような方法を直接適用すると、対象となるエラーに対する効果が限定的になるか、一般的な翻訳品質に重大な悪影響が生じることがわかりました。これは、レール上の LLM による機械翻訳を確実にするためには、位置特定されたコンポーネントも重要である可能性があることを示しています。
この目的を達成するために、さまざまな言語設定で位置特定結果の共通部分を取得し、対象となるエラーに無関係な前述の情報をフィルタリングして、特定されたコンポーネントを絞り込むことを提案します。
実験結果は、私たちの方法が言語の不一致と反復率を効果的に削減し、同時にほとんどの場合、一般的な翻訳品質を向上または維持できることを経験的に示しています。

要約(オリジナル)

Large Language Models (LLMs) have recently revolutionized the NLP field, while they still fall short in some specific down-stream tasks. In the work, we focus on utilizing LLMs to perform machine translation, where we observe that two patterns of errors frequently occur and drastically affect the translation quality: language mismatch and repetition. The work sets out to explore the potential for mitigating these two issues by leveraging model editing methods, e.g., by locating Feed-Forward Network (FFN) neurons or something that are responsible for the errors and deactivating them in the inference time. We find that directly applying such methods either limited effect on the targeted errors or has significant negative side-effect on the general translation quality, indicating that the located components may also be crucial for ensuring machine translation with LLMs on the rails. To this end, we propose to refine the located components by fetching the intersection of the locating results under different language settings, filtering out the aforementioned information that is irrelevant to targeted errors. The experiment results empirically demonstrate that our methods can effectively reduce the language mismatch and repetition ratios and meanwhile enhance or keep the general translation quality in most cases.

arxiv情報

著者 Weichuan Wang,Zhaoyi Li,Defu Lian,Chen Ma,Linqi Song,Ying Wei
発行日 2024-10-09 16:51:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | コメントする

Predictability maximization and the origins of word order harmony

要約

私たちは、情報理論の観点から、頭部とその従属部分の順序配置に関する言語問題に取り組みます。
特に、シーケンスの予測可能性を最大化するヘッドの最適な配置を考慮します。
自由選択の原則と依存関係文法の中核となる仮定に従って、依存関係はヘッドが与えられた場合に統計的に独立していると仮定します。
我々は、高調波次数の最適性を実証します。つまり、ヘッドを最後に配置すると、ヘッドの予測可能性が最大化され、一方、ヘッドを最初に配置すると、依存関係の予測可能性が最大化されます。
また、ヘッドを延期することがその予測可能性を最大化するための最適な戦略であり、ヘッドを前倒しすることが依存関係の予測可能性を最大化するための最適な戦略であることも示します。
依存関係の予測可能性を最大化するよりも、ヘッドの予測可能性を最大化する戦略の利点を解明します。
私たちの発見は、実際の言語で採用されている、またはさまざまな種類の実験で現れている頭の配置に光を当てます。

要約(オリジナル)

We address the linguistic problem of the sequential arrangement of a head and its dependents from an information theoretic perspective. In particular, we consider the optimal placement of a head that maximizes the predictability of the sequence. We assume that dependents are statistically independent given a head, in line with the open-choice principle and the core assumptions of dependency grammar. We demonstrate the optimality of harmonic order, i.e., placing the head last maximizes the predictability of the head whereas placing the head first maximizes the predictability of dependents. We also show that postponing the head is the optimal strategy to maximize its predictability while bringing it forward is the optimal strategy to maximize the predictability of dependents. We unravel the advantages of the strategy of maximizing the predictability of the head over maximizing the predictability of dependents. Our findings shed light on the placements of the head adopted by real languages or emerging in different kinds of experiments.

arxiv情報

著者 Ramon Ferrer-i-Cancho
発行日 2024-10-09 16:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, physics.soc-ph, q-bio.NC | コメントする

Data Selection via Optimal Control for Language Models

要約

この研究では、下流で使用するための LM の機能を強化するために、大量のコーパスから高品質の事前トレーニング データを選択する方法を調査します。
データ選択を一般化された最適制御問題として定式化します。これはポントリャギンの最大原理 (PMP) によって理論的に解決でき、最適なデータ選択と LM トレーニング ダイナミクスの間の関係を特徴付ける一連の必要な条件が得られます。
これらの理論的結果に基づいて、PMP 条件を解決することで最適なデータ選択を近似するフレームワークである PMP ベースのデータ選択 (PDS) を紹介します。
私たちの実験では、PDS を採用して CommonCrawl からデータを選択し、PDS で選択されたコーパスが LM の学習を加速し、さまざまなモデル サイズにわたる幅広い下流タスクでパフォーマンスを常に向上させることを示しました。
さらに、PDS の利点は、スケーリング則に従ったテスト損失曲線の外挿によって証明されているように、約 10T トークンでトレーニングされた約 400B モデルまで拡張されます。
また、PDS は、事前トレーニング データが制限されている場合でも、データ需要を 1.8 分の 1 に削減することでデータ利用率を向上させ、Web クロールされた利用可能なコーパスの急速な枯渇を軽減します。
コード、データ、モデルのチェックポイントは、https://github.com/microsoft/LMOps/tree/main/data_selection にあります。

要約(オリジナル)

This work investigates the selection of high-quality pre-training data from massive corpora to enhance LMs’ capabilities for downstream usage. We formulate data selection as a generalized Optimal Control problem, which can be solved theoretically by Pontryagin’s Maximum Principle (PMP), yielding a set of necessary conditions that characterize the relationship between optimal data selection and LM training dynamics. Based on these theoretical results, we introduce PMP-based Data Selection (PDS), a framework that approximates optimal data selection by solving the PMP conditions. In our experiments, we adopt PDS to select data from CommmonCrawl and show that the PDS-selected corpus accelerates the learning of LMs and constantly boosts their performance on a wide range of downstream tasks across various model sizes. Moreover, the benefits of PDS extend to ~400B models trained on ~10T tokens, as evidenced by the extrapolation of the test loss curves according to the Scaling Laws. PDS also improves data utilization when the pre-training data is limited, by reducing the data demand by 1.8 times, which mitigates the quick exhaustion of available web-crawled corpora. Our code, data, and model checkpoints can be found in https://github.com/microsoft/LMOps/tree/main/data_selection.

arxiv情報

著者 Yuxian Gu,Li Dong,Hongning Wang,Yaru Hao,Qingxiu Dong,Furu Wei,Minlie Huang
発行日 2024-10-09 17:06:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Counterfactuals As a Means for Evaluating Faithfulness of Attribution Methods in Autoregressive Language Models

要約

自己回帰言語モデルが広く採用されているにもかかわらず、説明可能性評価の研究は主にスパン埋め込みとマスクされた言語モデルに焦点を当ててきました。
説明方法の忠実性、つまりモデルの内部動作と意思決定をどの程度正確に説明しているかを評価することは、モデルをその説明から分離することが難しいため、困難です。
ほとんどの忠実度評価手法は、特定の属性 (特徴の重要度) メソッドによって重要とみなされる入力トークンを破損または削除し、その結果として生じるモデルの出力の変化を観察します。
ただし、自己回帰言語モデルの場合、このアプローチでは次のトークンの予測トレーニング目的により分布外の入力が作成されます。
この研究では、反事実生成を利用して自己回帰言語モデルの帰属方法の忠実性を評価する手法を提案します。
私たちの技術は、流暢な分布内の反事実を生成し、評価プロトコルの信頼性を高めます。

要約(オリジナル)

Despite the widespread adoption of autoregressive language models, explainability evaluation research has predominantly focused on span infilling and masked language models. Evaluating the faithfulness of an explanation method — how accurately it explains the inner workings and decision-making of the model — is challenging because it is difficult to separate the model from its explanation. Most faithfulness evaluation techniques corrupt or remove input tokens deemed important by a particular attribution (feature importance) method and observe the resulting change in the model’s output. However, for autoregressive language models, this approach creates out-of-distribution inputs due to their next-token prediction training objective. In this study, we propose a technique that leverages counterfactual generation to evaluate the faithfulness of attribution methods for autoregressive language models. Our technique generates fluent, in-distribution counterfactuals, making the evaluation protocol more reliable.

arxiv情報

著者 Sepehr Kamahi,Yadollah Yaghoobzadeh
発行日 2024-10-09 17:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Not All Contexts Are Equal: Teaching LLMs Credibility-aware Generation

要約

大規模な言語モデルの急速な開発により、外部知識を統合して知識のボトルネックを軽減し、幻覚を軽減する検索拡張生成 (RAG) が広く採用されるようになりました。
しかし、既存の RAG パラダイムは、検索フレーズ中に導入された欠陥情報の影響を受けることは避けられず、それによって生成された結果の信頼性と正確性が低下します。
このペーパーでは、RAG 内の欠陥情報の影響を軽減するために設計された、普遍的に適用可能なフレームワークである CAG (Credibility-aware Generation) を提案します。
CAG の核心は、情報の信頼性に基づいて情報を識別し、処理する能力をモデルに装備することです。
この目的を達成するために、信頼性に基づいてデータを生成し、それによってモデルに CAG の機能を効果的に与える革新的なデータ変換フレームワークを提案します。
さらに、CAG のモデルの機能を正確に評価するために、3 つの重要な現実世界のシナリオをカバーする包括的なベンチマークを構築しました。
実験結果は、私たちのモデルが生成の信頼性を効果的に理解して利用できること、検索拡張で他のモデルを大幅に上回っていること、ノイズの多い文書によって引き起こされる中断に対する回復力を示し、それによって堅牢なパフォーマンスを維持できることを示しています。
さらに、当社のモデルはカスタマイズされた信頼性をサポートし、幅広い潜在的なアプリケーションを提供します。

要約(オリジナル)

The rapid development of large language models has led to the widespread adoption of Retrieval-Augmented Generation (RAG), which integrates external knowledge to alleviate knowledge bottlenecks and mitigate hallucinations. However, the existing RAG paradigm inevitably suffers from the impact of flawed information introduced during the retrieval phrase, thereby diminishing the reliability and correctness of the generated outcomes. In this paper, we propose Credibility-aware Generation (CAG), a universally applicable framework designed to mitigate the impact of flawed information in RAG. At its core, CAG aims to equip models with the ability to discern and process information based on its credibility. To this end, we propose an innovative data transformation framework that generates data based on credibility, thereby effectively endowing models with the capability of CAG. Furthermore, to accurately evaluate the models’ capabilities of CAG, we construct a comprehensive benchmark covering three critical real-world scenarios. Experimental results demonstrate that our model can effectively understand and utilize credibility for generation, significantly outperform other models with retrieval augmentation, and exhibit resilience against the disruption caused by noisy documents, thereby maintaining robust performance. Moreover, our model supports customized credibility, offering a wide range of potential applications.

arxiv情報

著者 Ruotong Pan,Boxi Cao,Hongyu Lin,Xianpei Han,Jia Zheng,Sirui Wang,Xunliang Cai,Le Sun
発行日 2024-10-09 17:16:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Stanceformer: Target-Aware Transformer for Stance Detection

要約

スタンス検出のタスクには、特定の主題またはターゲットに対するテキスト内で表現されたスタンスを識別することが含まれます。
これまでの研究は、ターゲットに効果的に優先順位を付ける機能が欠けている既存の変圧器モデルに依存していました。
その結果、これらのモデルは、ターゲット情報を利用するか無視するかに関係なく、同様のパフォーマンスをもたらし、タスクの重要性を損ないます。
この課題に対処するために、トレーニングと推論の両方でターゲットに対する注意を強化するターゲット認識トランスフォーマー モデルである Stanceformer を導入します。
具体的には、ターゲットに割り当てられた自己注意スコアを高める \textit{ターゲット認識} マトリックスを設計します。
私たちは、最先端のモデルや大規模言語モデル (LLM) を含むさまざまな BERT ベースのモデルを使用して Stanceformer の有効性を実証し、ゼロショット データセットと並行して 3 つのスタンス検出データセットにわたるパフォーマンスを評価します。
私たちのアプローチ Stanceformer は、優れたパフォーマンスを提供するだけでなく、アスペクトベースの感情分析などの他のドメインにも一般化します。
コードは公開されています。\footnote{\scriptsize\url{https://github.com/kgarg8/Stanceformer}}

要約(オリジナル)

The task of Stance Detection involves discerning the stance expressed in a text towards a specific subject or target. Prior works have relied on existing transformer models that lack the capability to prioritize targets effectively. Consequently, these models yield similar performance regardless of whether we utilize or disregard target information, undermining the task’s significance. To address this challenge, we introduce Stanceformer, a target-aware transformer model that incorporates enhanced attention towards the targets during both training and inference. Specifically, we design a \textit{Target Awareness} matrix that increases the self-attention scores assigned to the targets. We demonstrate the efficacy of the Stanceformer with various BERT-based models, including state-of-the-art models and Large Language Models (LLMs), and evaluate its performance across three stance detection datasets, alongside a zero-shot dataset. Our approach Stanceformer not only provides superior performance but also generalizes even to other domains, such as Aspect-based Sentiment Analysis. We make the code publicly available.\footnote{\scriptsize\url{https://github.com/kgarg8/Stanceformer}}

arxiv情報

著者 Krishna Garg,Cornelia Caragea
発行日 2024-10-09 17:24:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

要約

AI エージェントが機械学習エンジニアリングでどの程度優れたパフォーマンスを発揮するかを測定するためのベンチマークである MLE ベンチを紹介します。
この目的を達成するために、私たちは Kaggle から 75 の ML エンジニアリング関連のコンテストを厳選し、モデルのトレーニング、データセットの準備、実験の実行など、現実世界の ML エンジニアリング スキルをテストするさまざまな挑戦的なタスクのセットを作成します。
私たちは、Kaggle の公開されているリーダーボードを使用して、各コンテストに対する人間のベースラインを確立します。
私たちは、オープンソースのエージェント スキャフォールドを使用して、ベンチマークでいくつかのフロンティア言語モデルを評価しました。その結果、最もパフォーマンスの高いセットアップ (AIDE スキャフォールディングを使用した OpenAI の o1-preview) が、16.9% のコンペティションで少なくとも Kaggle の銅メダルのレベルを達成していることがわかりました。

主な結果に加えて、AI エージェントのさまざまな形式のリソース スケーリングと、事前トレーニングによる汚染の影響を調査します。
AI エージェントの ML エンジニアリング機能を理解するための将来の研究を促進するために、ベンチマーク コード (github.com/openai/mle-bench/) をオープンソースにしています。

要約(オリジナル)

We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a diverse set of challenging tasks that test real-world ML engineering skills such as training models, preparing datasets, and running experiments. We establish human baselines for each competition using Kaggle’s publicly available leaderboards. We use open-source agent scaffolds to evaluate several frontier language models on our benchmark, finding that the best-performing setup–OpenAI’s o1-preview with AIDE scaffolding–achieves at least the level of a Kaggle bronze medal in 16.9% of competitions. In addition to our main results, we investigate various forms of resource scaling for AI agents and the impact of contamination from pre-training. We open-source our benchmark code (github.com/openai/mle-bench/) to facilitate future research in understanding the ML engineering capabilities of AI agents.

arxiv情報

著者 Jun Shern Chan,Neil Chowdhury,Oliver Jaffe,James Aung,Dane Sherburn,Evan Mays,Giulio Starace,Kevin Liu,Leon Maksin,Tejal Patwardhan,Lilian Weng,Aleksander Mądry
発行日 2024-10-09 17:34:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Axis Tour: Word Tour Determines the Order of Axes in ICA-transformed Embeddings

要約

単語の埋め込みは自然言語処理において最も重要なコンポーネントの 1 つですが、高次元の埋め込みの解釈は依然として困難な問題です。
この問題に対処するには、独立成分分析 (ICA) が効果的な解決策として認識されています。
ICA で変換された単語の埋め込みにより、解釈可能な意味軸が明らかになります。
ただし、これらの軸の順序は任意です。
本研究ではこの性質に着目し、軸の順序を最適化する新しい手法「Axis Tour」を提案する。
1 次元の単語埋め込み手法である Word Tour からインスピレーションを得て、軸の意味的連続性を最大化することで単語埋め込み空間の明瞭性を向上させることを目指しています。
さらに、下流タスクの実験を通じて、Axis Tour が PCA と ICA の両方と比較して、より優れた、または同等の低次元埋め込みを生成することを示します。

要約(オリジナル)

Word embedding is one of the most important components in natural language processing, but interpreting high-dimensional embeddings remains a challenging problem. To address this problem, Independent Component Analysis (ICA) is identified as an effective solution. ICA-transformed word embeddings reveal interpretable semantic axes; however, the order of these axes are arbitrary. In this study, we focus on this property and propose a novel method, Axis Tour, which optimizes the order of the axes. Inspired by Word Tour, a one-dimensional word embedding method, we aim to improve the clarity of the word embedding space by maximizing the semantic continuity of the axes. Furthermore, we show through experiments on downstream tasks that Axis Tour yields better or comparable low-dimensional embeddings compared to both PCA and ICA.

arxiv情報

著者 Hiroaki Yamagiwa,Yusuke Takase,Hidetoshi Shimodaira
発行日 2024-10-09 17:38:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Unleashing Multi-Hop Reasoning Potential in Large Language Models through Repetition of Misordered Context

要約

マルチホップ推論は、特定のコンテキスト内のサポート文書に基づいた複数ステップの推論を必要とし、大規模言語モデル (LLM) にとって依然として困難です。
LLM は、コンテキスト内で無関係なドキュメントをフィルタリングするのに苦労することが多く、そのパフォーマンスは、そのコンテキスト内でサポートされるドキュメントの位置に影響されます。
このペーパーでは、追加の課題を特定します。LLM のパフォーマンスは、サポート文書が提示される順序にも影響されます。
これをコンテキストの誤った順序の問題と呼びます。
この問題に対処するために、私たちはコンテキスト反復 (CoRe) と呼ばれるシンプルかつ効果的な方法を提案します。これは、サポートするドキュメントがモデルにとって最適な順序で表示されるようにコンテキストを繰り返し提示することでモデルを促すことを含みます。
CoRe を使用すると、マルチホップ QA タスクで F1 スコアが最大 30%p 向上し、合成タスクで精度が最大 70%p 向上します。
さらに、CoRe は、LLM におけるよく知られた「中間者喪失」問題の軽減に役立ち、思考連鎖 (CoT) 推論を利用した検索ベースのアプローチと効果的に組み合わせることができます。

要約(オリジナル)

Multi-hop reasoning, which requires multi-step reasoning based on the supporting documents within a given context, remains challenging for large language models (LLMs). LLMs often struggle to filter out irrelevant documents within the context, and their performance is sensitive to the position of supporting documents within that context. In this paper, we identify an additional challenge: LLMs’ performance is also sensitive to the order in which the supporting documents are presented. We refer to this as the misordered context problem. To address this issue, we propose a simple yet effective method called context repetition (CoRe), which involves prompting the model by repeatedly presenting the context to ensure the supporting documents are presented in the optimal order for the model. Using CoRe, we improve the F1 score by up to 30%p on multi-hop QA tasks and increase accuracy by up to 70%p on a synthetic task. Additionally, CoRe helps mitigate the well-known ‘lost-in-the-middle’ problem in LLMs and can be effectively combined with retrieval-based approaches utilizing Chain-of-Thought (CoT) reasoning.

arxiv情報

著者 Sangwon Yu,Ik-hwan Kim,Jongyoon Song,Saehyung Lee,Junsung Park,Sungroh Yoon
発行日 2024-10-09 17:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Private prediction for large-scale synthetic text generation

要約

私たちは、大規模言語モデル (LLM) を使用し、プライベート予測を通じて差分プライベート合成テキストを生成するアプローチを紹介します。
プライベート予測フレームワークでは、差分プライバシーの保証を満たすために出力合成データのみが必要です。
これは、機密性の高いユーザー提供のソース データに基づいて生成モデルをトレーニングし、モデル自体が安全にリリースできることを確認するアプローチとは対照的です。
ソース データを使用して事前トレーニングされた LLM をプロンプトしますが、次のトークンの予測が差分プライバシー保証で行われることを保証します。
このパラダイムにおける以前の研究では、妥当なプライバシー レベルで少数のサンプル (<10) が生成されたと報告されており、これは下流のコンテキスト内の学習またはプロンプトにのみ役立つデータ量です。 対照的に、私たちは何千もの高品質な合成データ ポイントを生成できるように変更を加え、潜在的なアプリケーションのセットを大幅に拡大します。 私たちの改善は、プライバシー分析の改善と、LLM のトークンをサンプリングするためのソフトマックス層と指数関数メカニズムの間の等価性を利用する、より優れたプライベート選択メカニズムから来ています。 さらに、スパース ベクトル技術を介した公開予測の新しい使用法を導入します。この手法では、機密データなしで予測可能なトークンに対してプライバシー コストを支払いません。 これは構造化データに特に効果的であることがわかりました。

要約(オリジナル)

We present an approach for generating differentially private synthetic text using large language models (LLMs), via private prediction. In the private prediction framework, we only require the output synthetic data to satisfy differential privacy guarantees. This is in contrast to approaches that train a generative model on potentially sensitive user-supplied source data and seek to ensure the model itself is safe to release. We prompt a pretrained LLM with source data, but ensure that next-token predictions are made with differential privacy guarantees. Previous work in this paradigm reported generating a small number of examples (<10) at reasonable privacy levels, an amount of data that is useful only for downstream in-context learning or prompting. In contrast, we make changes that allow us to generate thousands of high-quality synthetic data points, greatly expanding the set of potential applications. Our improvements come from an improved privacy analysis and a better private selection mechanism, which makes use of the equivalence between the softmax layer for sampling tokens in LLMs and the exponential mechanism. Furthermore, we introduce a novel use of public predictions via the sparse vector technique, in which we do not pay privacy costs for tokens that are predictable without sensitive data; we find this to be particularly effective for structured data.

arxiv情報

著者 Kareem Amin,Alex Bie,Weiwei Kong,Alexey Kurakin,Natalia Ponomareva,Umar Syed,Andreas Terzis,Sergei Vassilvitskii
発行日 2024-10-09 17:45:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | コメントする