A Judge-free LLM Open-ended Generation Benchmark Based on the Distributional Hypothesis

要約

大規模な言語モデル(LLM)の自由回答形式のテキスト生成を評価することは、明確な基本真実がないことと、人間またはLLMベースの評価の高コストのために挑戦的です。
人間の判断やLLM-A-a-a-Judgeアプローチに依存することなく、N-Gram統計とルールを使用してLLMを評価する新しいベンチマークを提案します。
50の質問と参照回答セットを使用して、n-gramsとルールに基づいて3つの新しいメトリックを紹介します:流encyさ、真実性、有用性。
当社のベンチマークは、GPT-4Oベースの評価と強く相関しているが、計算リソースが大幅に少ない必要があるため、LLMSのオープンエンド生成機能を評価するためのスケーラブルな代替手段としての有効性を実証している。

要約(オリジナル)

Evaluating the open-ended text generation of large language models (LLMs) is challenging because of the lack of a clear ground truth and the high cost of human or LLM-based assessments. We propose a novel benchmark that evaluates LLMs using n-gram statistics and rules, without relying on human judgement or LLM-as-a-judge approaches. Using 50 question and reference answer sets, we introduce three new metrics based on n-grams and rules: Fluency, Truthfulness, and Helpfulness. Our benchmark strongly correlates with GPT-4o-based evaluations while requiring significantly fewer computational resources, demonstrating its effectiveness as a scalable alternative for assessing LLMs’ open-ended generation capabilities.

arxiv情報

著者 Kentaro Imajo,Masanori Hirano,Shuji Suzuki,Hiroaki Mikami
発行日 2025-02-13 13:30:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Judge-free LLM Open-ended Generation Benchmark Based on the Distributional Hypothesis はコメントを受け付けていません

Beyond English: The Impact of Prompt Translation Strategies across Languages and Tasks in Multilingual LLMs

要約

多様なタスクにわたる大規模な言語モデル(LLMS)の多言語機能の進歩にもかかわらず、英語はLLMの研究開発にとって支配的な言語のままです。
したがって、別の言語で作業するとき、これにより、事前翻訳の広範な実践、つまり、推論の前にタスクプロンプトを英語に変換することにつながりました。
より外科的アプローチである選択的前翻訳は、特定のプロンプトコンポーネントの翻訳に焦点を当てています。
ただし、現在の使用は散発的であり、体系的な研究基盤がありません。
その結果、さまざまな多言語設定とタスクの最適な翻訳戦略は不明のままです。
この作業では、その使用を体系的に評価することにより、翻訳前の最適なセットアップを明らかにすることを目指しています。
具体的には、プロンプトをモジュラーエンティティと見なします。これは、命令、コンテキスト、例、および出力の4つの機能部品で構成されています。どちらかを翻訳するかどうか。
質問応答(QA)、自然言語推論(NLI)、名前付きエンティティ認識(NER)、抽象的要約など、さまざまなタスクについて、低リソースと高リソースの両方の言語をカバーする35の言語にわたって翻訳前戦略を評価します。
私たちの実験は、事前翻訳によるモデルのパフォーマンスに対する英語、翻訳品質、事前訓練されたデータのサイズとの類似性としての要因の影響を示しています。
さまざまな多言語設定で最適な戦略を選択するための実用的なガイドラインを提案します。

要約(オリジナル)

Despite advances in the multilingual capabilities of Large Language Models (LLMs) across diverse tasks, English remains the dominant language for LLM research and development. So, when working with a different language, this has led to the widespread practice of pre-translation, i.e., translating the task prompt into English before inference. Selective pre-translation, a more surgical approach, focuses on translating specific prompt components. However, its current use is sporagic and lacks a systematic research foundation. Consequently, the optimal pre-translation strategy for various multilingual settings and tasks remains unclear. In this work, we aim to uncover the optimal setup for pre-translation by systematically assessing its use. Specifically, we view the prompt as a modular entity, composed of four functional parts: instruction, context, examples, and output, either of which could be translated or not. We evaluate pre-translation strategies across 35 languages covering both low and high-resource languages, on various tasks including Question Answering (QA), Natural Language Inference (NLI), Named Entity Recognition (NER), and Abstractive Summarization. Our experiments show the impact of factors as similarity to English, translation quality and the size of pre-trained data, on the model performance with pre-translation. We suggest practical guidelines for choosing optimal strategies in various multilingual settings.

arxiv情報

著者 Itai Mondshine,Tzuf Paz-Argaman,Reut Tsarfaty
発行日 2025-02-13 13:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond English: The Impact of Prompt Translation Strategies across Languages and Tasks in Multilingual LLMs はコメントを受け付けていません

On-Device Emoji Classifier Trained with GPT-based Data Augmentation for a Mobile Keyboard

要約

絵文字は、モバイルキーボードを使用してテキストを交換するスマートフォンユーザー間の通信品質を向上させます。
入力テキストに基づいてユーザーの絵文字を予測するには、オンデバイスの低いメモリと時間の制約を検討し、絵文字データセットが通常不均衡であるにもかかわらず、デバイス上の絵文字分類器が幅広い絵文字クラスをカバーしていることを確認する必要があります。
ユーザーのお気に入りへの絵文字分類器出力。
このペーパーでは、SwiftKeyの合理的なメモリとレイテンシー要件を備えたMobileBertに基づくデバイス上の絵文字分類を提案します。
データの不均衡を説明するために、広く使用されているGPTを利用して、絵文字クラスごとに1つ以上のタグを生成します。
絵文字と対応するタグごとに、元のセットをGPT生成文とマージし、データの不均衡を軽減するために人間の介入なしにこの絵文字にラベルを付けます。
推論時に、絵文字分類のために絵文字のユーザー履歴と絵文字の出力を補間します。
結果は、SwiftKeyのために展開された提案されたオンデバイス絵文字分類器が、特にまれな絵文字と絵文字のエンゲージメントで絵文字予測の精度パフォーマンスを向上させることを示しています。

要約(オリジナル)

Emojis improve communication quality among smart-phone users that use mobile keyboards to exchange text. To predict emojis for users based on input text, we should consider the on-device low memory and time constraints, ensure that the on-device emoji classifier covers a wide range of emoji classes even though the emoji dataset is typically imbalanced, and adapt the emoji classifier output to user favorites. This paper proposes an on-device emoji classifier based on MobileBert with reasonable memory and latency requirements for SwiftKey. To account for the data imbalance, we utilize the widely used GPT to generate one or more tags for each emoji class. For each emoji and corresponding tags, we merge the original set with GPT-generated sentences and label them with this emoji without human intervention to alleviate the data imbalance. At inference time, we interpolate the emoji output with the user history for emojis for better emoji classifications. Results show that the proposed on-device emoji classifier deployed for SwiftKey increases the accuracy performance of emoji prediction particularly on rare emojis and emoji engagement.

arxiv情報

著者 Hossam Amer,Joe Osborne,Michael Zaki,Mohamed Afify
発行日 2025-02-13 14:02:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | On-Device Emoji Classifier Trained with GPT-based Data Augmentation for a Mobile Keyboard はコメントを受け付けていません

An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases

要約

大規模な言語モデル(LLM)は、さまざまな方法でバイアスを示すことができます。
このようなバイアスは、性別、人種、性的指向、または年齢を含むがこれらに限定されない、保護された属性内の特定のグループの不当な結果を作成または悪化させることができます。
この論文では、実務家が特定のLLMユースケースに使用するバイアスと公平性メトリックを決定できる決定フレームワークを提案します。
フレームワークを確立するために、LLMのバイアスと公平性のリスクを定義し、それらのリスクをLLMユースケースの分類法にマッピングし、さまざまなメトリックを定義して各タイプのリスクを評価します。
モデル自体のみに焦点を当てる代わりに、モデルとプロンプトの母集団を特徴とするLLMユースケースのレベルで評価を定義することにより、プロンプト固有およびモデル固有のリスクの両方を説明します。
さらに、すべての評価メトリックはLLM出力のみを使用して計算されるため、提案されたフレームワークは非常に実用的で実践者にとって簡単に実行可能です。
合理化された実装のために、フレームワークに含まれるすべての評価メトリックは、このペーパーのコンパニオンPython Toolkit、Langfairで提供されています。
最後に、我々の実験は、ユースケース全体のバイアスと公平性の大幅な変動を示し、ユースケースレベルの評価の重要性を強調しています。

要約(オリジナル)

Large language models (LLMs) can exhibit bias in a variety of ways. Such biases can create or exacerbate unfair outcomes for certain groups within a protected attribute, including, but not limited to sex, race, sexual orientation, or age. In this paper, we propose a decision framework that allows practitioners to determine which bias and fairness metrics to use for a specific LLM use case. To establish the framework, we define bias and fairness risks for LLMs, map those risks to a taxonomy of LLM use cases, and then define various metrics to assess each type of risk. Instead of focusing solely on the model itself, we account for both prompt-specific- and model-specific-risk by defining evaluations at the level of an LLM use case, characterized by a model and a population of prompts. Furthermore, because all of the evaluation metrics are calculated solely using the LLM output, our proposed framework is highly practical and easily actionable for practitioners. For streamlined implementation, all evaluation metrics included in the framework are offered in this paper’s companion Python toolkit, LangFair. Finally, our experiments demonstrate substantial variation in bias and fairness across use cases, underscoring the importance of use-case-level assessments.

arxiv情報

著者 Dylan Bouchard
発行日 2025-02-13 14:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases はコメントを受け付けていません

Language Agents as Digital Representatives in Collective Decision-Making

要約

個人のグループが、代替の宇宙の中から好ましい結果をインタラクティブに選択する集団的意思決定のプロセスを考えてください。
この文脈では、「表現」とは、プロキシエージェント、つまり「代表」による参加を介してプロセスに存在する個人の好みを作る活動です。
この目的のために、学んだ人間の行動のモデルは、この役割を果たす可能性があり、マルチエージェントシナリオ研究とメカニズムの設計に実際的な意味を持ちます。
この作業では、人間のエージェントの代表者の能力を習得するために\ textit {言語エージェント}をトレーニングする可能性を調査し、彼らが立つ人の好みを適切に表現します。
まず、\ textIT {Collective Decision-Making}の設定を正式に形式化します。
これに基づいて、\ textIT {デジタル表現}の問題を正式化します。エージェントの動作のシミュレーションとして、メカニズムから同等の結果を生み出します。
最後に、多様な人間の間で\ textit {Consensus-finding}の設定で実証的なケーススタディを実施し、デジタル代表者として行動するための大規模な言語モデルの微調整の実現可能性を実証します。

要約(オリジナル)

Consider the process of collective decision-making, in which a group of individuals interactively select a preferred outcome from among a universe of alternatives. In this context, ‘representation’ is the activity of making an individual’s preferences present in the process via participation by a proxy agent — i.e. their ‘representative’. To this end, learned models of human behavior have the potential to fill this role, with practical implications for multi-agent scenario studies and mechanism design. In this work, we investigate the possibility of training \textit{language agents} to behave in the capacity of representatives of human agents, appropriately expressing the preferences of those individuals whom they stand for. First, we formalize the setting of \textit{collective decision-making} — as the episodic process of interaction between a group of agents and a decision mechanism. On this basis, we then formalize the problem of \textit{digital representation} — as the simulation of an agent’s behavior to yield equivalent outcomes from the mechanism. Finally, we conduct an empirical case study in the setting of \textit{consensus-finding} among diverse humans, and demonstrate the feasibility of fine-tuning large language models to act as digital representatives.

arxiv情報

著者 Daniel Jarrett,Miruna Pîslar,Michiel A. Bakker,Michael Henry Tessler,Raphael Köster,Jan Balaguer,Romuald Elie,Christopher Summerfield,Andrea Tacchetti
発行日 2025-02-13 14:35:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | Language Agents as Digital Representatives in Collective Decision-Making はコメントを受け付けていません

Generative Prompt Internalization

要約

最近の大規模な言語モデルベースのアプリケーションで使用されているプロンプトは、しばしば固定されており、長く長く、重要な計算オーバーヘッドにつながります。
この課題に対処するために、共同トレーニングアプローチを採用する軽量な方法である生成促進迅速化(GENPI)を提案します。
Genpiは、モデルの動作をプロンプトの入力で複製するだけでなく、モデルの動作がそれに応じて変更される理由の理由とともに、プロンプトのコンテンツを生成します。
私たちのアプローチは、さまざまなエージェントベースのアプリケーションシナリオにわたって複雑なプロンプトを効果的に内在化することを実証します。
専用の環境との相互作用なしで効果的なトレーニングのために、エージェントと環境の役割を交換することにより、会話のデータセットを自律的に収集するデータ統合手法を導入します。
この方法は、対応するトレーニングデータセットなしで定義されたプロンプトのみが利用可能なシナリオで特に役立ちます。
複雑なプロンプトを内面化することにより、生成プロンプトの内在化により、明示的なプロンプトを必要とせずに高性能と効率的な推論が可能になります。

要約(オリジナル)

Prompts used in recent large language model based applications are often fixed and lengthy, leading to significant computational overhead. To address this challenge, we propose Generative Prompt Internalization (GenPI), a lightweight method that employs a joint training approach. GenPI not only replicates the behavior of models with prompt inputs but also generates the content of the prompt along with reasons for why the model’s behavior should change accordingly. We demonstrate that our approach effectively internalizes complex prompts across various agent-based application scenarios. For effective training without interactions with the dedicated environments, we introduce a data synthesis technique that autonomously collects conversational datasets by swapping the roles of the agent and environment. This method is especially useful in scenarios where only a predefined prompt is available without a corresponding training dataset. By internalizing complex prompts, Generative Prompt Internalization enables high performance and efficient inference without the need for explicit prompts.

arxiv情報

著者 Haebin Shin,Lei Ji,Yeyun Gong,Sungdong Kim,Eunbi Choi,Minjoon Seo
発行日 2025-02-13 14:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Generative Prompt Internalization はコメントを受け付けていません

WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models

要約

コードの大規模な言語モデル(LLMS)によって最近達成されたにもかかわらず、それらの顕著な能力は、高品質のデータの微調整に大きく依存しており、データ収集と注釈の課題を提起しています。
これに対処するために、現在の方法は、さまざまなデータフライホイールを設計して複雑なコード命令を収集し、モデルがより複雑なタスクを処理できるようにすることがよくあります。
ただし、これらのアプローチは通常、限られた独自のLLMS(例えば、Claude、GPT4など)からの既製のデータセットとデータ増強に依存しており、構築されたデータの多様性を制限し、体系的なバイアスに陥りやすくなります。

この論文では、これらの制限に対処するために専門家の戦いから学ぶ小説のパラダイムであるWarriorCoderを提案します。
具体的には、主要な専門家コードLLMが互いに挑戦するアリーナを作成し、評価は公平な裁判官によって行われます。
この競争力のあるフレームワークは、すべての参加者の強みを活用して、ゼロから新しいトレーニングデータを生成します。
実験結果は、独自のLLMSに依存しなくても、同じサイズの以前のモデルと比較して、WarriorCoderが最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Despite recent progress achieved by code large language models (LLMs), their remarkable abilities are largely dependent on fine-tuning on the high-quality data, posing challenges for data collection and annotation. To address this, current methods often design various data flywheels to collect complex code instructions, enabling models to handle more intricate tasks. However, these approaches typically rely on off-the-shelf datasets and data augmentation from a limited set of proprietary LLMs (e.g., Claude, GPT4, and so on), which restricts the diversity of the constructed data and makes it prone to systemic biases. In this paper, we propose WarriorCoder, a novel paradigm learns from expert battles to address these limitations. Specifically, we create an arena where leading expert code LLMs challenge each other, with evaluations conducted by impartial judges. This competitive framework generates novel training data from scratch, leveraging the strengths of all participants. Experimental results show that WarriorCoder achieves state-of-the-art performance compared to previous models of the same size, even without relying on proprietary LLMs.

arxiv情報

著者 Huawen Feng,Pu Zhao,Qingfeng Sun,Can Xu,Fangkai Yang,Lu Wang,Qianli Ma,Qingwei Lin,Saravan Rajmohan,Dongmei Zhang,Qi Zhang
発行日 2025-02-13 15:11:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models はコメントを受け付けていません

The LLM Language Network: A Neuroscientific Approach for Identifying Causally Task-Relevant Units

要約

大規模な言語モデル(LLMS)は、言語タスクだけでなく、論理的推論や社会的推論など、本質的に言語的ではないさまざまなタスクにも顕著な能力を示します。
人間の脳では、神経科学は、言語処理を選択的かつ因果的にサポートするコア言語システムを特定しました。
ここでは、LLMSに言語の同様の専門化が現れるかどうかを尋ねます。
神経科学で使用されるのと同じローカリゼーションアプローチを使用して、18人の一般的なLLM以内に言語選択ユニットを特定します。
次に、ランダムユニットではなく、LLM言語選択ユニットをアブレーションすることにより、言語タスクの劇的な欠陥につながることを実証することにより、これらのユニットの因果的役割を確立します。
それに対応して、言語選択的LLMユニットは、ランダムユニットよりも人間の言語システムからの脳記録により整合されています。
最後に、ローカリゼーション方法が他の認知ドメインに拡張されるかどうかを調査します。推論や社会的能力のためにいくつかのLLMで専門的なネットワークを見つけますが、モデルには大きな違いがあります。
これらの発見は、大規模な言語モデルにおける専門化の機能的および因果的証拠を提供し、脳内の機能組織との類似点を強調します。

要約(オリジナル)

Large language models (LLMs) exhibit remarkable capabilities on not just language tasks, but also various tasks that are not linguistic in nature, such as logical reasoning and social inference. In the human brain, neuroscience has identified a core language system that selectively and causally supports language processing. We here ask whether similar specialization for language emerges in LLMs. We identify language-selective units within 18 popular LLMs, using the same localization approach that is used in neuroscience. We then establish the causal role of these units by demonstrating that ablating LLM language-selective units — but not random units — leads to drastic deficits in language tasks. Correspondingly, language-selective LLM units are more aligned to brain recordings from the human language system than random units. Finally, we investigate whether our localization method extends to other cognitive domains: while we find specialized networks in some LLMs for reasoning and social capabilities, there are substantial differences among models. These findings provide functional and causal evidence for specialization in large language models, and highlight parallels with the functional organization in the brain.

arxiv情報

著者 Badr AlKhamissi,Greta Tuckute,Antoine Bosselut,Martin Schrimpf
発行日 2025-02-13 15:21:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | The LLM Language Network: A Neuroscientific Approach for Identifying Causally Task-Relevant Units はコメントを受け付けていません

Rethinking Evaluation Metrics for Grammatical Error Correction: Why Use a Different Evaluation Process than Human?

要約

文法エラー補正(GEC)における自動評価メトリックの目標の1つは、GECシステムをランク付けして、人間の好みに合うようにすることです。
ただし、現在の自動評価は、人間の評価から分岐する手順に基づいています。
具体的には、人間の評価は、レーティングアルゴリズムを使用して、文レベルの相対評価結果、たとえばペアワイズ比較を集約することによりランキングを導き出しますが、自動評価では、文レベルの絶対スコアを平均して、ランキングを決定するために並べ替えます。
この研究では、このギャップを埋めるために人間の評価方法と一致する既存の自動評価メトリックの集約方法を提案します。
編集ベースのメトリック、$ n $グラムベースのメトリック、文レベルのメトリックなど、さまざまなメトリックを使用して実験を行い、ギャップを解決することで、Seedaベンチマークのほとんどのメトリックの結果が改善されることを示しています。
また、BERTベースのメトリックでさえ、GPT-4のメトリックを上回ることがあることがわかりました。
メトリックとメタ評価の統一された実装を公開します。

要約(オリジナル)

One of the goals of automatic evaluation metrics in grammatical error correction (GEC) is to rank GEC systems such that it matches human preferences. However, current automatic evaluations are based on procedures that diverge from human evaluation. Specifically, human evaluation derives rankings by aggregating sentence-level relative evaluation results, e.g., pairwise comparisons, using a rating algorithm, whereas automatic evaluation averages sentence-level absolute scores to obtain corpus-level scores, which are then sorted to determine rankings. In this study, we propose an aggregation method for existing automatic evaluation metrics which aligns with human evaluation methods to bridge this gap. We conducted experiments using various metrics, including edit-based metrics, $n$-gram based metrics, and sentence-level metrics, and show that resolving the gap improves results for the most of metrics on the SEEDA benchmark. We also found that even BERT-based metrics sometimes outperform the metrics of GPT-4. We publish our unified implementation of the metrics and meta-evaluations.

arxiv情報

著者 Takumi Goto,Yusuke Sakai,Taro Watanabe
発行日 2025-02-13 15:39:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Rethinking Evaluation Metrics for Grammatical Error Correction: Why Use a Different Evaluation Process than Human? はコメントを受け付けていません

On multi-token prediction for efficient LLM inference

要約

次のトークン予測(NTP)のために事前に訓練されたLLM内のマルチトークン予測(MTP)機能を体系的に調査します。
最初に、そのようなモデルは、中間トークンの確率にわたって数値的疎外を介してMTP機能を本質的に持っていることを示しますが、パフォーマンスはデータ依存性であり、モデルスケールで改善されます。
さらに、MTPヘッドを凍結LLMに統合するという課題を調査し、隠れた層がNTPに強く特化しており、適応が自明でないことを発見します。
最後に、MTPヘッドとバックボーンの共同トレーニングがパフォーマンスを向上させる一方で、この障壁を完全に克服できず、この方向のさらなる研究を促すことを示しています。
私たちの調査結果は、前提条件のLLMSに適用されるMTPのより深い理解を提供し、並列トークン予測を介して推論を加速するための戦略を通知します。

要約(オリジナル)

We systematically investigate multi-token prediction (MTP) capabilities within LLMs pre-trained for next-token prediction (NTP). We first show that such models inherently possess MTP capabilities via numerical marginalization over intermediate token probabilities, though performance is data-dependent and improves with model scale. Furthermore, we explore the challenges of integrating MTP heads into frozen LLMs and find that their hidden layers are strongly specialized for NTP, making adaptation non-trivial. Finally, we show that while joint training of MTP heads with the backbone improves performance, it cannot fully overcome this barrier, prompting further research in this direction. Our findings provide a deeper understanding of MTP applied to pretrained LLMs, informing strategies for accelerating inference through parallel token prediction.

arxiv情報

著者 Somesh Mehra,Javier Alonso Garcia,Lukas Mauch
発行日 2025-02-13 15:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | On multi-token prediction for efficient LLM inference はコメントを受け付けていません