Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models

要約

LLMSの多言語能力は、言語の壁を克服するための新しい機会を提供しますが、これらの能力は、言語的分裂と多言語ソース間の知識の対立が既知の発生である現実のシナリオに変換されますか?
この論文では、言語間のぼろきれベースの情報検索設定でLLMの言語的好みを研究しました。
LLMは、ドキュメント取得と回答生成の両方で、クエリ言語と同じ言語で情報に対する全身バイアスを表示することがわかりました。
さらに、クエリの言語に情報がないシナリオでは、LLMSは生成中に高リソース言語のドキュメントを好み、支配的な見解を強化する可能性があります。
このようなバイアスは、事実と意見に基づくクエリの両方に存在します。
私たちの結果は、情報検索システムの多言語LLM内の言語的格差を強調しています。
LLMSの一見有益な多言語能力は、言語固有の情報cocoを強化したり、低リソースビューをさらに疎外したりすることにより、情報パリティに逆火する可能性があります。

要約(オリジナル)

Although the multilingual capability of LLMs offers new opportunities to overcome the language barrier, do these capabilities translate into real-life scenarios where linguistic divide and knowledge conflicts between multilingual sources are known occurrences? In this paper, we studied LLM’s linguistic preference in a cross-language RAG-based information search setting. We found that LLMs displayed systemic bias towards information in the same language as the query language in both document retrieval and answer generation. Furthermore, in scenarios where no information is in the language of the query, LLMs prefer documents in high-resource languages during generation, potentially reinforcing the dominant views. Such bias exists for both factual and opinion-based queries. Our results highlight the linguistic divide within multilingual LLMs in information search systems. The seemingly beneficial multilingual capability of LLMs may backfire on information parity by reinforcing language-specific information cocoons or filter bubbles further marginalizing low-resource views.

arxiv情報

著者 Nikhil Sharma,Kenton Murray,Ziang Xiao
発行日 2025-02-11 18:17:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models はコメントを受け付けていません

Reinforcement Learning from Human Feedback with Active Queries

要約

大規模な言語モデル(LLM)を人間の好みに合わせることは、最新の生成モデルを構築する上で重要な役割を果たし、人間のフィードバック(RLHF)からの強化学習によって達成できます。
優れたパフォーマンスにもかかわらず、現在のRLHFアプローチでは、多くの場合、収集するのに費用がかかる大量の人間で標識された選好データが必要です。
この論文では、アクティブラーニングの成功に触発されたこのペーパーでは、クエリ効率の高いRLHFメソッドを提案することにより、この問題に対処します。
まず、アラインメントの問題を文脈上の決闘の盗賊問題として形式化し、$ \ tilde {o}(d^2/\ delta)$ instance依存性後悔と$ \ tilde {o}(d^2/\ delta)を備えたアクティブなクエリベースの近位ポリシー最適化(appo)アルゴリズムを設計します。
$ \ tilde {o}(d^2/\ delta^2)$クエリの複雑さ。ここで、$ d $は機能空間の寸法であり、$ \ delta $はすべてのコンテキストにわたるサブオプティマリティギャップです。
次に、直接選好最適化(DPO)に基づいてアルゴリズムの実用的なバージョンであるADPOを提案し、微調整LLMSに適用します。
私たちの実験では、ADPOは、人間の好みのために約半分のクエリしか作成しないが、最先端のDPOメソッドのパフォーマンスと一致することを示しています。

要約(オリジナル)

Aligning large language models (LLM) with human preference plays a key role in building modern generative models and can be achieved by reinforcement learning from human feedback (RLHF). Despite their superior performance, current RLHF approaches often require a large amount of human-labelled preference data, which is expensive to collect. In this paper, inspired by the success of active learning, we address this problem by proposing query-efficient RLHF methods. We first formalize the alignment problem as a contextual dueling bandit problem and design an active-query-based proximal policy optimization (APPO) algorithm with an $\tilde{O}(d^2/\Delta)$ instance-dependent regret bound and an $\tilde{O}(d^2/\Delta^2)$ query complexity, where $d$ is the dimension of feature space and $\Delta$ is the sub-optimality gap over all the contexts. We then propose ADPO, a practical version of our algorithm based on direct preference optimization (DPO) and apply it to fine-tuning LLMs. Our experiments show that ADPO, while only making about half of queries for human preference, matches the performance of the state-of-the-art DPO method.

arxiv情報

著者 Kaixuan Ji,Jiafan He,Quanquan Gu
発行日 2025-02-11 18:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, math.OC, stat.ML | Reinforcement Learning from Human Feedback with Active Queries はコメントを受け付けていません

PFedDST: Personalized Federated Learning with Decentralized Selection Training

要約

分散学習(DL)により、複数のデバイスにわたる機械学習モデルのトレーニングが可能になりますが、非IIDデータ分布やデバイス機能の格差などの課題に直面しているため、トレーニング効率を妨げる可能性があります。
コミュニケーションボトルネックは、従来のフェデレートラーニング(FL)のセットアップをさらに複雑にします。
これらの問題を軽減するために、分散型選択トレーニング(PFEDDST)フレームワークを使用して、パーソナライズされたフェデレーション学習を紹介します。
PFEDDSTは、包括的なコミュニケーションスコアに基づいて、デバイスがピアを戦略的に評価および選択できるようにすることにより、モデルトレーニングを強化します。
このスコアは、損失、タスクの類似性、選択頻度を統合し、最適なピア接続を確保します。
この選択戦略は、現地のパーソナライズを増やし、有益なピアコラボレーションを促進して、トレーニングプロセスの安定性と効率を強化するように調整されています。
私たちの実験は、PFEDDSTがモデルの精度を高めるだけでなく、収束を加速することを示しています。
このアプローチは、データの不均一性の処理における最先端の方法よりも優れており、多様で分散型のシステムでより高速でより効果的なトレーニングの両方を提供します。

要約(オリジナル)

Distributed Learning (DL) enables the training of machine learning models across multiple devices, yet it faces challenges like non-IID data distributions and device capability disparities, which can impede training efficiency. Communication bottlenecks further complicate traditional Federated Learning (FL) setups. To mitigate these issues, we introduce the Personalized Federated Learning with Decentralized Selection Training (PFedDST) framework. PFedDST enhances model training by allowing devices to strategically evaluate and select peers based on a comprehensive communication score. This score integrates loss, task similarity, and selection frequency, ensuring optimal peer connections. This selection strategy is tailored to increase local personalization and promote beneficial peer collaborations to strengthen the stability and efficiency of the training process. Our experiments demonstrate that PFedDST not only enhances model accuracy but also accelerates convergence. This approach outperforms state-of-the-art methods in handling data heterogeneity, delivering both faster and more effective training in diverse and decentralized systems.

arxiv情報

著者 Mengchen Fan,Keren Li,Tianyun Zhang,Qing Tian,Baocheng Geng
発行日 2025-02-11 18:25:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PFedDST: Personalized Federated Learning with Decentralized Selection Training はコメントを受け付けていません

Towards Efficient Optimizer Design for LLM via Structured Fisher Approximation with a Low-Rank Extension

要約

低メモリの要件と速い収束を備えた大規模な言語モデル(LLMS)の効率的なオプティマザーを設計することは、重要で挑戦的な問題です。
この論文は、構造化されたフィッシャー情報マトリックス(FIM)近似のレンズを介したこのようなオプティマイザーの体系的な設計に向けた一歩を踏み出します。
多くの最先端の効率的なオプティマイザーは、特定の構造的仮定を備えたFIM近似(Frobenius Normの下)のソリューションと見なすことができることを示しています。
これらの洞察に基づいて、LLMSの実用的な効率的なオプティマザーに関する2つの設計上の推奨事項を提案し、一般性と効率のバランスをとる構造の仮定の慎重な選択、および新しい低ランク拡張フレームワークを通じて一般的な構造とのオプティマイザーのメモリ効率の向上を提案します。
新しいメモリ効率の高いオプティマーを導き出すことにより、各設計アプローチを使用する方法を示します:行と列のスケーリングされたSGD(RAC)および適応性低次元サブスペース推定(Alice)。
Llama Pre-Training(最大1Bパラメーター)の実験は、有効性を検証し、既存のメモリ効率の高いベースラインやメモリオーバーヘッドがほとんどないAdamよりも速くより良い収束を示します。
特に、AliceはAdamよりも2倍の高速収束を超えるよりも優れていますが、RACSはSGDのようなメモリを備えた1Bモデルで強力なパフォーマンスを提供します。

要約(オリジナル)

Designing efficient optimizers for large language models (LLMs) with low-memory requirements and fast convergence is an important and challenging problem. This paper makes a step towards the systematic design of such optimizers through the lens of structured Fisher information matrix (FIM) approximation. We show that many state-of-the-art efficient optimizers can be viewed as solutions to FIM approximation (under the Frobenius norm) with specific structural assumptions. Building on these insights, we propose two design recommendations of practical efficient optimizers for LLMs, involving the careful selection of structural assumptions to balance generality and efficiency, and enhancing memory efficiency of optimizers with general structures through a novel low-rank extension framework. We demonstrate how to use each design approach by deriving new memory-efficient optimizers: Row and Column Scaled SGD (RACS) and Adaptive low-dimensional subspace estimation (Alice). Experiments on LLaMA pre-training (up to 1B parameters) validate the effectiveness, showing faster and better convergence than existing memory-efficient baselines and Adam with little memory overhead. Notably, Alice achieves better than 2x faster convergence over Adam, while RACS delivers strong performance on the 1B model with SGD-like memory.

arxiv情報

著者 Wenbo Gong,Meyer Scetbon,Chao Ma,Edward Meeds
発行日 2025-02-11 18:27:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Towards Efficient Optimizer Design for LLM via Structured Fisher Approximation with a Low-Rank Extension はコメントを受け付けていません

An Advanced NLP Framework for Automated Medical Diagnosis with DeBERTa and Dynamic Contextual Positional Gating

要約

このペーパーでは、データ増強、特徴抽出、および分類における高度な技術の統合を通じて医療診断を強化するための新しい自然言語処理(NLP)フレームワークを紹介します。
提案されているアプローチは、バック翻訳を採用して、多様な言い換えデータセットを生成し、堅牢性を改善し、分類タスクの過剰適合を軽減します。
ダイナリックコンテキスト位置ゲーティング(DCPG)を使用して、デコード強化BERT(DEBERTA)をレバレッジして、モデルは微細なコンテキストおよび位置的関係と位置的関係をキャプチャし、セマンティックコンテキストに基づいて位置情報の影響を動的に調整して高品質のテキスト埋め込みを生成します。
分類のために、注意ベースのフィードフォワードニューラルネットワーク(ABFNN)が利用され、意思決定の精度を向上させるために最も関連性の高い機能に効果的に焦点を当てます。
症状、臨床ノート、およびその他の医療テキストの分類に適用されるこのアーキテクチャは、医療データの複雑さに対処する能力を示しています。
データ増強、コンテキスト埋め込み生成、および高度な分類メカニズムの組み合わせは、自動化された医療診断と臨床的意思決定サポートにおける潜在的なアプリケーションを備えた堅牢で正確な診断ツールを提供します。
この方法は、医療診断のために提案されたNLPフレームワークの有効性を示しており、99.78%の精度、99.72%、99.79%の精度、F1スコア99.75%のリコールで顕著な結果を達成します。
これらのメトリックは、並外れた精度と信頼性で医療テキストを分類する際のモデルの堅牢なパフォーマンスを強調するだけでなく、既存の方法に対する優位性も強調しているため、自動化された診断システムのための非常に有望なツールになります。

要約(オリジナル)

This paper presents a novel Natural Language Processing (NLP) framework for enhancing medical diagnosis through the integration of advanced techniques in data augmentation, feature extraction, and classification. The proposed approach employs back-translation to generate diverse paraphrased datasets, improving robustness and mitigating overfitting in classification tasks. Leveraging Decoding-enhanced BERT with Disentangled Attention (DeBERTa) with Dynamic Contextual Positional Gating (DCPG), the model captures fine-grained contextual and positional relationships, dynamically adjusting the influence of positional information based on semantic context to produce high-quality text embeddings. For classification, an Attention-Based Feedforward Neural Network (ABFNN) is utilized, effectively focusing on the most relevant features to improve decision-making accuracy. Applied to the classification of symptoms, clinical notes, and other medical texts, this architecture demonstrates its ability to address the complexities of medical data. The combination of data augmentation, contextual embedding generation, and advanced classification mechanisms offers a robust and accurate diagnostic tool, with potential applications in automated medical diagnosis and clinical decision support. This method demonstrates the effectiveness of the proposed NLP framework for medical diagnosis, achieving remarkable results with an accuracy of 99.78%, recall of 99.72%, precision of 99.79%, and an F1-score of 99.75%. These metrics not only underscore the model’s robust performance in classifying medical texts with exceptional precision and reliability but also highlight its superiority over existing methods, making it a highly promising tool for automated diagnostic systems.

arxiv情報

著者 Mohammad Ali Labbaf Khaniki,Sahabeh Saadati,Mohammad Manthouri
発行日 2025-02-11 18:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | An Advanced NLP Framework for Automated Medical Diagnosis with DeBERTa and Dynamic Contextual Positional Gating はコメントを受け付けていません

Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks

要約

大規模な言語モデル(LLM)が進化し続けるにつれて、それらを評価することは依然として永続的な課題です。
最近の多くの評価では、LLMSを審査員として使用して、他のLLMからの出力を採点し、GPT-4Oのような単一の大型モデルに依存することがよくあります。
ただし、単一のLLMジャッジを使用することはモデル内のバイアスを起こしやすく、感情的知性、創造的な執筆、説得力に関連するタスクは、単一のモデルが公正に判断するにはあまりにも主観的である可能性があります。
LLMSのグループが協力してテストを作成し、それらに応答し、お互いの回答を評価して民主的な方法でランキングを作成するために協力する言語モデル評議会(LMC)を紹介します。
小規模なモデルのパネルを使用してコストやバイアスの削減に焦点を当てた以前のアプローチとは異なり、当社の作業では、完全に包括的なLLM評価システムの利点とニュアンスを調べます。
感情的知性に関する詳細なケーススタディでは、20の最近のLLMSの評議会を展開して、対人紛争に対する自由回答形式の反応について互いにランク付けします。
私たちの結果は、LMCがより分離可能でより堅牢なランキングを生成していることを示しており、ユーザー調査を通じて、個々のLLM裁判官よりも人間の評価と一致していることが示されています。
ただし、すべてのLLMを審査に使用すると費用がかかる可能性があるため、モンテカルロシミュレーションと手curateされたサブカウンティを使用して、仮想評議会の構成を研究し、増分LLMジャッジの価値を議論します。

要約(オリジナル)

As Large Language Models (LLMs) continue to evolve, evaluating them remains a persistent challenge. Many recent evaluations use LLMs as judges to score outputs from other LLMs, often relying on a single large model like GPT-4o. However, using a single LLM judge is prone to intra-model bias, and many tasks – such as those related to emotional intelligence, creative writing, and persuasiveness – may be too subjective for a single model to judge fairly. We introduce the Language Model Council (LMC), where a group of LLMs collaborate to create tests, respond to them, and evaluate each other’s responses to produce a ranking in a democratic fashion. Unlike previous approaches that focus on reducing cost or bias by using a panel of smaller models, our work examines the benefits and nuances of a fully inclusive LLM evaluation system. In a detailed case study on emotional intelligence, we deploy a council of 20 recent LLMs to rank each other on open-ended responses to interpersonal conflicts. Our results show that the LMC produces rankings that are more separable and more robust, and through a user study, we show that they are more consistent with human evaluations than any individual LLM judge. Using all LLMs for judging can be costly, however, so we use Monte Carlo simulations and hand-curated sub-councils to study hypothetical council compositions and discuss the value of the incremental LLM judge.

arxiv情報

著者 Justin Zhao,Flor Miriam Plaza-del-Arco,Benjie Genchel,Amanda Cercas Curry
発行日 2025-02-11 18:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks はコメントを受け付けていません

Polynomial-Time Approximability of Constrained Reinforcement Learning

要約

一般的な制約されたマルコフ決定プロセスを近似する計算の複雑さを研究します。
私たちの主な貢献は、多項式時間$(0、\ epsilon)$の設計です。

下限を一致させることは、近似保証が$ p \ neq np $である限り最適であることを意味します。
私たちのアプローチの一般性は、制約された強化学習文献におけるいくつかの長年のオープンな複雑さの質問に対する回答をもたらします。
具体的には、次の設定の多項式時間近似性を証明したのは、偶然の制約に基づくポリシー、複数の期待制約に基づく決定論的ポリシー、非同等の制約(すなわち、さまざまなタイプの制約)に基づくポリシー、および継続的な制約の下でのポリシー
– ステートプロセス。

要約(オリジナル)

We study the computational complexity of approximating general constrained Markov decision processes. Our primary contribution is the design of a polynomial time $(0,\epsilon)$-additive bicriteria approximation algorithm for finding optimal constrained policies across a broad class of recursively computable constraints, including almost-sure, chance, expectation, and their anytime variants. Matching lower bounds imply our approximation guarantees are optimal so long as $P \neq NP$. The generality of our approach results in answers to several long-standing open complexity questions in the constrained reinforcement learning literature. Specifically, we are the first to prove polynomial-time approximability for the following settings: policies under chance constraints, deterministic policies under multiple expectation constraints, policies under non-homogeneous constraints (i.e., constraints of different types), and policies under constraints for continuous-state processes.

arxiv情報

著者 Jeremy McMahan
発行日 2025-02-11 18:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.LG | Polynomial-Time Approximability of Constrained Reinforcement Learning はコメントを受け付けていません

Effect of Adaptive Communication Support on LLM-powered Human-Robot Collaboration

要約

効果的なヒューマンロボットコラボレーションには、ロボットが人間のニーズ、タスク要件、複雑さに基づいて、役割とサポートレベルを採用する必要があります。
従来のヒューマンロボットチームは、多くの場合、事前に決定されたロボット通信スキームに依存しており、複雑なタスクにおけるチームワークの適応性を制限します。
大規模な言語モデル(LLMS)の強力なコミュニケーション機能を活用すると、言語の頻度と内容を調整することで人間とロボットの相互作用を強化するように設計されたマルチモーダル言語フィードバック(HRT-ML)を使用したヒューマンロボットチームのフレームワークを提案します。
ベースのフィードバック。
HRT-MLフレームワークには、2つのコアモジュールが含まれています。高レベルで低周波戦略的ガイダンスのコーディネーターと、サブタスク固有の高周波命令のマネージャーで、人間のチームメイトとのパッシブおよびアクティブな相互作用を可能にします。
共同シナリオでの言語フィードバックの影響を評価するために、さまざまなレベルのタスクの複雑さ(イージー、ミディアム、ハード)およびフィードバック頻度(非アクティブ、パッシブ、アクティブ、スーパーアクティブ)で、強化された過度に調理された環境で実験を実施しました。
私たちの結果は、タスクの複雑さが人間の能力に比べて増加するにつれて、人間のチームメイトが頻繁で積極的なサポートを提供できるロボットエージェントよりも強い好みを示したことを示しています。
ただし、タスクの複雑さがLLMの容量を超えると、スーパーアクティブロボットエージェントからのノイズの多いフィードバックが代わりにチームのパフォーマンスを妨げる可能性があります。これは、人間のチームメイトがパフォーマンスのリターンが限られている多数のコミュニケーションを解釈して対応する努力を増やす必要があるためです。
私たちの結果は、ロボットエージェントがコミュニケーションのレベルと頻度を動的に調整して、人間とシームレスに連携し、チームのパフォーマンスを向上させるための一般的な原則を提供します。

要約(オリジナル)

Effective human-robot collaboration requires robot to adopt their roles and levels of support based on human needs, task requirements, and complexity. Traditional human-robot teaming often relies on a pre-determined robot communication scheme, restricting teamwork adaptability in complex tasks. Leveraging strong communication capabilities of Large Language Models (LLMs), we propose a Human-Robot Teaming Framework with Multi-Modal Language feedback (HRT-ML), a framework designed to enhance human-robot interaction by adjusting the frequency and content of language-based feedback. HRT-ML framework includes two core modules: a Coordinator for high-level, low-frequency strategic guidance, and a Manager for subtask-specific, high-frequency instructions, enabling passive and active interactions with human teammates. To assess the impact of language feedback in collaborative scenarios, we conducted experiments in an enhanced Overcooked environment with varying levels of task complexity (easy, medium, hard) and feedback frequency (inactive, passive, active, superactive). Our results show that as task complexity increases relative to human capabilities, human teammates exhibited a stronger preference towards robotic agents that can offer frequent, proactive support. However, when task complexities exceed the LLM’s capacity, noisy and inaccurate feedback from superactive robotic agents can instead hinder team performance, as it requires human teammates to increase their effort to interpret and respond to a large number of communications, with limited performance return. Our results offer a general principle for robotic agents to dynamically adjust their levels and frequencies of communications to work seamlessly with humans and achieve improved teaming performance.

arxiv情報

著者 Shipeng Liu,FNU Shrutika,Boshen Zhang,Zhehui Huang,Gaurav Sukhatme,Feifei Qian
発行日 2025-02-11 18:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, cs.AI, cs.HC, cs.RO, I.2.9 | Effect of Adaptive Communication Support on LLM-powered Human-Robot Collaboration はコメントを受け付けていません

Breaking Down Bias: On The Limits of Generalizable Pruning Strategies

要約

モデル剪定を採用して、LLMSが人種バイアスをどのように概念化するか、およびそのようなバイアスの一般化可能な緩和戦略が実現可能かどうかを調べます。
分析では、いくつかの新しい洞察が得られます。
剪定は、異常なモデルの挙動を大幅に増加させることなく、バイアスを減らすための効果的な方法になる可能性があることがわかります。
ニューロンベースの剪定戦略は、一般に、注意ヘッド全体を剪定するアプローチよりも良い結果をもたらします。
しかし、我々の結果は、剪定戦略がより一般化されるにつれて、いずれかのアプローチの有効性が急速に悪化することを示しています。
たとえば、財務上の意思決定の文脈で人種的バイアスを削除するように訓練されているモデルは、商業取引のバイアスに不十分に一般的になります。
全体として、私たちの分析は、人種的バイアスは言語モデル内の一般的な概念として部分的にしか表されないことを示唆しています。
これらのバイアスの他の部分は非常にコンテキスト固有であり、一般化可能な緩和戦略は有効性が限られている可能性があることを示唆しています。
私たちの調査結果は、AIを取り巻く法的枠組みに重要な意味を持っています。
特に、効果的な緩和戦略には、特定のユースケースにモデルを展開する人々に対する法的責任の割り当てを含める必要があることを示唆しています。

要約(オリジナル)

We employ model pruning to examine how LLMs conceptualize racial biases, and whether a generalizable mitigation strategy for such biases appears feasible. Our analysis yields several novel insights. We find that pruning can be an effective method to reduce bias without significantly increasing anomalous model behavior. Neuron-based pruning strategies generally yield better results than approaches pruning entire attention heads. However, our results also show that the effectiveness of either approach quickly deteriorates as pruning strategies become more generalized. For instance, a model that is trained on removing racial biases in the context of financial decision-making poorly generalizes to biases in commercial transactions. Overall, our analysis suggests that racial biases are only partially represented as a general concept within language models. The other part of these biases is highly context-specific, suggesting that generalizable mitigation strategies may be of limited effectiveness. Our findings have important implications for legal frameworks surrounding AI. In particular, they suggest that an effective mitigation strategy should include the allocation of legal responsibility on those that deploy models in a specific use case.

arxiv情報

著者 Sibo Ma,Alejandro Salinas,Peter Henderson,Julian Nyarko
発行日 2025-02-11 18:55:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | Breaking Down Bias: On The Limits of Generalizable Pruning Strategies はコメントを受け付けていません

OLMES: A Standard for Language Model Evaluations

要約

AIの進捗は、モデル機能を測定するタスクのパフォーマンスの向上を主張する新しいモデルによってしばしば実証されます。
言語モデルの評価は、タスクでモデルがどのように評価されるかの選択が測定されたパフォーマンスの大きな変化につながる可能性があるため、特に困難な場合があります。
一般的な標準セットアップはないため、同じタスクで異なる方法で異なるモデルが評価され、どのモデルが再現性がないことが最も効果的であるかについての主張につながります。
再現可能なLLM評価のための完全に文書化された実用的なオープン標準であるOlmesを提案します。
この基準の開発において、迅速なフォーマットの詳細、コンテキスト内の例の選択、確率の正常化、タスクの定式化など、コミュニティが採用した評価慣行のさまざまな要因を特定してレビューします。
特に、OLMESは、元の定式化を利用できる大規模なモデルに対する複数選択の質問の不自然な「クローズ」定式化を必要とする小さなベースモデル間の意味のある比較をサポートしています。
Olmesには、既存の文献の結果と、未解決の質問を解決する新しい実験によって導かれた、よく考えられた文書化された推奨事項が含まれています。

要約(オリジナル)

Progress in AI is often demonstrated by new models claiming improved performance on tasks measuring model capabilities. Evaluating language models can be particularly challenging, as choices of how a model is evaluated on a task can lead to large changes in measured performance. There is no common standard setup, so different models are evaluated on the same tasks in different ways, leading to claims about which models perform best not being reproducible. We propose OLMES, a completely documented, practical, open standard for reproducible LLM evaluations. In developing this standard, we identify and review the varying factors in evaluation practices adopted by the community – such as details of prompt formatting, choice of in-context examples, probability normalizations, and task formulation. In particular, OLMES supports meaningful comparisons between smaller base models that require the unnatural ‘cloze’ formulation of multiple-choice questions against larger models that can utilize the original formulation. OLMES includes well-considered, documented recommendations guided by results from existing literature as well as new experiments resolving open questions.

arxiv情報

著者 Yuling Gu,Oyvind Tafjord,Bailey Kuehl,Dany Haddad,Jesse Dodge,Hannaneh Hajishirzi
発行日 2025-02-11 18:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | OLMES: A Standard for Language Model Evaluations はコメントを受け付けていません