Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing

要約

テキスト生成のための大規模な言語モデル(LLMS)の使用の増加により、AIが生成されたコンテンツ検出に関する広範な懸念が生じました。
ただし、見落とされがちな課題は、AIが作成したテキストで、人間が作成したコンテンツがAIツールを使用して微妙な改良を受けます。
これは重要な疑問を提起します:最小限に磨かれたテキストをAIの生成として分類する必要がありますか?
このような分類は、虚偽の盗作の告発と、オンラインコンテンツにおけるAIの有病率に関する誤解を招く主張につながる可能性があります。
この研究では、さまざまなAI関与レベルで改良された14.7Kサンプルを含むAIポールテキスト評価(APT-EVAL)データセットを使用して、12の最先端のAI-Text検出器を体系的に評価します。
私たちの調査結果は、検出器が頻繁に最小限に洗練されたテキストでさえAIにフラグを立て、AIの関与の程度を区別するのに苦労し、古いモデルと小さなモデルに対してバイアスを示すことを明らかにしています。
これらの制限は、より微妙な検出方法論の緊急の必要性を強調しています。

要約(オリジナル)

The growing use of large language models (LLMs) for text generation has led to widespread concerns about AI-generated content detection. However, an overlooked challenge is AI-polished text, where human-written content undergoes subtle refinements using AI tools. This raises a critical question: should minimally polished text be classified as AI-generated? Such classification can lead to false plagiarism accusations and misleading claims about AI prevalence in online content. In this study, we systematically evaluate twelve state-of-the-art AI-text detectors using our AI-Polished-Text Evaluation (APT-Eval) dataset, which contains 14.7K samples refined at varying AI-involvement levels. Our findings reveal that detectors frequently flag even minimally polished text as AI-generated, struggle to differentiate between degrees of AI involvement, and exhibit biases against older and smaller models. These limitations highlight the urgent need for more nuanced detection methodologies.

arxiv情報

著者 Shoumik Saha,Soheil Feizi
発行日 2025-05-05 03:57:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG | Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing はコメントを受け付けていません

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

要約

大規模な基礎モデルの進歩により、幅広、低コスト、およびゼロ汚染ベンチマークが必要です。
言語モデルの評価の継続的な調査にもかかわらず、大規模なマルチモーダルモデル(LMM)の評価に関する包括的な研究は限られたままです。
この作業では、透明で再現可能な評価を促進するために、50を超えるタスクと10を超えるモデルを備えた統一された標準化されたマルチモーダルベンチマークフレームワークであるLMMS-Evalを紹介します。
LMMS-Evalは包括的なカバレッジを提供しますが、低コストとゼロ汚染を達成するのにまだ不足していることがわかります。
この評価トリレマにアプローチするために、さらに、カバレッジと効率の両方を強調する剪定された評価ツールキットであるLMMS-Eval Liteを紹介します。
さらに、ニュースおよびオンラインフォーラムを継続的に更新して、モデルの一般化能力を野生の一般化能力を評価するマルチモーダルライブベンチを紹介し、低コストおよびゼロ汚染評価アプローチを備えています。
要約すると、私たちの研究は、評価のトリレマを検討することの重要性を強調し、大規模なマルチモーダルモデルを評価する際のトレードオフをナビゲートするための実用的なソリューションを提供し、LMMのより効果的で信頼できるベンチマークへの道を開きます。
https://github.com/evolvinglmms-lab/lmms-evalとhttps://huggingface.co/spaces/lmms-lab/livebenchで、コードベースをオープンソースし、ライブベンチのリーダーボードを維持します。

要約(オリジナル)

The advances of large foundation models necessitate wide-coverage, low-cost, and zero-contamination benchmarks. Despite continuous exploration of language model evaluations, comprehensive studies on the evaluation of Large Multi-modal Models (LMMs) remain limited. In this work, we introduce LMMS-EVAL, a unified and standardized multimodal benchmark framework with over 50 tasks and more than 10 models to promote transparent and reproducible evaluations. Although LMMS-EVAL offers comprehensive coverage, we find it still falls short in achieving low cost and zero contamination. To approach this evaluation trilemma, we further introduce LMMS-EVAL LITE, a pruned evaluation toolkit that emphasizes both coverage and efficiency. Additionally, we present Multimodal LIVEBENCH that utilizes continuously updating news and online forums to assess models’ generalization abilities in the wild, featuring a low-cost and zero-contamination evaluation approach. In summary, our work highlights the importance of considering the evaluation trilemma and provides practical solutions to navigate the trade-offs in evaluating large multi-modal models, paving the way for more effective and reliable benchmarking of LMMs. We opensource our codebase and maintain leaderboard of LIVEBENCH at https://github.com/EvolvingLMMs-Lab/lmms-eval and https://huggingface.co/spaces/lmms-lab/LiveBench.

arxiv情報

著者 Kaichen Zhang,Bo Li,Peiyuan Zhang,Fanyi Pu,Joshua Adrian Cahyono,Kairui Hu,Shuai Liu,Yuanhan Zhang,Jingkang Yang,Chunyuan Li,Ziwei Liu
発行日 2025-05-05 04:48:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models はコメントを受け付けていません

SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

要約

言語モデルを人間の好みに合わせて調整することは、ペアワイズ優先データセットに依存しています。
一部の研究では、オンポリティデータは一貫して優先学習のためにポリティデータを上回ることを示唆していますが、他の研究は、オンポリシーデータの利点がタスク依存性である可能性があることを示しており、相互作用の体系的な調査の必要性を強調しています。
この作業では、onポリティおよびポリシーのデータが好みの最適化に補完的な強みを提供することを示します。オンポリシーデータは、数学やコーディングなどのタスクの推論に特に効果的であり、オフポリシーデータは、創造的な執筆や個人的な推奨事項などのオープンエンドのタスクで優れたパフォーマンスを発揮します。
これらの調査結果に導かれて、Simplemixを紹介します。これは、これら2つのデータソースを混合するだけで、オンポリティとポリティのオフポリシー選好学習の補完的な強さを組み合わせるアプローチです。
多様なタスクとベンチマークにわたる経験的な結果は、Simplemixが言語モデルの調整を大幅に改善することを示しています。
具体的には、SimpleMixは、ALPACA Eval 2.0で平均6.03%増加して、ポリシーDPOおよびオフポリティDPOを改善します。
さらに、HYPOやDPO-MIX-Pなどのオンポリティデータとオフポリティデータを平均3.05%組み合わせるのがはるかに複雑な以前のアプローチよりも優れています。

要約(オリジナル)

Aligning language models with human preferences relies on pairwise preference datasets. While some studies suggest that on-policy data consistently outperforms off -policy data for preference learning, others indicate that the advantages of on-policy data may be task-dependent, highlighting the need for a systematic exploration of their interplay. In this work, we show that on-policy and off-policy data offer complementary strengths in preference optimization: on-policy data is particularly effective for reasoning tasks like math and coding, while off-policy data performs better on open-ended tasks such as creative writing and making personal recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach to combine the complementary strengths of on-policy and off-policy preference learning by simply mixing these two data sources. Our empirical results across diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it outperforms prior approaches that are much more complex in combining on- and off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.

arxiv情報

著者 Tianjian Li,Daniel Khashabi
発行日 2025-05-05 04:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning はコメントを受け付けていません

LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

要約

大規模な言語モデル(LLMS)ベースの埋め込みモデルにおける最近の進歩により、特に密なベクターベースの検索において、テキスト埋め込みタスクの新しい最先端のベンチマークが確立されました。
ただし、これらのモデルは主に英語に焦点を当てており、多言語の埋め込み能力はほとんど未開拓です。
この制限に対処するために、多言語の監督を必要とせずに多言語タスクにLLMベースの埋め込みモデルを適応させる新しいゼロショットアプローチであるLusiferを提示します。
Lusifer’s Architectureは、言語統合学習者として機能する多言語エンコーダーを組み合わせており、LLMベースの埋め込みモデルが埋め込み固有のタスク用に最適化されています。
これらのコンポーネントは、コネクタとして機能する最小限のトレーニング可能なパラメーターセットを通じてシームレスに統合され、多言語エンコーダの言語理解機能を特殊な埋め込みモデルに効果的に転送します。
さらに、多言語の埋め込み性能を包括的に評価するために、5つの主要な埋め込みタスク、123の多様なデータセット、および14の言語にわたるカバレッジを含む新しいベンチマークを導入します。
広範な実験結果は、Lusiferが明示的な多言語トレーニングデータを必要とせずに、特に中程度および低リソース言語のさまざまな埋め込みタスクにわたって多言語パフォーマンスを大幅に向上させることを示しています。

要約(オリジナル)

Recent advancements in large language models (LLMs) based embedding models have established new state-of-the-art benchmarks for text embedding tasks, particularly in dense vector-based retrieval. However, these models predominantly focus on English, leaving multilingual embedding capabilities largely unexplored. To address this limitation, we present LUSIFER, a novel zero-shot approach that adapts LLM-based embedding models for multilingual tasks without requiring multilingual supervision. LUSIFER’s architecture combines a multilingual encoder, serving as a language-universal learner, with an LLM-based embedding model optimized for embedding-specific tasks. These components are seamlessly integrated through a minimal set of trainable parameters that act as a connector, effectively transferring the multilingual encoder’s language understanding capabilities to the specialized embedding model. Additionally, to comprehensively evaluate multilingual embedding performance, we introduce a new benchmark encompassing 5 primary embedding tasks, 123 diverse datasets, and coverage across 14 languages. Extensive experimental results demonstrate that LUSIFER significantly enhances the multilingual performance across various embedding tasks, particularly for medium and low-resource languages, without requiring explicit multilingual training data.

arxiv情報

著者 Hieu Man,Nghia Trung Ngo,Viet Dac Lai,Ryan A. Rossi,Franck Dernoncourt,Thien Huu Nguyen
発行日 2025-05-05 05:01:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models はコメントを受け付けていません

JTCSE: Joint Tensor-Modulus Constraints and Cross-Attention for Unsupervised Contrastive Learning of Sentence Embeddings

要約

監視されていない対照学習は、自然言語処理のホットな研究トピックになりました。
既存の作業は通常、対照的な学習において高次元のセマンティック空間における正と負のサンプルの表現の方向分布を制約することを目的としていますが、セマンティック表現テンソルは弾性率と方向の両方の特徴を持っています。
%したがって、最初に、セマンティック表現テンソルの弾性率の制約を目的とするトレーニング目標を提案し、対照的な学習における正のサンプル間のアライメントを強化します。
したがって、最初に、セマンティック表現テンソルに弾性率の制約を課すように設計されたトレーニング目標を提案し、対照的な学習における正のサンプル間のアライメントを強化します。
次に、Bertのようなモデルは、注意を沈めるという現象に苦しんでおり、セマンティック情報を集計するCLSトークンに注意の欠如につながります。
これに応じて、Twinタワーのアンサンブルモデルの間で相互参加構造を提案して、CLSトークンへのモデルの注意を高め、CLSプーリングの品質を最適化します。
上記の2つの動機を組み合わせて、新しい\ textbf {j} oint \ textbf {t} ensor表現モジュラス制約と\ textbf {c} ross-attention conterived contrastive learning \ textbf {s} entence \ textbf {e} mdind framect jtcse jtcse in semance framectecseを提案します。
タスクと実験結果は、JTCSEのツインタワーアンサンブルモデルとシングルタワー蒸留モデルが他のベースラインを上回り、現在のソタになることを示しています。
さらに、大規模なゼロショット下流タスク評価を実施しました。これは、JTCSEが130を超えるタスクで全体的に他のベースラインよりも優れていることを示しています。

要約(オリジナル)

Unsupervised contrastive learning has become a hot research topic in natural language processing. Existing works usually aim at constraining the orientation distribution of the representations of positive and negative samples in the high-dimensional semantic space in contrastive learning, but the semantic representation tensor possesses both modulus and orientation features, and the existing works ignore the modulus feature of the representations and cause insufficient contrastive learning. % Therefore, we firstly propose a training objective that aims at modulus constraints on the semantic representation tensor, to strengthen the alignment between the positive samples in contrastive learning. Therefore, we first propose a training objective that is designed to impose modulus constraints on the semantic representation tensor, to strengthen the alignment between positive samples in contrastive learning. Then, the BERT-like model suffers from the phenomenon of sinking attention, leading to a lack of attention to CLS tokens that aggregate semantic information. In response, we propose a cross-attention structure among the twin-tower ensemble models to enhance the model’s attention to CLS token and optimize the quality of CLS Pooling. Combining the above two motivations, we propose a new \textbf{J}oint \textbf{T}ensor representation modulus constraint and \textbf{C}ross-attention unsupervised contrastive learning \textbf{S}entence \textbf{E}mbedding representation framework JTCSE, which we evaluate in seven semantic text similarity computation tasks, and the experimental results show that JTCSE’s twin-tower ensemble model and single-tower distillation model outperform the other baselines and become the current SOTA. In addition, we have conducted an extensive zero-shot downstream task evaluation, which shows that JTCSE outperforms other baselines overall on more than 130 tasks.

arxiv情報

著者 Tianyu Zong,Hongzhu Yi,Bingkang Shi,Yuanxiang Wang,Jungang Xu
発行日 2025-05-05 05:09:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | JTCSE: Joint Tensor-Modulus Constraints and Cross-Attention for Unsupervised Contrastive Learning of Sentence Embeddings はコメントを受け付けていません

RM-R1: Reward Modeling as Reasoning

要約

報酬モデリングは、特に人間のフィードバック(RLHF)からの強化学習を通じて、大規模な言語モデル(LLM)を人間の好みに合わせるために不可欠です。
正確な報酬信号を提供するために、報酬モデル(RM)は、スコアまたは判断を割り当てる前に、深い思考を刺激し、解釈可能な推論を行う必要があります。
ただし、既存のRMSは不透明なスカラースコアを生成するか、好みの回答の予測を直接生成し、自然言語の批評を統合するのに苦労し、解釈可能性が欠けています。
推論集約型のタスクに関する長いチェーン(COT)の最近の進歩に触発された私たちは、推論機能を報酬モデリングに統合することにより、RMの解釈可能性とパフォーマンスが大幅に向上することを仮定し、検証します。
この作業では、新しいクラスの生成報酬モデル(推論報酬モデル(REARRM))を紹介します。
推論指向のトレーニングパイプラインを提案し、RM-R1の家族を訓練します。
トレーニングは、2つの重要な段階で構成されています。(1)高品質の推論チェーンの蒸留と(2)検証可能な報酬による補強学習。
RM-R1は、自己生成の推論トレースまたはチャット固有のルーブリックを自己生成し、それらに対する候補の反応を評価することにより、LLMロールアウトを改善します。
経験的には、私たちのモデルは、複数の包括的な報酬モデルベンチマークにわたって生成RMSの最先端または最先端のパフォーマンスを達成し、はるかに大きなオープンウェイトモデル(llama3.1-405bなど)および独自のモデル(GPT-4oなど)を13.8%上回ります。
最終的なパフォーマンスを超えて、徹底的な経験的分析を実施して、成功したREARRMトレーニングの重要な要素を理解しています。
将来の研究を促進するために、https://github.com/rm-r1-uiuc/rm-r1でコードとデータとともに6つのREARRMモデルをリリースします。

要約(オリジナル)

Reward modeling is essential for aligning large language models (LLMs) with human preferences, especially through reinforcement learning from human feedback (RLHF). To provide accurate reward signals, a reward model (RM) should stimulate deep thinking and conduct interpretable reasoning before assigning a score or a judgment. However, existing RMs either produce opaque scalar scores or directly generate the prediction of a preferred answer, making them struggle to integrate natural language critiques, thus lacking interpretability. Inspired by recent advances of long chain-of-thought (CoT) on reasoning-intensive tasks, we hypothesize and validate that integrating reasoning capabilities into reward modeling significantly enhances RM’s interpretability and performance. In this work, we introduce a new class of generative reward models — Reasoning Reward Models (ReasRMs) — which formulate reward modeling as a reasoning task. We propose a reasoning-oriented training pipeline and train a family of ReasRMs, RM-R1. The training consists of two key stages: (1) distillation of high-quality reasoning chains and (2) reinforcement learning with verifiable rewards. RM-R1 improves LLM rollouts by self-generating reasoning traces or chat-specific rubrics and evaluating candidate responses against them. Empirically, our models achieve state-of-the-art or near state-of-the-art performance of generative RMs across multiple comprehensive reward model benchmarks, outperforming much larger open-weight models (e.g., Llama3.1-405B) and proprietary ones (e.g., GPT-4o) by up to 13.8%. Beyond final performance, we perform thorough empirical analysis to understand the key ingredients of successful ReasRM training. To facilitate future research, we release six ReasRM models along with code and data at https://github.com/RM-R1-UIUC/RM-R1.

arxiv情報

著者 Xiusi Chen,Gaotang Li,Ziqi Wang,Bowen Jin,Cheng Qian,Yu Wang,Hongru Wang,Yu Zhang,Denghui Zhang,Tong Zhang,Hanghang Tong,Heng Ji
発行日 2025-05-05 06:11:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | RM-R1: Reward Modeling as Reasoning はコメントを受け付けていません

Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL

要約

大規模な言語モデル(LLMS)のチェーンオブテーブ(COT)推論は、潜在的な可変問題として正式化できます。ここでは、モデルが中間推論ステップを生成する必要があります。
反復報酬ランクの微調整(RAFT)などの以前のアプローチはそのような製剤に依存していますが、通常、プロンプトに均一な推論予算を適用します。
この作業は、COTトレーニングの主要なボトルネックを、静的なサンプリング戦略による非効率的な確率的勾配推定として特定しています。
計算予算の制約の下で確率的勾配分散を最小限に抑えるために設計されたプロンプト固有の動的サンプル割り当て戦略であるGVMラフトを提案します。
このメソッドは、迅速な受け入れ率と確率的勾配規範を監視することにより、計算リソースを動的に割り当て、結果として得られる勾配分散が最小化されるようにします。
私たちの理論分析は、提案された動的サンプリング戦略が適切な条件下での加速収束保証につながることを示しています。
数学的推論に関する実験は、GVMラフトがバニララフトよりも2〜4倍のスピードアップとかなりの精度の改善を達成することを示しています。
提案された動的サンプリング戦略は一般的であり、GRPOなどの他の強化学習アルゴリズムに組み込むことができ、収束とテストの精度も同様の改善につながります。
私たちのコードは、https://github.com/rlhflow/gvmで入手できます。

要約(オリジナル)

Chain-of-thought (CoT) reasoning in large language models (LLMs) can be formalized as a latent variable problem, where the model needs to generate intermediate reasoning steps. While prior approaches such as iterative reward-ranked fine-tuning (RAFT) have relied on such formulations, they typically apply uniform inference budgets across prompts, which fails to account for variability in difficulty and convergence behavior. This work identifies the main bottleneck in CoT training as inefficient stochastic gradient estimation due to static sampling strategies. We propose GVM-RAFT, a prompt-specific Dynamic Sample Allocation Strategy designed to minimize stochastic gradient variance under a computational budget constraint. The method dynamically allocates computational resources by monitoring prompt acceptance rates and stochastic gradient norms, ensuring that the resulting gradient variance is minimized. Our theoretical analysis shows that the proposed dynamic sampling strategy leads to accelerated convergence guarantees under suitable conditions. Experiments on mathematical reasoning show that GVM-RAFT achieves a 2-4x speedup and considerable accuracy improvements over vanilla RAFT. The proposed dynamic sampling strategy is general and can be incorporated into other reinforcement learning algorithms, such as GRPO, leading to similar improvements in convergence and test accuracy. Our code is available at https://github.com/RLHFlow/GVM.

arxiv情報

著者 Jiarui Yao,Yifan Hao,Hanning Zhang,Hanze Dong,Wei Xiong,Nan Jiang,Tong Zhang
発行日 2025-05-05 06:26:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL はコメントを受け付けていません

Bielik 11B v2 Technical Report

要約

ポーランドのテキスト処理用に最適化された最先端の言語モデルであるBielik 11b V2を紹介します。
Mistral 7B V0.2アーキテクチャに基づいて構築され、深さのアップスケーリングを使用して11Bパラメーターにスケーリングされたこのモデルは、強力な言語能力を維持しながら、ポーランド語のベンチマーク全体で例外的なパフォーマンスを示しています。
2つの主要な技術的革新を紹介します。加重命令のクロスエントロピー損失は、品質ベースの重みをトレーニングの例に割り当てることにより、多様な指導タイプ全体の学習を最適化し、コンテキストの長さに基づいて動的に調整する適応学習率です。
複数のベンチマークにわたる包括的な評価は、Bielik 11B V2が2〜6倍のパラメーターを含む多くのより大きなモデルを上回り、言語学的理解から複雑な推論に至るまでのタスクに関する他の特殊なポーランド語モデルを大幅に上回ることを示しています。
モデルのパラメーター効率と広範な量子化オプションにより、さまざまなハードウェア構成全体に展開でき、ポーランド語のAI機能を進め、リソース効率の悪い言語モデリングの新しいベンチマークを定期的でない言語で確立できます。

要約(オリジナル)

We present Bielik 11B v2, a state-of-the-art language model optimized for Polish text processing. Built on the Mistral 7B v0.2 architecture and scaled to 11B parameters using depth up-scaling, this model demonstrates exceptional performance across Polish language benchmarks while maintaining strong cross-lingual capabilities. We introduce two key technical innovations: Weighted Instruction Cross-Entropy Loss, which optimizes learning across diverse instruction types by assigning quality-based weights to training examples, and Adaptive Learning Rate, which dynamically adjusts based on context length. Comprehensive evaluation across multiple benchmarks demonstrates that Bielik 11B v2 outperforms many larger models, including those with 2-6 times more parameters, and significantly surpasses other specialized Polish language models on tasks ranging from linguistic understanding to complex reasoning. The model’s parameter efficiency and extensive quantization options enable deployment across various hardware configurations, advancing Polish language AI capabilities and establishing new benchmarks for resource-efficient language modeling in less-represented languages.

arxiv情報

著者 Krzysztof Ociepa,Łukasz Flis,Krzysztof Wróbel,Adrian Gwoździej,Remigiusz Kinas
発行日 2025-05-05 07:03:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 | Bielik 11B v2 Technical Report はコメントを受け付けていません

Colombian Waitresses y Jueces canadienses: Gender and Country Biases in Occupation Recommendations from LLMs

要約

NLPの公平性研究の目標の1つは、NLPシステムによって伝播されるステレオタイプのバイアスを測定して軽減することです。
ただし、そのような作業は、単一のバイアス(ほとんどの場合、性別)と英語に焦点を当てる傾向があります。
これらの制限に対処するために、大規模な言語モデルによって生成される職業の推奨事項に焦点を当てて、多言語交差国と性別のバイアスの最初の研究を貢献します。
25か国と4つの代名詞セットを使用して、英語、スペイン語、ドイツ語でプロンプトのベンチマークを構築します。
次に、このベンチマークで5つのラマベースのモデルのスイートを評価し、LLMSが重要な性別と国のバイアスをエンコードしていることを発見しました。
特に、モデルが性別または国のパリティを個別に示す場合でも、国と性別の両方に基づいた交差職業的偏見が続くことがわかります。
また、プロンプト言語がバイアスに大きく影響し、命令調整モデルが一貫して最も低く安定したバイアスを実証することを示しています。
私たちの調査結果は、公平性の研究者が仕事で交差レンズと多言語のレンズを使用する必要性を強調しています。

要約(オリジナル)

One of the goals of fairness research in NLP is to measure and mitigate stereotypical biases that are propagated by NLP systems. However, such work tends to focus on single axes of bias (most often gender) and the English language. Addressing these limitations, we contribute the first study of multilingual intersecting country and gender biases, with a focus on occupation recommendations generated by large language models. We construct a benchmark of prompts in English, Spanish and German, where we systematically vary country and gender, using 25 countries and four pronoun sets. Then, we evaluate a suite of 5 Llama-based models on this benchmark, finding that LLMs encode significant gender and country biases. Notably, we find that even when models show parity for gender or country individually, intersectional occupational biases based on both country and gender persist. We also show that the prompting language significantly affects bias, and instruction-tuned models consistently demonstrate the lowest and most stable levels of bias. Our findings highlight the need for fairness researchers to use intersectional and multilingual lenses in their work.

arxiv情報

著者 Elisa Forcada Rodríguez,Olatz Perez-de-Viñaspre,Jon Ander Campos,Dietrich Klakow,Vagrant Gautam
発行日 2025-05-05 08:40:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Colombian Waitresses y Jueces canadienses: Gender and Country Biases in Occupation Recommendations from LLMs はコメントを受け付けていません

Incentivizing Inclusive Contributions in Model Sharing Markets

要約

データは現代のAIモデルのトレーニングにおいて重要な役割を果たしていますが、貴重な公開データが数年で使い果たされ、大規模な分散型プライベートデータに向かって世界の注意を向けることが認められています。
ただし、生データのプライバシーに敏感な性質とインセンティブメカニズムの欠如により、これらの貴重なデータが完全に活用されるのを防ぎます。
これらの課題に対処するこのペーパーでは、包括的かつインセンティブ化されたパーソナライズされたフェデレートラーニング(IPFL)を提案します。これは、生データを明らかにすることなくパーソナライズされたモデルを協力して訓練するように多様な目的でデータホルダーを奨励します。
IPFLは、グラフベースのトレーニングの最適化を解決することにより、モデル共有市場を構築し、ゲーム理論の原則に基づいたインセンティブメカニズムを組み込みます。
理論分析は、IPFLが2つの重要なインセンティブプロパティに準拠することを示しています:個々の合理性と真実性。
11のAIタスクに関する経験的研究(例:大規模な言語モデルの指導に満ちたタスク)は、IPFLがベースライン方法と比較して最高の経済的有用性、およびより良いまたは同等のモデルパフォーマンスを一貫して達成することを示しています。
私たちのIPFLは、分散型プライベートデータの将来のAIモデルを高めるための貴重なテクニックとして役立つと予想しています。

要約(オリジナル)

While data plays a crucial role in training contemporary AI models, it is acknowledged that valuable public data will be exhausted in a few years, directing the world’s attention towards the massive decentralized private data. However, the privacy-sensitive nature of raw data and lack of incentive mechanism prevent these valuable data from being fully exploited. Addressing these challenges, this paper proposes inclusive and incentivized personalized federated learning (iPFL), which incentivizes data holders with diverse purposes to collaboratively train personalized models without revealing raw data. iPFL constructs a model-sharing market by solving a graph-based training optimization and incorporates an incentive mechanism based on game theory principles. Theoretical analysis shows that iPFL adheres to two key incentive properties: individual rationality and truthfulness. Empirical studies on eleven AI tasks (e.g., large language models’ instruction-following tasks) demonstrate that iPFL consistently achieves the highest economic utility, and better or comparable model performance compared to baseline methods. We anticipate that our iPFL can serve as a valuable technique for boosting future AI models on decentralized private data while making everyone satisfied.

arxiv情報

著者 Enpei Zhang,Jingyi Chai,Rui Ye,Yanfeng Wang,Siheng Chen
発行日 2025-05-05 08:45:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.GT | Incentivizing Inclusive Contributions in Model Sharing Markets はコメントを受け付けていません