The Dynamics of Social Conventions in LLM populations: Spontaneous Emergence, Collective Biases and Tipping Points

要約

社会的慣習は社会的および経済的生活の基盤です。
多数の AI エージェントが相互に、また人間との交流が増えるにつれ、共通の慣例を形成する彼らの能力が、AI エージェントがいかに効果的に行動を調整し、社会に統合し、影響を与えるかを決定します。
ここでは、シミュレートされたインタラクションを使用して、大規模言語モデル (LLM) エージェントの母集団内の慣習のダイナミクスを調査します。
まず、世界的に受け入れられている社会的慣習が、通信する LLM 間のローカルな相互作用から自然発生的に発生する可能性があることを示します。
第二に、個々のエージェントには偏見がないように見える場合でも、このプロセス中に集団としての強いバイアスがどのように現れる可能性があるかを示します。
第三に、献身的なLLMの少数派グループが新しい社会慣習を確立することによってどのように社会変革を推進できるかを検討します。
私たちは、これらの少数派グループが臨界的な規模に達すると、確立された行動を一貫して覆すことができることを示します。
いずれの場合も、実験結果を最小限のマルチエージェント モデルからの予測と対比することで、LLM エージェントの特定の役割を分離することができます。
私たちの結果は、AI システムが明示的なプログラミングを行わずにどのように自律的に規範を開発できるかを明らかにし、人間の価値観や社会目標に沿った AI システムの設計に影響を与えます。

要約(オリジナル)

Social conventions are the foundation for social and economic life. As legions of AI agents increasingly interact with each other and with humans, their ability to form shared conventions will determine how effectively they will coordinate behaviors, integrate into society and influence it. Here, we investigate the dynamics of conventions within populations of Large Language Model (LLM) agents using simulated interactions. First, we show that globally accepted social conventions can spontaneously arise from local interactions between communicating LLMs. Second, we demonstrate how strong collective biases can emerge during this process, even when individual agents appear to be unbiased. Third, we examine how minority groups of committed LLMs can drive social change by establishing new social conventions. We show that once these minority groups reach a critical size, they can consistently overturn established behaviors. In all cases, contrasting the experimental results with predictions from a minimal multi-agent model allows us to isolate the specific role of LLM agents. Our results clarify how AI systems can autonomously develop norms without explicit programming and have implications for designing AI systems that align with human values and societal goals.

arxiv情報

著者 Ariel Flint Ashery,Luca Maria Aiello,Andrea Baronchelli
発行日 2024-10-11 16:16:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.MA, physics.soc-ph | The Dynamics of Social Conventions in LLM populations: Spontaneous Emergence, Collective Biases and Tipping Points はコメントを受け付けていません

Meta-Transfer Learning Empowered Temporal Graph Networks for Cross-City Real Estate Appraisal

要約

不動産評価は、不動産取引、投資分析、不動産課税などのさまざまな取り組みにとって重要です。
最近、ディープラーニングは、Web プラットフォームからの大量のオンライン取引データを活用することにより、不動産評価に大きな期待を寄せています。
それにもかかわらず、ディープラーニングは大量のデータを必要とするため、データが限られている巨大な小規模都市には簡単には適用できない可能性があります。
この目的を達成するために、私たちは、評価パフォーマンスを向上させるために、データが豊富な複数の大都市からデータが不足している都市に貴重な知識を転送する、メタ転送学習強化型時間グラフ ネットワーク (MetaTransfer) を提案します。
具体的には、関連する住宅コミュニティとの成長を続ける不動産取引を時間イベント異種グラフとしてモデル化することで、まずイベントトリガー型時間グラフネットワークを設計し、進化する不動産取引間の不規則な時空間相関をモデル化します。
さらに、都市全体の不動産評価をマルチタスクの動的グラフリンクラベル予測問題として定式化し、都市内の各コミュニティの評価を個別のタスクと見なします。
ハイパーネットワークベースのマルチタスク学習モジュールは、複数のコミュニティ間での都市内の知識共有と、コミュニティごとの不動産価格分布に対応するタスク固有のパラメータ生成を同時に促進するために提案されています。
さらに、複数のソース都市からのトレーニング トランザクション インスタンスの重み付けを適応的に再調整して負の移転を軽減し、都市間の知識移転の効率を向上させる、トライレベル最適化ベースのメタ学習フレームワークを提案します。
最後に、5 つの現実世界のデータセットに基づく広範な実験により、11 のベースライン アルゴリズムと比較して MetaTransfer が大幅に優れていることが実証されました。

要約(オリジナル)

Real estate appraisal is important for a variety of endeavors such as real estate deals, investment analysis, and real property taxation. Recently, deep learning has shown great promise for real estate appraisal by harnessing substantial online transaction data from web platforms. Nonetheless, deep learning is data-hungry, and thus it may not be trivially applicable to enormous small cities with limited data. To this end, we propose Meta-Transfer Learning Empowered Temporal Graph Networks (MetaTransfer) to transfer valuable knowledge from multiple data-rich metropolises to the data-scarce city to improve valuation performance. Specifically, by modeling the ever-growing real estate transactions with associated residential communities as a temporal event heterogeneous graph, we first design an Event-Triggered Temporal Graph Network to model the irregular spatiotemporal correlations between evolving real estate transactions. Besides, we formulate the city-wide real estate appraisal as a multi-task dynamic graph link label prediction problem, where the valuation of each community in a city is regarded as an individual task. A Hypernetwork-Based Multi-Task Learning module is proposed to simultaneously facilitate intra-city knowledge sharing between multiple communities and task-specific parameters generation to accommodate the community-wise real estate price distribution. Furthermore, we propose a Tri-Level Optimization Based Meta- Learning framework to adaptively re-weight training transaction instances from multiple source cities to mitigate negative transfer, and thus improve the cross-city knowledge transfer effectiveness. Finally, extensive experiments based on five real-world datasets demonstrate the significant superiority of MetaTransfer compared with eleven baseline algorithms.

arxiv情報

著者 Weijia Zhang,Jindong Han,Hao Liu,Wei Fan,Hao Wang,Hui Xiong
発行日 2024-10-11 16:16:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Meta-Transfer Learning Empowered Temporal Graph Networks for Cross-City Real Estate Appraisal はコメントを受け付けていません

Transferable Belief Model on Quantum Circuits

要約

デンプスター・シェーファー理論の意味論的解釈としての移転可能な信念モデルにより、エージェントは不正確で不完全な環境で推論と意思決定を行うことができます。
このモデルは、信頼性の低い証言を処理するための明確なセマンティクスを提供し、ベイジアン アプローチと比較して、より合理的かつ一般的な信念伝達のプロセスを可能にします。
しかし、信念関数を更新する際には信念の質量と焦点集合の構造の両方を考慮する必要があるため、推論中の計算が余分に複雑になるため、最近の開発では、転送可能な信念モデルは研究者の間で徐々に支持を失っています。
この論文では、転送可能な信念モデルを量子回路に実装し、信念関数が量子コンピューティングのフレームワーク内でベイジアンアプローチに代わるより簡潔で効果的な代替手段を提供することを実証します。
さらに、量子コンピューティングのユニークな特性を活用して、いくつかの新しい信念伝達アプローチを提案します。
より広範に、この論文は量子 AI モデルの基本情報表現に関する新しい視点を導入し、量子回路上の不確実性を処理するにはベイジアン アプローチよりも信念関数の方が適していることを示唆しています。

要約(オリジナル)

The transferable belief model, as a semantic interpretation of Dempster-Shafer theory, enables agents to perform reasoning and decision making in imprecise and incomplete environments. The model offers distinct semantics for handling unreliable testimonies, allowing for a more reasonable and general process of belief transfer compared to the Bayesian approach. However, because both the belief masses and the structure of focal sets must be considered when updating belief functions-leading to extra computational complexity during reasoning-the transferable belief model has gradually lost favor among researchers in recent developments. In this paper, we implement the transferable belief model on quantum circuits and demonstrate that belief functions offer a more concise and effective alternative to Bayesian approaches within the quantum computing framework. Furthermore, leveraging the unique characteristics of quantum computing, we propose several novel belief transfer approaches. More broadly, this paper introduces a new perspective on basic information representation for quantum AI models, suggesting that belief functions are more suitable than Bayesian approach for handling uncertainty on quantum circuits.

arxiv情報

著者 Qianli Zhou,Hao Luo,Lipeng Pan,Yong Deng,Eloi Bosse
発行日 2024-10-11 16:17:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, quant-ph | Transferable Belief Model on Quantum Circuits はコメントを受け付けていません

On the Adversarial Transferability of Generalized ‘Skip Connections’

要約

スキップ接続は、最新のディープ モデルをより深く、より強力にするために不可欠な要素です。
通常のシナリオ (自然な例に対する最先端の分類パフォーマンス) では大成功を収めているにもかかわらず、敵対的シナリオにおけるスキップ接続の興味深い特性を調査し、特定しました。つまり、スキップ接続を使用すると、転送性の高い敵対的シナリオを簡単に生成できるということです。
例。
具体的には、ResNet のようなモデル (スキップ接続を使用) では、バックプロパゲーション中の減衰係数に応じて残差モジュールではなくスキップ接続からの勾配を多く使用することで、高い伝達性を備えた敵対的なサンプルを作成できることがわかりました。
上記の方法はスキップ勾配法 (SGM) と呼ばれます。
ビジョン ドメインの ResNet のようなモデルから出発していますが、SGM をさらに拡張し、ビジョン トランスフォーマー (ViT) や長さが変化するパスを持つモデルや他のドメイン (自然言語処理など) を含む、より高度なアーキテクチャに拡張します。
ResNets、Transformers、Inceptions、Neural Architecture Search、Large Language Model (LLM) などのさまざまなモデルに対して包括的な転送攻撃を実行します。
SGM を採用すると、ほぼすべてのケースで、巧妙に作られた攻撃の伝達可能性が大幅に向上することがわかります。
さらに、実際の使用には大きな複雑性があることを考慮して、SGM がモデルのアンサンブルや標的型攻撃での転送性や現在の防御に対するステルス性も向上できることをさらに実証します。
最後に、SGM がどのように機能するかについて理論的な説明と経験的な洞察を提供します。
私たちの発見は、モデルのアーキテクチャ特性についての新たな敵対的研究の動機となるだけでなく、安全なモデル アーキテクチャ設計に対するさらなる課題を切り開くものでもあります。
コードは https://github.com/mo666666/SGM で入手できます。

要約(オリジナル)

Skip connection is an essential ingredient for modern deep models to be deeper and more powerful. Despite their huge success in normal scenarios (state-of-the-art classification performance on natural examples), we investigate and identify an interesting property of skip connections under adversarial scenarios, namely, the use of skip connections allows easier generation of highly transferable adversarial examples. Specifically, in ResNet-like models (with skip connections), we find that using more gradients from the skip connections rather than the residual modules according to a decay factor during backpropagation allows one to craft adversarial examples with high transferability. The above method is termed as Skip Gradient Method (SGM). Although starting from ResNet-like models in vision domains, we further extend SGM to more advanced architectures, including Vision Transformers (ViTs) and models with length-varying paths and other domains, i.e. natural language processing. We conduct comprehensive transfer attacks against various models including ResNets, Transformers, Inceptions, Neural Architecture Search, and Large Language Models (LLMs). We show that employing SGM can greatly improve the transferability of crafted attacks in almost all cases. Furthermore, considering the big complexity for practical use, we further demonstrate that SGM can even improve the transferability on ensembles of models or targeted attacks and the stealthiness against current defenses. At last, we provide theoretical explanations and empirical insights on how SGM works. Our findings not only motivate new adversarial research into the architectural characteristics of models but also open up further challenges for secure model architecture design. Our code is available at https://github.com/mo666666/SGM.

arxiv情報

著者 Yisen Wang,Yichuan Mo,Dongxian Wu,Mingjie Li,Xingjun Ma,Zhouchen Lin
発行日 2024-10-11 16:17:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | On the Adversarial Transferability of Generalized ‘Skip Connections’ はコメントを受け付けていません

PostMark: A Robust Blackbox Watermark for Large Language Models

要約

LLM で生成されたテキストを検出する最も効果的な手法は、モデルのデコード プロセス中に検出可能な署名 (または透かし) を挿入することに依存しています。
既存の透かし手法のほとんどは、基礎となる LLM のロジットへのアクセスを必要としますが、LLM API プロバイダーはモデルの蒸留を恐れてそのロジットを共有することを嫌がります。
したがって、これらのウォーターマークは、各 LLM プロバイダーが個別に実装する必要があります。
この論文では、PostMark を開発します。PostMark は、復号化プロセスが完了した後に、入力に依存する単語のセット (意味埋め込みによって決定される) がテキストに挿入されるモジュール式ポストホック電子透かし手順です。
重要なことは、PostMark はロジット アクセスを必要としないため、サードパーティが実装できることを意味します。
また、PostMark が既存の電子透かし手法よりも言い換え攻撃に対して堅牢であることも示します。実験では、8 つのベースライン アルゴリズム、5 つのベース LLM、および 3 つのデータセットがカバーされています。
最後に、自動評価と人間による評価の両方を使用して PostMark がテキスト品質に及ぼす影響を評価し、品質と言い換えに対する堅牢性の間のトレードオフを強調します。
コード、出力、および注釈は https://github.com/lilakk/PostMark でリリースされます。

要約(オリジナル)

The most effective techniques to detect LLM-generated text rely on inserting a detectable signature — or watermark — during the model’s decoding process. Most existing watermarking methods require access to the underlying LLM’s logits, which LLM API providers are loath to share due to fears of model distillation. As such, these watermarks must be implemented independently by each LLM provider. In this paper, we develop PostMark, a modular post-hoc watermarking procedure in which an input-dependent set of words (determined via a semantic embedding) is inserted into the text after the decoding process has completed. Critically, PostMark does not require logit access, which means it can be implemented by a third party. We also show that PostMark is more robust to paraphrasing attacks than existing watermarking methods: our experiments cover eight baseline algorithms, five base LLMs, and three datasets. Finally, we evaluate the impact of PostMark on text quality using both automated and human assessments, highlighting the trade-off between quality and robustness to paraphrasing. We release our code, outputs, and annotations at https://github.com/lilakk/PostMark.

arxiv情報

著者 Yapei Chang,Kalpesh Krishna,Amir Houmansadr,John Wieting,Mohit Iyyer
発行日 2024-10-11 16:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | PostMark: A Robust Blackbox Watermark for Large Language Models はコメントを受け付けていません

Interpretable Contrastive Monte Carlo Tree Search Reasoning

要約

私たちは SC-MCTS* を提案します。これは、大規模言語モデル (LLM) 用の新しいモンテカルロ ツリー検索 (MCTS) 推論アルゴリズムであり、推論の精度と速度の両方を大幅に向上させます。
私たちの動機は次のとおりです。 1. 以前の MCTS LLM 推論作業では、最大の欠点である CoT に比べて速度が遅いという見落とされがちでした。
2. 以前の研究では主に、推論の解釈可能性の観点からそのコンポーネントの限定的な定量分析またはアブレーション研究を伴う、さまざまなタスクに関する LLM 推論のためのツールとして MCTS が使用されていました。
3. 報酬モデルは MCTS の最も重要なコンポーネントですが、これまでの研究では MCTS の報酬モデルの詳細な研究や改善がほとんど行われていませんでした。
したがって、MCTS のコンポーネントについて広範なアブレーション研究と定量分析を実施し、LLM の MCTS 推論パフォーマンスに対する各コンポーネントの影響を明らかにしました。
これに基づいて、(i) 対照的デコーディングの原理に基づいて解釈性の高い報酬モデルを設計し、(ii) 投機的デコーディングを使用してノードあたり平均 51.9% の速度向上を達成しました。
さらに、(iii) 以前の研究で使用されていた UCT ノード選択戦略とバックプロパゲーションを改善し、パフォーマンスが大幅に向上しました。
Llama-3.1-70B と SC-MCTS* を使用した Blocksworld マルチステップ推論データセットでは、o1-mini のパフォーマンスを平均 17.4% 上回りました。
コードは \url{https://github.com/zitian-gao/SC-MCTS} で入手できます。

要約(オリジナル)

We propose SC-MCTS*: a novel Monte Carlo Tree Search (MCTS) reasoning algorithm for Large Language Models (LLMs), significantly improves both reasoning accuracy and speed. Our motivation comes from: 1. Previous MCTS LLM reasoning works often overlooked its biggest drawback–slower speed compared to CoT; 2. Previous research mainly used MCTS as a tool for LLM reasoning on various tasks with limited quantitative analysis or ablation studies of its components from reasoning interpretability perspective. 3. The reward model is the most crucial component in MCTS, however previous work has rarely conducted in-depth study or improvement of MCTS’s reward models. Thus, we conducted extensive ablation studies and quantitative analysis on components of MCTS, revealing the impact of each component on the MCTS reasoning performance of LLMs. Building on this, (i) we designed a highly interpretable reward model based on the principle of contrastive decoding and (ii) achieved an average speed improvement of 51.9% per node using speculative decoding. Additionally, (iii) we improved UCT node selection strategy and backpropagation used in previous works, resulting in significant performance improvement. We outperformed o1-mini by an average of 17.4% on the Blocksworld multi-step reasoning dataset using Llama-3.1-70B with SC-MCTS*. Our code is available at \url{https://github.com/zitian-gao/SC-MCTS}.

arxiv情報

著者 Zitian Gao,Boye Niu,Xuzheng He,Haotian Xu,Hongzhang Liu,Aiwei Liu,Xuming Hu,Lijie Wen
発行日 2024-10-11 16:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Interpretable Contrastive Monte Carlo Tree Search Reasoning はコメントを受け付けていません

Evaluating Federated Kolmogorov-Arnold Networks on Non-IID Data

要約

連邦コルモゴロフ・アーノルド・ネットワーク (F-KAN) はすでに提案されていますが、その評価は初期段階にあります。
KAN (活性化関数として B スプラインと放射基底関数を使用) と、非 IID パーティションを使用した MNIST 分類タスクでの 100 ラウンドの連合学習における同様の数のパラメーターを持つ多層パーセプトロン (MLP) との比較を示します。
クライアントは100名。
各モデルについて 15 回の試行を行った結果、MLP によって達成される最高の精度が、Spline-KAN によって半分の時間 (ラウンド単位) で達成され、計算時間はわずかに増加するだけであることがわかりました。

要約(オリジナル)

Federated Kolmogorov-Arnold Networks (F-KANs) have already been proposed, but their assessment is at an initial stage. We present a comparison between KANs (using B-splines and Radial Basis Functions as activation functions) and Multi- Layer Perceptrons (MLPs) with a similar number of parameters for 100 rounds of federated learning in the MNIST classification task using non-IID partitions with 100 clients. After 15 trials for each model, we show that the best accuracies achieved by MLPs can be achieved by Spline-KANs in half of the time (in rounds), with just a moderate increase in computing time.

arxiv情報

著者 Arthur Mendonça Sasse,Claudio Miceli de Farias
発行日 2024-10-11 16:30:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Evaluating Federated Kolmogorov-Arnold Networks on Non-IID Data はコメントを受け付けていません

Scaling Instructable Agents Across Many Simulated Worlds

要約

あらゆる 3D 環境で任意の言語命令に従うことができる具体化された AI システムを構築することは、一般的な AI を作成するための重要な課題です。
この目標を達成するには、複雑なタスクを達成するために、知覚と具体化された行動における基礎言語を学ぶ必要があります。
Scalable, Instructable, Multiworld Agent (SIMA) プロジェクトは、精選された研究環境やオープンエンドの商用ビデオ ゲームなど、さまざまな仮想 3D 環境にわたって自由形式の指示に従うようにエージェントをトレーニングすることで、この問題に取り組んでいます。
私たちの目標は、シミュレートされた 3D 環境で人間ができることはすべて達成できる、指示可能なエージェントを開発することです。
私たちのアプローチは、最小限の仮定を課しながら、言語主導の一般性に焦点を当てています。
当社のエージェントは、一般的な人間のようなインターフェイスを使用してリアルタイムで環境と対話します。入力は画像観察と言語指示であり、出力はキーボードとマウスの操作です。
この一般的なアプローチは困難ですが、これにより、視覚的に複雑で意味的に豊富な多くの環境にわたってエージェントが地上言語を使用できるようになり、同時に新しい環境でもエージェントを容易に実行できるようになります。
この文書では、私たちの動機と目標、これまでの初期の進歩、およびいくつかの多様な研究環境とさまざまな商用ビデオゲームに関する有望な予備結果について説明します。

要約(オリジナル)

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as open-ended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.

arxiv情報

著者 SIMA Team,Maria Abi Raad,Arun Ahuja,Catarina Barros,Frederic Besse,Andrew Bolt,Adrian Bolton,Bethanie Brownfield,Gavin Buttimore,Max Cant,Sarah Chakera,Stephanie C. Y. Chan,Jeff Clune,Adrian Collister,Vikki Copeman,Alex Cullum,Ishita Dasgupta,Dario de Cesare,Julia Di Trapani,Yani Donchev,Emma Dunleavy,Martin Engelcke,Ryan Faulkner,Frankie Garcia,Charles Gbadamosi,Zhitao Gong,Lucy Gonzales,Kshitij Gupta,Karol Gregor,Arne Olav Hallingstad,Tim Harley,Sam Haves,Felix Hill,Ed Hirst,Drew A. Hudson,Jony Hudson,Steph Hughes-Fitt,Danilo J. Rezende,Mimi Jasarevic,Laura Kampis,Rosemary Ke,Thomas Keck,Junkyung Kim,Oscar Knagg,Kavya Kopparapu,Rory Lawton,Andrew Lampinen,Shane Legg,Alexander Lerchner,Marjorie Limont,Yulan Liu,Maria Loks-Thompson,Joseph Marino,Kathryn Martin Cussons,Loic Matthey,Siobhan Mcloughlin,Piermaria Mendolicchio,Hamza Merzic,Anna Mitenkova,Alexandre Moufarek,Valeria Oliveira,Yanko Oliveira,Hannah Openshaw,Renke Pan,Aneesh Pappu,Alex Platonov,Ollie Purkiss,David Reichert,John Reid,Pierre Harvey Richemond,Tyson Roberts,Giles Ruscoe,Jaume Sanchez Elias,Tasha Sandars,Daniel P. Sawyer,Tim Scholtes,Guy Simmons,Daniel Slater,Hubert Soyer,Heiko Strathmann,Peter Stys,Allison C. Tam,Denis Teplyashin,Tayfun Terzi,Davide Vercelli,Bojan Vujatovic,Marcus Wainwright,Jane X. Wang,Zhengdong Wang,Daan Wierstra,Duncan Williams,Nathaniel Wong,Sarah York,Nick Young
発行日 2024-10-11 16:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, cs.RO | Scaling Instructable Agents Across Many Simulated Worlds はコメントを受け付けていません

Language Imbalance Driven Rewarding for Multilingual Self-improving

要約

大規模言語モデル (LLM) は、多数のタスクにわたって最先端のパフォーマンスを達成しました。
しかし、これらの進歩は主に英語や中国語などの「第一級」言語に恩恵をもたらし、他の多くの言語は過小評価されています。
この不均衡により、より広範なアプリケーションが制限される一方で、言語間の自然な優先順位が生成され、自己改善的な方法で LLM の多言語機能をブートストラップする機会が提供されます。
したがって、我々は $\textit{Language Imbalance Driven Rewarding}$ を提案します。LLM 内の主要な言語と非主要な言語間の固有の不均衡が報酬シグナルとして利用されます。
反復的な DPO トレーニングは、このアプローチが非支配的な言語での LLM パフォーマンスを向上させるだけでなく、支配的な言語の能力も向上させ、それによって反復的な報酬シグナルを生成することを示しています。
このアプローチを 2 回反復して Meta-Llama-3-8B-Instruct を微調整すると、指示に従うタスクと算術推論タスク全体で多言語パフォーマンスが継続的に向上しました。これは、X-AlpacaEval リーダーボードでの平均勝率が 7.46% 向上したことで証明されています。
MGSM ベンチマークでは 13.9% の精度です。
この作業は最初の調査として機能し、LLM の多言語自己改善への道を切り開きます。

要約(オリジナル)

Large Language Models (LLMs) have achieved state-of-the-art performance across numerous tasks. However, these advancements have predominantly benefited ‘first-class’ languages such as English and Chinese, leaving many other languages underrepresented. This imbalance, while limiting broader applications, generates a natural preference ranking between languages, offering an opportunity to bootstrap the multilingual capabilities of LLM in a self-improving manner. Thus, we propose $\textit{Language Imbalance Driven Rewarding}$, where the inherent imbalance between dominant and non-dominant languages within LLMs is leveraged as a reward signal. Iterative DPO training demonstrates that this approach not only enhances LLM performance in non-dominant languages but also improves the dominant language’s capacity, thereby yielding an iterative reward signal. Fine-tuning Meta-Llama-3-8B-Instruct over two iterations of this approach results in continuous improvements in multilingual performance across instruction-following and arithmetic reasoning tasks, evidenced by an average improvement of 7.46% win rate on the X-AlpacaEval leaderboard and 13.9% accuracy on the MGSM benchmark. This work serves as an initial exploration, paving the way for multilingual self-improvement of LLMs.

arxiv情報

著者 Wen Yang,Junhong Wu,Chen Wang,Chengqing Zong,Jiajun Zhang
発行日 2024-10-11 16:32:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Language Imbalance Driven Rewarding for Multilingual Self-improving はコメントを受け付けていません

Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements

要約

大規模言語モデル (LLM) の安全性調整の現在のパラダイムは、万能のアプローチに従っています。つまり、モデルは、モデルプロバイダーによって安全でないとみなされたコンテンツとの対話を拒否します。
このアプローチは、文化や地域ごとに異なる社会規範に直面する柔軟性に欠けています。
さらに、ユーザーは多様な安全ニーズを持っている可能性があるため、静的安全基準を備えたモデルは制限が厳しすぎて役に立たず、再調整するにはコストがかかりすぎます。
私たちは、再トレーニングせずにモデルを多様な安全要件に適応させるように設計されたフレームワークである、Controllable Safety Alignment (CoSA) を提案します。
固定モデルを調整する代わりに、システム プロンプトの一部として提供される安全設定 (望ましい安全動作に関する自由形式の自然言語記述) に従うようにモデルを調整します。
モデルの安全性動作を調整するには、承認されたユーザーは推論時にそのような安全性構成を変更するだけで済みます。
これを可能にするために、多様な安全構成に簡単に適応できるように LLM を調整するためのデータ中心の方法である CoSAlign を提案します。
さらに、有用性と設定された安全性の両方を考慮した新しい制御性評価プロトコルを考案し、それらを CoSA スコアに要約し、多様な安全性要件と対応する評価プロンプトを備えた現実世界の LLM ユースケースで構成される人間が作成したベンチマークである CoSApien を構築します。

CoSAlign が、コンテキスト内アライメントを含む強力なベースラインに対する制御性の大幅な向上につながることを示します。
私たちのフレームワークは、LLM における多元的な人間の価値観のより適切な表現と適応を奨励し、それによって LLM の実用性を高めます。

要約(オリジナル)

The current paradigm for safety alignment of large language models (LLMs) follows a one-size-fits-all approach: the model refuses to interact with any content deemed unsafe by the model provider. This approach lacks flexibility in the face of varying social norms across cultures and regions. In addition, users may have diverse safety needs, making a model with static safety standards too restrictive to be useful, as well as too costly to be re-aligned. We propose Controllable Safety Alignment (CoSA), a framework designed to adapt models to diverse safety requirements without re-training. Instead of aligning a fixed model, we align models to follow safety configs — free-form natural language descriptions of the desired safety behaviors — that are provided as part of the system prompt. To adjust model safety behavior, authorized users only need to modify such safety configs at inference time. To enable that, we propose CoSAlign, a data-centric method for aligning LLMs to easily adapt to diverse safety configs. Furthermore, we devise a novel controllability evaluation protocol that considers both helpfulness and configured safety, summarizing them into CoSA-Score, and construct CoSApien, a human-authored benchmark that consists of real-world LLM use cases with diverse safety requirements and corresponding evaluation prompts. We show that CoSAlign leads to substantial gains of controllability over strong baselines including in-context alignment. Our framework encourages better representation and adaptation to pluralistic human values in LLMs, and thereby increasing their practicality.

arxiv情報

著者 Jingyu Zhang,Ahmed Elgohary,Ahmed Magooda,Daniel Khashabi,Benjamin Van Durme
発行日 2024-10-11 16:38:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements はコメントを受け付けていません