Graph-Dependent Regret Bounds in Multi-Armed Bandits with Interference

要約

マルチアライムバンディット(MAB)は、パーソナライズされたコンテンツの推奨から患者への治療の割り当てまで、アプリケーションでのオンラインシーケンシャルな意思決定に頻繁に使用されます。
現実世界の設定への古典的なMABフレームワークの適用性における繰り返しの課題は、\ textit {干渉}を無視することです。ユニットの結果は、他の人に割り当てられた治療に依存します。
これは、指数関数的に成長するアクションスペースにつながり、標準的なアプローチを計算的に非現実的にします。
ネットワーク干渉の下でMABの問題を研究します。各ユニットの報酬は、独自の治療と、特定の干渉グラフの隣人の問題に依存します。
干渉グラフの局所構造を使用して後悔を最小限に抑える新しいアルゴリズムを提案します。
以前の作業で改善されることを示す累積後悔のグラフ依存上の上限を導き出します。
さらに、任意のネットワーク干渉を伴う盗賊の最初の下限を提供します。各バウンドには、干渉グラフの明確な構造特性が含まれます。
これらの境界は、グラフが密度またはまばらである場合、アルゴリズムがほぼ最適であり、上限と下限が対数因子に一致することを示しています。
理論的な結果を数値実験で補完します。これは、私たちのアプローチがベースラインの方法を上回ることを示しています。

要約(オリジナル)

Multi-armed bandits (MABs) are frequently used for online sequential decision-making in applications ranging from recommending personalized content to assigning treatments to patients. A recurring challenge in the applicability of the classic MAB framework to real-world settings is ignoring \textit{interference}, where a unit’s outcome depends on treatment assigned to others. This leads to an exponentially growing action space, rendering standard approaches computationally impractical. We study the MAB problem under network interference, where each unit’s reward depends on its own treatment and those of its neighbors in a given interference graph. We propose a novel algorithm that uses the local structure of the interference graph to minimize regret. We derive a graph-dependent upper bound on cumulative regret showing that it improves over prior work. Additionally, we provide the first lower bounds for bandits with arbitrary network interference, where each bound involves a distinct structural property of the interference graph. These bounds demonstrate that when the graph is either dense or sparse, our algorithm is nearly optimal, with upper and lower bounds that match up to logarithmic factors. We complement our theoretical results with numerical experiments, which show that our approach outperforms baseline methods.

arxiv情報

著者 Fateme Jamshidi,Mohammad Shahverdikondori,Negar Kiyavash
発行日 2025-03-10 17:25:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Graph-Dependent Regret Bounds in Multi-Armed Bandits with Interference はコメントを受け付けていません

Incentive-Compatible Recovery from Manipulated Signals, with Applications to Decentralized Physical Infrastructure

要約

他のプレイヤー(「オブザーバー」)によって導出された暗黙の信号を使用して、当事者(「ソース」)からの未検証の情報の誘発をキャプチャする最初の正式なモデルを紹介します。
私たちのモデルは、物理的サービス(センサー情報、帯域幅、またはエネルギーなど)が少なくとも一部提供されていない、信頼されていない自己関心のある当事者によって提供される新しいアプリケーションドメインである、分散型の物理インフラストラクチャネットワーク(別名「Depin ‘」)のアプリケーションによって部分的に動機付けられています。
これらの信号ネットワークアプリケーションの重要な課題は、ネットワーク参加者によって実際に提供されたサービスのレベルを検証することです。
最初にソース識別可能性と呼ばれる条件を確立します。これは、真実の信号報告が厳格な平衡であるメカニズムの存在に必要であることを示します。
逆のために、ピア予測からの手法を構築して、ソースの識別可能性条件を満たすすべての信号ネットワークで、実際には真実の信号報告があまり有益でない平衡よりも厳密に高い合計の見返りを与える厳密に真実のメカニズムがあることを示します。
さらに、この真実の均衡は、1人の観察者が無条件に正直であるという正の確率がある場合、実際にはメカニズムのユニークな平衡であることを示します(たとえば、オブザーバーがネットワーク所有者によって実行された場合)。
また、私たちの状態を連合に拡張することにより、私たちは一般的に、私たちが考慮する設定に共謀に耐えるメカニズムがないことを示します。
フレームワークと結果を2つのdepinアプリケーションに適用します:場所の証明と帯域幅の証明。
ロケーションプロビング設定では、オブザーバーはソースのユークリッド距離を学習します(潜在的に拡大する)。
ここで、私たちの状態は魅力的な幾何学的解釈を持っています。これは、オブザーバーの凸船体の内側にあることが保証されている場合にのみ、ソースの位置が真実に引き出すことができることを意味します。

要約(オリジナル)

We introduce the first formal model capturing the elicitation of unverifiable information from a party (the ‘source’) with implicit signals derived by other players (the ‘observers’). Our model is motivated in part by applications in decentralized physical infrastructure networks (a.k.a. ‘DePIN’), an emerging application domain in which physical services (e.g., sensor information, bandwidth, or energy) are provided at least in part by untrusted and self-interested parties. A key challenge in these signal network applications is verifying the level of service that was actually provided by network participants. We first establish a condition called source identifiability, which we show is necessary for the existence of a mechanism for which truthful signal reporting is a strict equilibrium. For a converse, we build on techniques from peer prediction to show that in every signal network that satisfies the source identifiability condition, there is in fact a strictly truthful mechanism, where truthful signal reporting gives strictly higher total expected payoff than any less informative equilibrium. We furthermore show that this truthful equilibrium is in fact the unique equilibrium of the mechanism if there is positive probability that any one observer is unconditionally honest (e.g., if an observer were run by the network owner). Also, by extending our condition to coalitions, we show that there are generally no collusion-resistant mechanisms in the settings that we consider. We apply our framework and results to two DePIN applications: proving location, and proving bandwidth. In the location-proving setting observers learn (potentially enlarged) Euclidean distances to the source. Here, our condition has an appealing geometric interpretation, implying that the source’s location can be truthfully elicited if and only if it is guaranteed to lie inside the convex hull of the observers.

arxiv情報

著者 Jason Milionis,Jens Ernstberger,Joseph Bonneau,Scott Duke Kominers,Tim Roughgarden
発行日 2025-03-10 17:28:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.GT, cs.LG, econ.TH, q-fin.TR | Incentive-Compatible Recovery from Manipulated Signals, with Applications to Decentralized Physical Infrastructure はコメントを受け付けていません

Kernel-based estimators for functional causal effects

要約

経験的データスペースに合わせて調整された経験的FR \ ‘{e} CHET平均値とオペレーター値カーネルに基づいて因果効果推定器を提案します。
これらの方法は、治療の誤りに堅牢性を維持しながら、高次元性、連続的な順序、モデルの複雑さの課題に対処します。
構造的仮定を使用して、潜在的な結果のコンパクトな表現を取得し、時間の経過とともに因果効果のスケーラブルな推定を可能にします。
機能的因果効果の一貫性と、提案された因果効果推定器の範囲の経験的比較に関して、理論的な両方を提供します。
機能的結果を伴うバイナリ治療設定への応用は、結果が複雑な時間的ダイナミクスを示す生物医学モニタリングにおけるフレームワークの有用性を示しています。
当社の推定値は、登録済みの共変量と結果を備えたシナリオに対応し、それらをFR \ ‘{e} Chet手段に合わせ、複雑な共変量の結果の相互作用をキャプチャするために高次表現を必要とするケースに対応します。
これらの進歩は、動的および非線形ドメインへの因果推論を拡張し、機能データ設定で複雑な治療効果を理解するための新しいツールを提供します。

要約(オリジナル)

We propose causal effect estimators based on empirical Fr\'{e}chet means and operator-valued kernels, tailored to functional data spaces. These methods address the challenges of high-dimensionality, sequential ordering, and model complexity while preserving robustness to treatment misspecification. Using structural assumptions, we obtain compact representations of potential outcomes, enabling scalable estimation of causal effects over time and across covariates. We provide both theoretical, regarding the consistency of functional causal effects, as well as empirical comparison of a range of proposed causal effect estimators. Applications to binary treatment settings with functional outcomes illustrate the framework’s utility in biomedical monitoring, where outcomes exhibit complex temporal dynamics. Our estimators accommodate scenarios with registered covariates and outcomes, aligning them to the Fr\'{e}chet means, as well as cases requiring higher-order representations to capture intricate covariate-outcome interactions. These advancements extend causal inference to dynamic and non-linear domains, offering new tools for understanding complex treatment effects in functional data settings.

arxiv情報

著者 Yordan P. Raykov,Hengrui Luo,Justin D. Strait,Wasiur R. KhudaBukhsh
発行日 2025-03-10 17:28:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62G05, cs.LG, G.3, math.ST, stat.ME, stat.TH | Kernel-based estimators for functional causal effects はコメントを受け付けていません

Efficient Distributed Learning over Decentralized Networks with Convoluted Support Vector Machine

要約

このペーパーでは、分散型ネットワークを介して高次元データを効率的に分類する問題に対処します。
ペナルティ化されたサポートベクターマシン(SVM)は、高次元分類タスクに広く使用されています。
ただし、目的関数の二重の非滑らかさは、効率的な分散学習方法を開発する上で重要な課題をもたらします。
多くの既存の手順は、遅い、サブリンの収束率に悩まされています。
この制限を克服するために、非滑らかなヒンジ損失関数の畳み込みベースのスムージング手法を検討します。
結果として生じる損失関数は凸状と滑らかなままです。
次に、分散ネットワークを介してペナルティ化されたSVMを解くための乗数(ADMM)アルゴリズムの効率的な一般化された交互方向方法を開発します。
私たちの理論的貢献は2つあります。
まず、一般化されたADMMアルゴリズムが、単純な実装で証明可能な線形収束を達成することを確立します。
第二に、十分な数のADMM反復の後、最終的なスパース推定器はほぼ最適な統計的収束を達成し、基礎となるパラメーターの真のサポートを正確に回復します。
シミュレートされたデータセットと実際のデータセットの両方での広範な数値実験は、理論的な調査結果を検証します。

要約(オリジナル)

This paper addresses the problem of efficiently classifying high-dimensional data over decentralized networks. Penalized support vector machines (SVMs) are widely used for high-dimensional classification tasks. However, the double nonsmoothness of the objective function poses significant challenges in developing efficient decentralized learning methods. Many existing procedures suffer from slow, sublinear convergence rates. To overcome this limitation, we consider a convolution-based smoothing technique for the nonsmooth hinge loss function. The resulting loss function remains convex and smooth. We then develop an efficient generalized alternating direction method of multipliers (ADMM) algorithm for solving penalized SVM over decentralized networks. Our theoretical contributions are twofold. First, we establish that our generalized ADMM algorithm achieves provable linear convergence with a simple implementation. Second, after a sufficient number of ADMM iterations, the final sparse estimator attains near-optimal statistical convergence and accurately recovers the true support of the underlying parameters. Extensive numerical experiments on both simulated and real-world datasets validate our theoretical findings.

arxiv情報

著者 Canyi Chen,Nan Qiao,Liping Zhu
発行日 2025-03-10 17:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, stat.ML | Efficient Distributed Learning over Decentralized Networks with Convoluted Support Vector Machine はコメントを受け付けていません

Split-n-Chain: Privacy-Preserving Multi-Node Split Learning with Blockchain-Based Auditability

要約

ディープラーニングは、大量のトレーニングデータと統合されている場合、高精度の点で機械学習よりも優れている可能性があります。
最近、プライバシーを提供するディープラーニングは、研究コミュニティに大きな注目を集めています。
ディープラーニングにおけるさまざまなプライバシーの概念には、データ所有者が提供するデータのプライバシーや、基礎となるニューラルネットワークのパラメーターおよび/またはハイパーパラメーターのプライバシーが含まれます。
Federated Learningは、データ所有者がそれぞれの参加者にそれぞれのデータを漏らすことなく、パラメーターを集合的に学習することに参加する人気のあるプライバシーを提供する実行環境です。
ただし、連邦学習は特定のセキュリティ/プライバシーの問題に苦しんでいます。
この論文では、ネットワークのレイヤーがいくつかの分散ノード間で分割される分割学習のバリアントであるスプリットNチェーンを提案します。
Split-n-Chainはいくつかのプライバシープロパティを達成します。データ所有者はトレーニングデータを他のノードと共有する必要はなく、ニューラルネットワークのパラメーターとハイパーパラメーターにアクセスすることはできません(それぞれのレイヤーを除く)。
さらに、Split-N-Chainはブロックチェーンを使用して、異なるノードで行われた計算を監査します。
私たちの実験結果は、次のことを示しています。スプリットNチェーンは、異なるフェーズを実行するのに必要な時間の点で効率的であり、トレーニング損失の傾向は、モノリシックな方法で実装された場合、同じニューラルネットワークの傾向と似ています。

要約(オリジナル)

Deep learning, when integrated with a large amount of training data, has the potential to outperform machine learning in terms of high accuracy. Recently, privacy-preserving deep learning has drawn significant attention of the research community. Different privacy notions in deep learning include privacy of data provided by data-owners and privacy of parameters and/or hyperparameters of the underlying neural network. Federated learning is a popular privacy-preserving execution environment where data-owners participate in learning the parameters collectively without leaking their respective data to other participants. However, federated learning suffers from certain security/privacy issues. In this paper, we propose Split-n-Chain, a variant of split learning where the layers of the network are split among several distributed nodes. Split-n-Chain achieves several privacy properties: data-owners need not share their training data with other nodes, and no nodes have access to the parameters and hyperparameters of the neural network (except that of the respective layers they hold). Moreover, Split-n-Chain uses blockchain to audit the computation done by different nodes. Our experimental results show that: Split-n-Chain is efficient, in terms of time required to execute different phases, and the training loss trend is similar to that for the same neural network when implemented in a monolithic fashion.

arxiv情報

著者 Mukesh Sahani,Binanda Sengupta
発行日 2025-03-10 17:40:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Split-n-Chain: Privacy-Preserving Multi-Node Split Learning with Blockchain-Based Auditability はコメントを受け付けていません

Neural Combinatorial Optimization via Preference Optimization

要約

神経組み合わせ最適化(NCO)は、NPハードの問題に対する有望なアプローチとして浮上しています。
ただし、RLベースの方法が一般的には、まばらな報酬と過少使用のソリューションにより、サンプル効率が低いことに悩まされています。
客観的な値を介してソリューションの好みを活用するトレーニングパラダイムであるコンビナトリアル最適化(POCO)の優先最適化を提案します。
(1)解決策をよりよく調査および活用するための効率的な選好ペア構造、および(2)客観的な違いを介して適応的に勾配をスケーリングし、報酬モデルまたは参照ポリシーへの依存を削除する新しい損失関数。
ジョブショップスケジューリング(JSP)、巡回セールスマン(TSP)、および柔軟なジョブショップスケジューリング(FJSP)の実験は、Pocoが最先端のニューラル方法を上回ることを示しており、効率的な推論で最適性のギャップを印象的に減らします。
Pocoはアーキテクチャに依存しており、既存のNCOモデルとのシームレスな統合を可能にし、組み合わせ最適化の原則的なフレームワークとして優先最適化を確立します。

要約(オリジナル)

Neural Combinatorial Optimization (NCO) has emerged as a promising approach for NP-hard problems. However, prevailing RL-based methods suffer from low sample efficiency due to sparse rewards and underused solutions. We propose Preference Optimization for Combinatorial Optimization (POCO), a training paradigm that leverages solution preferences via objective values. It introduces: (1) an efficient preference pair construction for better explore and exploit solutions, and (2) a novel loss function that adaptively scales gradients via objective differences, removing reliance on reward models or reference policies. Experiments on Job-Shop Scheduling (JSP), Traveling Salesman (TSP), and Flexible Job-Shop Scheduling (FJSP) show POCO outperforms state-of-the-art neural methods, reducing optimality gaps impressively with efficient inference. POCO is architecture-agnostic, enabling seamless integration with existing NCO models, and establishes preference optimization as a principled framework for combinatorial optimization.

arxiv情報

著者 Zijun Liao,Jinbiao Chen,Debing Wang,Zizhen Zhang,Jiahai Wang
発行日 2025-03-10 17:45:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Neural Combinatorial Optimization via Preference Optimization はコメントを受け付けていません

Sometimes the Model doth Preach: Quantifying Religious Bias in Open LLMs through Demographic Analysis in Asian Nations

要約

大規模な言語モデル(LLM)は、意見を生み出し、非代表的で非距離のデータ収集に由来する意見を生み出し、知らないうちにバイアスを伝播することができます。
以前の研究では、西側、特に米国に関するこれらの意見を分析しました。
ただし、このように生成された洞察は、非西洋の集団に一般化されない場合があります。
いくつかの異なる生活の歩みにわたるユーザーによるLLMシステムの広範な使用により、生成された各出力の文化的感受性は重要な関心事です。
私たちの仕事は、LLMSによって生成された意見を定量的に分析し、モデルの社会的人口統計を抽出することに関して以前の研究を改善する新しい方法を提案しています。
私たちの方法は、LLMの回答者に対する回答者への応答から、距離を叩き、モデルの出力に反映される人口統計学的特性を推測する距離を測定します。
インドやその他のアジア諸国に焦点を当てて、さまざまなグローバルな南国で行われた調査に関するラマやミストラルなどの現代のオープンLLMを評価し、宗教的寛容とアイデンティティに関連する調査に関するモデルのパフォーマンスを具体的に評価しています。
私たちの分析は、ほとんどのオープンLLMSが異なる国/領土で変化する単一の均質プロファイルと一致していることを明らかにしています。
また、私たちのフレームワークは、トレーニングデータ、モデルアーキテクチャ、特に宗教的寛容やアイデンティティなどのデリケートなトピックに関して、LLM出力に反映される結果として生じるバイアスの間の複雑な交差を調査する将来の研究にも役立つ可能性があります。

要約(オリジナル)

Large Language Models (LLMs) are capable of generating opinions and propagating bias unknowingly, originating from unrepresentative and non-diverse data collection. Prior research has analysed these opinions with respect to the West, particularly the United States. However, insights thus produced may not be generalized in non-Western populations. With the widespread usage of LLM systems by users across several different walks of life, the cultural sensitivity of each generated output is of crucial interest. Our work proposes a novel method that quantitatively analyzes the opinions generated by LLMs, improving on previous work with regards to extracting the social demographics of the models. Our method measures the distance from an LLM’s response to survey respondents, through Hamming Distance, to infer the demographic characteristics reflected in the model’s outputs. We evaluate modern, open LLMs such as Llama and Mistral on surveys conducted in various global south countries, with a focus on India and other Asian nations, specifically assessing the model’s performance on surveys related to religious tolerance and identity. Our analysis reveals that most open LLMs match a single homogeneous profile, varying across different countries/territories, which in turn raises questions about the risks of LLMs promoting a hegemonic worldview, and undermining perspectives of different minorities. Our framework may also be useful for future research investigating the complex intersection between training data, model architecture, and the resulting biases reflected in LLM outputs, particularly concerning sensitive topics like religious tolerance and identity.

arxiv情報

著者 Hari Shankar,Vedanta S P,Tejas Cavale,Ponnurangam Kumaraguru,Abhijnan Chakraborty
発行日 2025-03-10 16:32:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Sometimes the Model doth Preach: Quantifying Religious Bias in Open LLMs through Demographic Analysis in Asian Nations はコメントを受け付けていません

GRITHopper: Decomposition-Free Multi-Hop Dense Retrieval

要約

分解ベースのマルチホップ検索方法は、多くの自己回帰の手順に依存して複雑なクエリを分解します。
分解フリーの方法はこれに取り組みますが、現在の分解のないアプローチは、より長いマルチホップの問題と分散除外データへの一般化と闘っています。
これらの課題に対処するために、分散および分散型ベンチマークの両方で最先端のパフォーマンスを達成する新しいマルチホップ密度の高い検索モデルであるGrithopper-7Bを紹介します。
Grithopperは、因果言語モデリングを密な検索トレーニングと統合することにより、生成的および表現指示の調整を組み合わせます。
対照研究を通じて、検索後の言語モデリングと呼ばれる検索プロセスの後に追加のコンテキストを組み込むと、密な検索パフォーマンスが向上することがわかります。
トレーニング中に最終回答などの要素を含めることにより、モデルは関連する情報をよりコンテキスト化および取得することを学びます。
Grithopper-7Bは、マルチホップの密な検索のための堅牢でスケーラブルで一般化可能なソリューションを提供し、マルチホップの推論と検索機能を必要とする将来の研究とアプリケーションのためにコミュニティにリリースします。

要約(オリジナル)

Decomposition-based multi-hop retrieval methods rely on many autoregressive steps to break down complex queries, which breaks end-to-end differentiability and is computationally expensive. Decomposition-free methods tackle this, but current decomposition-free approaches struggle with longer multi-hop problems and generalization to out-of-distribution data. To address these challenges, we introduce GRITHopper-7B, a novel multi-hop dense retrieval model that achieves state-of-the-art performance on both in-distribution and out-of-distribution benchmarks. GRITHopper combines generative and representational instruction tuning by integrating causal language modeling with dense retrieval training. Through controlled studies, we find that incorporating additional context after the retrieval process, referred to as post-retrieval language modeling, enhances dense retrieval performance. By including elements such as final answers during training, the model learns to better contextualize and retrieve relevant information. GRITHopper-7B offers a robust, scalable, and generalizable solution for multi-hop dense retrieval, and we release it to the community for future research and applications requiring multi-hop reasoning and retrieval capabilities.

arxiv情報

著者 Justus-Jonas Erker,Nils Reimers,Iryna Gurevych
発行日 2025-03-10 16:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | GRITHopper: Decomposition-Free Multi-Hop Dense Retrieval はコメントを受け付けていません

Building English ASR model with regional language support

要約

この論文では、英語でのパフォーマンスを損なうことなく、ヒンディー語のクエリを効果的に処理できる英語自動音声認識(ASR)システムを開発するための新しいアプローチを提示します。
Splithead with Conters(SHA)モデルと呼ばれる新しい音響モデル(AM)を提案します。言語間で共有された隠れ層と、自己触媒メカニズムを介して組み合わされた言語固有の投影層を特徴としています。
このメカニズムは、入力データに基づいて各言語の重量を推定し、それに応じて対応する言語固有の投影層を比較検討します。
さらに、英語と音訳されたヒンディー語のテキストコーパスの両方からN-Gramモデルを補間する言語モデリングアプローチを提案します。
私たちの結果は、私たちのアプローチの有効性を示しており、単一言語の英語モデルと比較した場合、それぞれヒンディー語と英語のテストセットでワードエラー率が69.3%および5.7%減少しています。

要約(オリジナル)

In this paper, we present a novel approach to developing an English Automatic Speech Recognition (ASR) system that can effectively handle Hindi queries, without compromising its performance on English. We propose a novel acoustic model (AM), referred to as SplitHead with Attention (SHA) model, features shared hidden layers across languages and language-specific projection layers combined via a self-attention mechanism. This mechanism estimates the weight for each language based on input data and weighs the corresponding language-specific projection layers accordingly. Additionally, we propose a language modeling approach that interpolates n-gram models from both English and transliterated Hindi text corpora. Our results demonstrate the effectiveness of our approach, with a 69.3% and 5.7% relative reduction in word error rate on Hindi and English test sets respectively when compared to a monolingual English model.

arxiv情報

著者 Purvi Agrawal,Vikas Joshi,Bharati Patidar,Ankur Gupta,Rupesh Kumar Mehta
発行日 2025-03-10 16:48:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Building English ASR model with regional language support はコメントを受け付けていません

XIFBench: Evaluating Large Language Models on Multilingual Instruction Following

要約

大規模な言語モデル(LLMS)は、さまざまなアプリケーションにわたって顕著な指導中の機能を実証しています。
ただし、既存の評価には細粒の制約分析がないため、多言語設定でのパフォーマンスはあまり理解されていません。
LLMSの多言語指導に従う能力を評価するための包括的な制約ベースのベンチマークであるXifbenchを紹介します。これは、異なるリソースレベルにまたがる6つの言語にわたって5つの制約カテゴリと465の並列命令の新しい分類法を特徴としています。
一貫した横断的評価を確保するために、英語の要件をセマンティックアンカーとして活用する要件ベースのプロトコルを開発します。
これらの要件は、言語間の翻訳を検証するために使用されます。
さまざまなLLMを使用した広範な実験により、リソースレベル全体で指導に従うパフォーマンスの顕著な変動が明らかになり、制約カテゴリ、命令の複雑さ、文化的特異性などの重要な影響要因が特定されています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable instruction-following capabilities across various applications. However, their performance in multilingual settings remains poorly understood, as existing evaluations lack fine-grained constraint analysis. We introduce XIFBench, a comprehensive constraint-based benchmark for assessing multilingual instruction-following abilities of LLMs, featuring a novel taxonomy of five constraint categories and 465 parallel instructions across six languages spanning different resource levels. To ensure consistent cross-lingual evaluation, we develop a requirement-based protocol that leverages English requirements as semantic anchors. These requirements are then used to validate the translations across languages. Extensive experiments with various LLMs reveal notable variations in instruction-following performance across resource levels, identifying key influencing factors such as constraint categories, instruction complexity, and cultural specificity.

arxiv情報

著者 Zhenyu Li,Kehai Chen,Yunfei Long,Xuefeng Bai,Yaoyin Zhang,Xuchen Wei,Juntao Li,Min Zhang
発行日 2025-03-10 17:07:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | XIFBench: Evaluating Large Language Models on Multilingual Instruction Following はコメントを受け付けていません