A neural network-based approach to hybrid systems identification for control

要約

得られたモデルが最適な制御設計にも適するように、有限数の (状態入力) 後継状態データ点から未知の動的システムの機械学習ベースのモデルを設計する問題を検討します。
ニューラル ネットワーク (NN) アーキテクチャを採用しており、適切にトレーニングすると、ネットワークのパラメーターに関して微分可能な連続区分的アフィン (PWA) ダイナミクスを備えたハイブリッド システムが生成され、それによって導関数ベースのトレーニング手順の使用が可能になります。
NN の重みを慎重に選択すると、有限水平最適制御問題 (OCP) の一部として使用した場合に非常に有利な構造特性を備えたハイブリッド システム モデルが生成されることを示します。
具体的には、一般に混合整数最適化を必要とする一般的なハイブリッド システム用の古典的な OCP とは対照的に、強力な局所最適性が保証された最適解が非線形計画法 (NLP) によって計算できることを確立するために利用可能な結果に依存しています。
数値シミュレーションは、最適な制御設計に適していることに加えて、NN ベースの手法がハイブリッド システム向けの最先端のシステム識別方法と非常によく似たパフォーマンスを発揮し、非線形ベンチマークで競争力があることを示しています。

要約(オリジナル)

We consider the problem of designing a machine learning-based model of an unknown dynamical system from a finite number of (state-input)-successor state data points, such that the model obtained is also suitable for optimal control design. We adopt a neural network (NN) architecture that, once suitably trained, yields a hybrid system with continuous piecewise-affine (PWA) dynamics that is differentiable with respect to the network’s parameters, thereby enabling the use of derivative-based training procedures. We show that a careful choice of our NN’s weights produces a hybrid system model with structural properties that are highly favorable when used as part of a finite horizon optimal control problem (OCP). Specifically, we rely on available results to establish that optimal solutions with strong local optimality guarantees can be computed via nonlinear programming (NLP), in contrast to classical OCPs for general hybrid systems which typically require mixed-integer optimization. Besides being well-suited for optimal control design, numerical simulations illustrate that our NN-based technique enjoys very similar performance to state-of-the-art system identification methods for hybrid systems and it is competitive on nonlinear benchmarks.

arxiv情報

著者 Filippo Fabiani,Bartolomeo Stellato,Daniele Masti,Paul J. Goulart
発行日 2024-10-09 17:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC | コメントする

Glider: Global and Local Instruction-Driven Expert Router

要約

パフォーマンスの高い事前トレーニング済みモデルが利用できるようになったことで、特定のドメインに特化した、細かく調整されたエキスパート モデルが急増しました。
これにより、エキスパート モジュールを使用してパフォーマンスや汎用性が向上した集合システムを作成することを目的とした、強力で適応性のあるルーティング ベースの「Model MoErging」メソッドの作成が可能になりました。
ただし、既存の MoErging 手法は、保持されているタスクのパフォーマンスを犠牲にして、目に見えないタスクへの一般化を優先することが多く、現実の展開シナリオでの実際的な適用性が制限されます。
現在のトークンレベルのルーティングメカニズムは、入力タスクのグローバルな意味論的コンテキストを無視していることがわかります。
このトークン単位の独立性により、ルーティングの決定にタスクの意味論的特性が組み込まれていないため、保留されたタスクに対する効果的な専門家の選択が妨げられます。
これに対処するために、セマンティック グローバル ルーターと学習済みローカル ルーターを含むマルチスケール ルーティング メカニズムを統合する、グローバルおよびローカルの命令駆動エキスパート ルーター (GLIDER) を提案します。
グローバル ルーターは、セマンティック関連のコンテキストに対する LLM の高度な推論機能を活用して、専門家の選択を強化します。
入力クエリと LLM が与えられると、ルーターは、すべての層にわたって最も関連性の高い専門家の検索をガイドするセマンティック タスク命令を生成します。
このグローバル ガイダンスは、各モジュール内でのトークン レベルのルーティング決定を容易にするローカル ルーターによって補完され、目に見えないタスクのより詳細な制御とパフォーマンスの向上が可能になります。
T0 および FLAN タスクに T5 ベースのモデルを使用した実験では、GLIDER がホールドアウト タスクの強力な一般化を維持しながら、大幅に向上したホールドイン パフォーマンスを達成することを実証しました。
また、GLIDER のコンポーネントをより深く掘り下げるアブレーション実験も行っています。
私たちの実験は、MoErging メソッドの LLM 駆動のセマンティック推論を活用するマルチスケール ルーティングの重要性を強調しています。

要約(オリジナル)

The availability of performant pre-trained models has led to a proliferation of fine-tuned expert models that are specialized to particular domains. This has enabled the creation of powerful and adaptive routing-based ‘Model MoErging’ methods with the goal of using expert modules to create an aggregate system with improved performance or generalization. However, existing MoErging methods often prioritize generalization to unseen tasks at the expense of performance on held-in tasks, which limits its practical applicability in real-world deployment scenarios. We observe that current token-level routing mechanisms neglect the global semantic context of the input task. This token-wise independence hinders effective expert selection for held-in tasks, as routing decisions fail to incorporate the semantic properties of the task. To address this, we propose, Global and Local Instruction Driven Expert Router (GLIDER) that integrates a multi-scale routing mechanism, encompassing a semantic global router and a learned local router. The global router leverages LLM’s advanced reasoning capabilities for semantic-related contexts to enhance expert selection. Given the input query and LLM, the router generates semantic task instructions that guide the retrieval of the most relevant experts across all layers. This global guidance is complemented by a local router that facilitates token-level routing decisions within each module, enabling finer control and enhanced performance on unseen tasks. Our experiments using T5-based models for T0 and FLAN tasks demonstrate that GLIDER achieves substantially improved held-in performance while maintaining strong generalization on held-out tasks. We also perform ablations experiments to dive deeper into the components of GLIDER. Our experiments highlight the importance of our multi-scale routing that leverages LLM-driven semantic reasoning for MoErging methods.

arxiv情報

著者 Pingzhi Li,Prateek Yadav,Jaehong Yoon,Jie Peng,Yi-Lin Sung,Mohit Bansal,Tianlong Chen
発行日 2024-10-09 17:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models

要約

機械学習、特に自然言語処理 (NLP) における最近の進歩により、広範なデータセットでトレーニングされた洗練されたモデルが開発されましたが、機密情報の漏洩の可能性についての懸念が生じています。
これに応えて、欧州連合の一般データ保護規則 (GDPR) などの規制措置により、モデルが特定のデータ エントリを選択的に忘れることを可能にするマシンアンラーニング技術への関心が高まっています。
初期のアプローチは主に前処理手法に依存していましたが、最近の研究はトレーニングベースのアンラーニング手法に移行しています。
その有効性にもかかわらず、既存の手法のほとんどは元のトレーニング データにアクセスする必要がありますが、アクセスできないことがよくあります。
さらに、非学習技術を直接適用すると、モデルの表現能力を損なうというコストが発生します。
これらの課題に対処するために、反復対照非学習 (ICU) フレームワークを導入します。このフレームワークは 3 つのコア コンポーネントで構成されます。 非学習損失を通じて特定の知識を削除するように設計された知識非学習誘導モジュール。
純粋な非学習目標に対してモデルの表現力を維持するための対照学習強化モジュール。
そして、特定のデータ部分の未学習範囲を動的に評価し、反復更新を行う反復的未学習改良モジュール。
実験結果は、モデルの全体的なパフォーマンスを維持しながら機密情報を学習解除する際の ICU メソッドの有効性を実証し、プライバシーを重視した機械学習アプリケーションに有望なソリューションを提供します。

要約(オリジナル)

Recent advancements in machine learning, particularly in Natural Language Processing (NLP), have led to the development of sophisticated models trained on extensive datasets, yet raising concerns about the potential leakage of sensitive information. In response, regulatory measures such as the European Union’s General Data Protection Regulation (GDPR) have driven increasing interest in Machine Unlearning techniques, which enable models to selectively forget specific data entries. Early approaches primarily relied on pre-processing methods, while more recent research has shifted towards training-based unlearning techniques. Despite their effectiveness, most existing methods require access to the original training data, which is often inaccessible. Additionally, directly applying unlearning techniques bear the cost of undermining the model’s expressive capabilities. To address these challenges, we introduce the Iterative Contrastive Unlearning (ICU) framework, which consists of three core components: A Knowledge Unlearning Induction module designed to remove specific knowledge through an unlearning loss; A Contrastive Learning Enhancement module to preserve the model’s expressive capabilities against the pure unlearning goal; And an Iterative Unlearning Refinement module that dynamically assess the unlearning extent on specific data pieces and make iterative update. Experimental results demonstrate the efficacy of our ICU method in unlearning sensitive information while maintaining the model’s overall performance, offering a promising solution for privacy-conscious machine learning applications.

arxiv情報

著者 Haoyu Tang,Ye Liu,Xukai Liu,Kai Zhang,Yanghai Zhang,Qi Liu,Enhong Chen
発行日 2024-10-09 14:30:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

CSSL: Contrastive Self-Supervised Learning for Dependency Parsing on Relatively Free Word Ordered and Morphologically Rich Low Resource Languages

要約

ニューラル依存関係解析は、リソースが少ない形態学的に豊富な言語で顕著なパフォーマンスを達成しました。
また、形態学的に豊富な言語は比較的自由な語順を示すこともよく研究されています。
これは根本的な調査を促します。形態学的に豊富な言語の比較的自由な語順の性質を利用して、語順の変動に対してモデルを堅牢にして、依存関係解析のパフォーマンスを向上させる方法はあるのでしょうか?
この研究では、7 つの比較的自由な語順言語におけるグラフベースの解析アーキテクチャの堅牢性を検証します。
私たちは、これらのアーキテクチャをそれに応じて適応させるために必要な、データの拡張や位置エンコーディングの削除などの重要な変更を精査することに重点を置いています。
この目的を達成するために、モデルを語順の変動に対して堅牢にするための対照的な自己教師あり学習方法を提案します。
さらに、最も優れたパフォーマンスのベースラインと比較した場合、UAS/LAS スコア測定基準で測定したように、私たちが提案した修正は、7 つの比較的自由な語順言語で平均 3.03/2.95 ポイントの大幅な向上を示しています。

要約(オリジナル)

Neural dependency parsing has achieved remarkable performance for low resource morphologically rich languages. It has also been well-studied that morphologically rich languages exhibit relatively free word order. This prompts a fundamental investigation: Is there a way to enhance dependency parsing performance, making the model robust to word order variations utilizing the relatively free word order nature of morphologically rich languages? In this work, we examine the robustness of graph-based parsing architectures on 7 relatively free word order languages. We focus on scrutinizing essential modifications such as data augmentation and the removal of position encoding required to adapt these architectures accordingly. To this end, we propose a contrastive self-supervised learning method to make the model robust to word order variations. Furthermore, our proposed modification demonstrates a substantial average gain of 3.03/2.95 points in 7 relatively free word order languages, as measured by the UAS/LAS Score metric when compared to the best performing baseline.

arxiv情報

著者 Pretam Ray,Jivnesh Sandhan,Amrith Krishna,Pawan Goyal
発行日 2024-10-09 14:38:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Seeker: Enhancing Exception Handling in Code with LLM-based Multi-Agent Approach

要約

実際のソフトウェア開発では、例外処理が不適切または欠落していると、コードの堅牢性と信頼性に重​​大な影響を与える可能性があります。
例外処理メカニズムでは、開発者は高水準に従って例外を検出、キャプチャ、管理する必要がありますが、多くの開発者はこれらのタスクに苦労しており、コードが脆弱になる原因となっています。
この問題はオープンソース プロジェクトで特に顕著であり、ソフトウェア エコシステムの全体的な品質に影響を与えます。
この課題に対処するために、コード内の例外処理を改善するための大規模言語モデル (LLM) の使用を検討します。
広範な分析を通じて、脆弱なコードの鈍感な検出、例外タイプの不正確なキャプチャ、および歪んだ処理ソリューションという 3 つの重要な問題を特定しました。
これらの問題は現実世界のリポジトリ全体に広がっており、堅牢な例外処理の実践がしばしば見落とされたり、誤って処理されたりしていることを示唆しています。
これに応えて、私たちは例外処理のための専門開発者の戦略からインスピレーションを得たマルチエージェント フレームワークである Seeker を提案します。
Seeker は、Scanner、Detector、Predator、Ranker、および Handler のエージェントを使用して、LLM による例外のより効果的な検出、キャプチャ、解決を支援します。
私たちの研究は、LLM を活用して例外処理の実践を強化することに関する最初の体系的な研究であり、将来のコードの信頼性向上に役立つ貴重な洞察を提供します。

要約(オリジナル)

In real world software development, improper or missing exception handling can severely impact the robustness and reliability of code. Exception handling mechanisms require developers to detect, capture, and manage exceptions according to high standards, but many developers struggle with these tasks, leading to fragile code. This problem is particularly evident in open source projects and impacts the overall quality of the software ecosystem. To address this challenge, we explore the use of large language models (LLMs) to improve exception handling in code. Through extensive analysis, we identify three key issues: Insensitive Detection of Fragile Code, Inaccurate Capture of Exception Types, and Distorted Handling Solutions. These problems are widespread across real world repositories, suggesting that robust exception handling practices are often overlooked or mishandled. In response, we propose Seeker, a multi agent framework inspired by expert developer strategies for exception handling. Seeker uses agents: Scanner, Detector, Predator, Ranker, and Handler to assist LLMs in detecting, capturing, and resolving exceptions more effectively. Our work is the first systematic study on leveraging LLMs to enhance exception handling practices, providing valuable insights for future improvements in code reliability.

arxiv情報

著者 Xuanming Zhang,Yuxuan Chen,Yuan Yuan,Minlie Huang
発行日 2024-10-09 14:45:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | コメントする

Understanding Higher-Order Correlations Among Semantic Components in Embeddings

要約

独立コンポーネント分析 (ICA) は、埋め込みの解釈可能なセマンティック コンポーネントを提供します。
ICA 理論では、エンベディングが独立したコンポーネントに線形に分解できると想定していますが、実際のデータはこの前提を満たさないことがよくあります。
その結果、推定されたコンポーネント間には非独立性が残り、ICA ではそれを除去することができません。
私たちは高次の相関を使用してこれらの非独立性を定量化し、2 つのコンポーネント間の高次の相関が大きい場合、それはそれらの間に強い意味的関連性があり、両方のコンポーネントと共通の意味を共有する多くの単語が存在することを示していることを実証しました。
非独立性の構造全体は、セマンティック コンポーネントの最大スパニング ツリーを使用して視覚化されました。
これらの調査結果は、ICA を介した埋め込みに関するより深い洞察を提供します。

要約(オリジナル)

Independent Component Analysis (ICA) offers interpretable semantic components of embeddings. While ICA theory assumes that embeddings can be linearly decomposed into independent components, real-world data often do not satisfy this assumption. Consequently, non-independencies remain between the estimated components, which ICA cannot eliminate. We quantified these non-independencies using higher-order correlations and demonstrated that when the higher-order correlation between two components is large, it indicates a strong semantic association between them, along with many words sharing common meanings with both components. The entire structure of non-independencies was visualized using a maximum spanning tree of semantic components. These findings provide deeper insights into embeddings through ICA.

arxiv情報

著者 Momose Oyama,Hiroaki Yamagiwa,Hidetoshi Shimodaira
発行日 2024-10-09 14:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Linguistic Structure from a Bottleneck on Sequential Information Processing

要約

人間の言語は自然界における独特のコミュニケーション形式であり、その構造的な性質によって特徴付けられます。
最も基本的に、それは体系的であり、信号を個別に意味のある構成要素 (大まかに単語) に分解でき、それらが規則的な方法で結合されて文を形成できることを意味します。
さらに、これらの部分を組み合わせる方法には、一種の局所性が維持されます。通常、単語は互いに連結され、連続したフレーズを形成し、文の関連する部分が互いに近くに保たれます。
私たちは、言語のこれらの基本的な特性が、情報処理の制約の下での効率的なコミュニケーションのより広範な原則からどのように生じるかを理解するという課題に取り組みます。
今回我々は、自然言語のような系統性が、予測情報、つまり未来を予測するためにシーケンスの過去から抽出しなければならない情報量の尺度によって制約されるコードで生じることを示す。
シミュレーションでは、このようなコードがソース分布を近似的に因数分解し、結果の因子を体系的かつ局所的に表現できることを示します。
次に、一連の言語間コーパス研究で、人間の言語は音韻論、形態論、構文論、意味論のレベルで予測情報が少ない構造になっていることが示されました。
私たちの結果は、人間の言語が、表現する必要のある意味の統計的分布に関して、逐次的かつ離散的な形式の独立成分分析を実行していることを示唆しています。
それは人間の言語の統計的構造と代数的構造の間のつながりを確立し、人間の言語の構造は認知的制約の下でのコミュニケーションによって形成されるという考えを強化します。

要約(オリジナル)

Human language is a unique form of communication in the natural world, distinguished by its structured nature. Most fundamentally, it is systematic, meaning that signals can be broken down into component parts that are individually meaningful — roughly, words — which are combined in a regular way to form sentences. Furthermore, the way in which these parts are combined maintains a kind of locality: words are usually concatenated together, and they form contiguous phrases, keeping related parts of sentences close to each other. We address the challenge of understanding how these basic properties of language arise from broader principles of efficient communication under information processing constraints. Here we show that natural-language-like systematicity arises in codes that are constrained by predictive information, a measure of the amount of information that must be extracted from the past of a sequence in order to predict its future. In simulations, we show that such codes approximately factorize their source distributions, and then express the resulting factors systematically and locally. Next, in a series of cross-linguistic corpus studies, we show that human languages are structured to have low predictive information at the levels of phonology, morphology, syntax, and semantics. Our result suggests that human language performs a sequential, discrete form of Independent Components Analysis on the statistical distribution over meanings that need to be expressed. It establishes a link between the statistical and algebraic structure of human language, and reinforces the idea that the structure of human language is shaped by communication under cognitive constraints.

arxiv情報

著者 Richard Futrell,Michael Hahn
発行日 2024-10-09 15:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, math.IT | コメントする

Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA

要約

知識ベースの視覚的質問応答 (K-VQA) では、多くの場合、画像を超えた背景知識の使用が必要です。
しかし、単一の知識生成戦略では、K-VQA のすべての質問に対して不十分な場合が多いことがわかりました。
この目的を達成するために、私たちは、補完的な質問応答戦術のバンドルを利用し、テキストの根拠を使用して回答を集約する、多様化、証拠の切り捨て、知識ベースの解明のための組み合わせ (DietCoke) を提案します。
DietCoke は、多様化、合理化、アンサンブルの 3 つの段階で構成されます。
多様化ステージでは 3 つの独特な意思決定コンテキストが生成され、それぞれが独自の回答候補につながります。
合理化ステージでは、無相関化手法を使用して、回答候補ごとに 2 つの理論的根拠、自動的理論的根拠と機械的理論的根拠を生成します。
最後に、アンサンブル段階では、論理的根拠を知らされた LLM が 3 つの候補から 1 つの回答を選択します。
実験の結果、DietCoke は最先端の LLM ベースのベースラインを OK-VOA で 2.8%、A-OKVOA で 4.7% 大幅に上回っており、アンサンブルの戦略は高度に補完的であることが示されています。
コードはhttps://github.com/limiaoyu/DietCokeから入手できます。

要約(オリジナル)

Knowledge-based Visual Question-answering (K-VQA) often requires the use of background knowledge beyond the image. However, we discover that a single knowledge generation strategy is often insufficient for all K-VQA questions. To this end, we propose Diversification, Evidence Truncation, and Combination for Knowledge-based Elucidation (DietCoke), which utilizes a bundle of complementary question-answering tactics and aggregates their answers using textual rationales. DietCoke comprises of three stages: diversification, rationalization, and ensemble. The diversification stage generates three distinctive decision contexts, each leading to its own answer candidate. The rationalization stage generates two rationales, the automatic rationale and the mechanistic rationale, for each answer candidate using decorrelated techniques. Finally, in the ensemble stage, an LLM informed by the rationales selects one answer from the three candidates. Experiments show that DietCoke significantly outperforms state-of-the-art LLM-based baselines by 2.8% on OK-VOA and 4.7% on A-OKVOA and that the strategies in the ensembles are highly complementary. Code is available at: https://github.com/limiaoyu/DietCoke

arxiv情報

著者 Miaoyu Li,Haoxin Li,Zilin Du,Boyang Li
発行日 2024-10-09 16:04:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Vocabulary Transfer for Medical Texts

要約

特定の NLP サブドメイン内での作業には、主に永続的なデータ不足が原因で、重大な課題が生じます。
プライバシーへの厳しい懸念とデータへのアクセスの制限が、この不足を引き起こすことがよくあります。
さらに、医療分野では高い精度が要求されるため、モデルのパフォーマンスがわずかに改善されただけでも大きな影響を与える可能性があります。
この研究では、生物医学 NLP タスクにおけるモデルのパフォーマンスを向上させる語彙伝達の可能性を調査します。
具体的には、対象語彙を拡張して領域固有の生物医学用語を組み込む手法である語彙拡張に焦点を当てています。
私たちの調査結果は、語彙の拡張が下流モデルのパフォーマンスと推論時間の両方に目に見える改善をもたらすことを示しています。

要約(オリジナル)

Working within specific NLP subdomains presents significant challenges, primarily due to a persistent deficit of data. Stringent privacy concerns and limited data accessibility often drive this shortage. Additionally, the medical domain demands high accuracy, where even marginal improvements in model performance can have profound impacts. In this study, we investigate the potential of vocabulary transfer to enhance model performance in biomedical NLP tasks. Specifically, we focus on vocabulary extension, a technique that involves expanding the target vocabulary to incorporate domain-specific biomedical terms. Our findings demonstrate that vocabulary extension, leads to measurable improvements in both downstream model performance and inference time.

arxiv情報

著者 Priyanka Singh,Vladislav D. Mosin,Ivan P. Yamshchikov
発行日 2024-10-09 16:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | コメントする

Robots in the Middle: Evaluating LLMs in Dispute Resolution

要約

調停は、個人間の紛争の解決を支援するために中立的な第三者(調停者)が介入する紛争解決方法です。
この論文では、大規模言語モデル (LLM) がどの程度仲介者として機能できるかを調査します。
私たちは、LLM が紛争の会話を分析し、適切な介入タイプを選択し、適切な介入メッセージを生成できるかどうかを調査します。
50 の紛争シナリオからなる手動で作成された新しいデータセットを使用して、いくつかの主要な指標にわたって LLM とヒューマン アノテーターを比較するブラインド評価を実施します。
全体として、LLM は優れたパフォーマンスを示し、あらゆる次元でヒューマン アノテーターをも上回りました。
具体的には、ケースの 62% で、LLM は人間が選択した介入タイプよりも優れているか同等であると評価された介入タイプを選択しました。
さらに、84% のケースで、LLM によって生成された介入メッセージは、人間が作成した介入メッセージと同等かそれ以上であると評価されました。
LLM も同様に、公平性、理解、文脈化などの指標において良好なパフォーマンスを示しました。
私たちの結果は、オンライン紛争解決 (ODR) プラットフォームに AI を統合する可能性を示しています。

要約(オリジナル)

Mediation is a dispute resolution method featuring a neutral third-party (mediator) who intervenes to help the individuals resolve their dispute. In this paper, we investigate to which extent large language models (LLMs) are able to act as mediators. We investigate whether LLMs are able to analyze dispute conversations, select suitable intervention types, and generate appropriate intervention messages. Using a novel, manually created dataset of 50 dispute scenarios, we conduct a blind evaluation comparing LLMs with human annotators across several key metrics. Overall, the LLMs showed strong performance, even outperforming our human annotators across dimensions. Specifically, in 62% of the cases, the LLMs chose intervention types that were rated as better than or equivalent to those chosen by humans. Moreover, in 84% of the cases, the intervention messages generated by the LLMs were rated as better than or equal to the intervention messages written by humans. LLMs likewise performed favourably on metrics such as impartiality, understanding and contextualization. Our results demonstrate the potential of integrating AI in online dispute resolution (ODR) platforms.

arxiv情報

著者 Jinzhe Tan,Hannes Westermann,Nikhil Reddy Pottanigari,Jaromír Šavelka,Sébastien Meeùs,Mia Godet,Karim Benyekhlef
発行日 2024-10-09 16:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | コメントする