DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs

要約

大規模な言語モデル(LLMS)での蒸留の成功にもかかわらず、ほとんどの以前の研究は、教師と生徒が生成するデータの両方に同一の損失関数を適用します。
これらの戦略は、損失の定式化とデータ型との相乗効果を見落とし、学生モデルの最適ではないパフォーマンスの向上につながります。
これに対処するために、Distillm-2を提案します。これは、教師の反応の可能性を同時に増やし、この相乗効果を活用することで学生の反応の可能性を減らす対照的なアプローチを提案します。
私たちの広範な実験は、DistillM-2が、指導の公開やコード生成など、幅広いタスクにわたって高性能の学生モデルを構築するだけでなく、優先順位のアラインメントやビジョン言語拡張などの多様なアプリケーションもサポートすることを示しています。
これらの発見は、さまざまなデータ型全体で教師と生徒のモデルを効果的に整列させることにより、LLM蒸留の有効性を高めるための対照的なアプローチの可能性を強調しています。

要約(オリジナル)

Despite the success of distillation in large language models (LLMs), most prior work applies identical loss functions to both teacher- and student-generated data. These strategies overlook the synergy between loss formulations and data types, leading to a suboptimal performance boost in student models. To address this, we propose DistiLLM-2, a contrastive approach that simultaneously increases the likelihood of teacher responses and decreases that of student responses by harnessing this synergy. Our extensive experiments show that DistiLLM-2 not only builds high-performing student models across a wide range of tasks, including instruction-following and code generation, but also supports diverse applications, such as preference alignment and vision-language extensions. These findings highlight the potential of a contrastive approach to enhance the efficacy of LLM distillation by effectively aligning teacher and student models across varied data types.

arxiv情報

著者 Jongwoo Ko,Tianyi Chen,Sungnyun Kim,Tianyu Ding,Luming Liang,Ilya Zharkov,Se-Young Yun
発行日 2025-03-10 08:51:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs はコメントを受け付けていません

Linguistic Knowledge Transfer Learning for Speech Enhancement

要約

言語の知識は、話し言葉の理解において重要な役割を果たします。
騒々しい環境での音声認識のための重要なセマンティックおよび構文コンテキストを提供します。
ただし、ほとんどの音声強化(SE)メソッドは、主に音響機能に依存して、言語統合の限られた調査を行い、ノイズの多い音声とクリーンなスピーチのマッピング関係を学習します。
テキストに基づいたSEアプローチが調査されていますが、多くの場合、明示的な音声テキストアラインメントまたは外部から提供されたテキストデータが必要であり、実際のシナリオで実用性を制約します。
さらに、テキストを入力として使用すると、固有の違いのために言語表現と音響表現を調整する際に課題があります。
この研究では、前訓練を受けた大規模な言語モデル(LLMS)を活用して、推論中にテキスト入力またはLLMを必要とせずに言語学の知識をSEモデルに注入するために、クロスモダリティ知識移転(CMKT)学習フレームワークを提案します。
さらに、知識移転を改善するための不整合戦略を導入します。
この戦略は、制御された時間的シフトを適用し、モデルがより堅牢な表現を学習するよう促します。
実験的評価は、CMKTがさまざまなSEアーキテクチャとLLM埋め込みにわたってベースラインモデルを常に上回り、異なる構成への適応性を強調することを示しています。
さらに、マンダリンと英語のデータセットの結果は、多様な言語条件全体でその有効性を確認し、その堅牢性をさらに検証します。
さらに、CMKTはテキストデータなしでシナリオでも効果的であり、実際のアプリケーションの実用性を強調しています。
言語モダリティとアコースティックモダリティの間のギャップを埋めることにより、CMKTは言語知識をSEモデルに統合するためのスケーラブルで革新的なソリューションを提供し、明瞭度と強化パフォーマンスの両方を大幅に改善します。

要約(オリジナル)

Linguistic knowledge plays a crucial role in spoken language comprehension. It provides essential semantic and syntactic context for speech perception in noisy environments. However, most speech enhancement (SE) methods predominantly rely on acoustic features to learn the mapping relationship between noisy and clean speech, with limited exploration of linguistic integration. While text-informed SE approaches have been investigated, they often require explicit speech-text alignment or externally provided textual data, constraining their practicality in real-world scenarios. Additionally, using text as input poses challenges in aligning linguistic and acoustic representations due to their inherent differences. In this study, we propose the Cross-Modality Knowledge Transfer (CMKT) learning framework, which leverages pre-trained large language models (LLMs) to infuse linguistic knowledge into SE models without requiring text input or LLMs during inference. Furthermore, we introduce a misalignment strategy to improve knowledge transfer. This strategy applies controlled temporal shifts, encouraging the model to learn more robust representations. Experimental evaluations demonstrate that CMKT consistently outperforms baseline models across various SE architectures and LLM embeddings, highlighting its adaptability to different configurations. Additionally, results on Mandarin and English datasets confirm its effectiveness across diverse linguistic conditions, further validating its robustness. Moreover, CMKT remains effective even in scenarios without textual data, underscoring its practicality for real-world applications. By bridging the gap between linguistic and acoustic modalities, CMKT offers a scalable and innovative solution for integrating linguistic knowledge into SE models, leading to substantial improvements in both intelligibility and enhancement performance.

arxiv情報

著者 Kuo-Hsuan Hung,Xugang Lu,Szu-Wei Fu,Huan-Hsin Tseng,Hsin-Yi Lin,Chii-Wann Lin,Yu Tsao
発行日 2025-03-10 09:00:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Linguistic Knowledge Transfer Learning for Speech Enhancement はコメントを受け付けていません

A Novel Ophthalmic Benchmark for Evaluating Multimodal Large Language Models with Fundus Photographs and OCT Images

要約

近年、大規模な言語モデル(LLM)は、さまざまな医療用途全体で顕著な可能性を示しています。
この基盤の上に構築されたマルチモーダル大手言語モデル(MLLMS)は、LLMを視覚モデルと統合して、臨床データや医療画像を含む多様な入力を処理します。
眼科では、LLMSが光学コヒーレンス断層撮影(OCT)のレポートを分析し、疾患の分類を支援し、さらには治療結果を予測するために調査されています。
ただし、既存のMLLMベンチマークは、特にOCT画像の分析において、実際の臨床診療の複雑さをキャプチャできないことがよくあります。
多くの人は、サンプルサイズが小さい、多様なOCTデータセットの欠如、専門家の検証が不十分なような制限に苦しんでいます。
これらの欠点は、OCTスキャンを解釈するMLLMの能力と眼科におけるより広い適用性の正確な評価を妨げます。
厳密な品質管理と専門家の注釈を通じてキュレーションされたデータセットは、439の眼底画像と75 OCT画像で構成されています。
標準化されたAPIベースのフレームワークを使用して、7つの主流MLLMSを評価し、異なる疾患にわたる診断精度の有意な変動性を観察しました。
一部のモデルは、糖尿病性網膜症や加齢性黄斑変性などの状態の診断でうまく機能しましたが、脈絡膜血管新生や近視などの他のモデルと闘い、パフォーマンスの矛盾とさらなる改良の必要性を強調しました。
私たちの調査結果は、MLLMの機能をより正確に評価するために、臨床的に関連するベンチマークを開発することの重要性を強調しています。
これらのモデルを改良し、範囲を拡大することにより、眼科の診断と治療を変換する可能性を高めることができます。

要約(オリジナル)

In recent years, large language models (LLMs) have demonstrated remarkable potential across various medical applications. Building on this foundation, multimodal large language models (MLLMs) integrate LLMs with visual models to process diverse inputs, including clinical data and medical images. In ophthalmology, LLMs have been explored for analyzing optical coherence tomography (OCT) reports, assisting in disease classification, and even predicting treatment outcomes. However, existing MLLM benchmarks often fail to capture the complexities of real-world clinical practice, particularly in the analysis of OCT images. Many suffer from limitations such as small sample sizes, a lack of diverse OCT datasets, and insufficient expert validation. These shortcomings hinder the accurate assessment of MLLMs’ ability to interpret OCT scans and their broader applicability in ophthalmology. Our dataset, curated through rigorous quality control and expert annotation, consists of 439 fundus images and 75 OCT images. Using a standardized API-based framework, we assessed seven mainstream MLLMs and observed significant variability in diagnostic accuracy across different diseases. While some models performed well in diagnosing conditions such as diabetic retinopathy and age-related macular degeneration, they struggled with others, including choroidal neovascularization and myopia, highlighting inconsistencies in performance and the need for further refinement. Our findings emphasize the importance of developing clinically relevant benchmarks to provide a more accurate assessment of MLLMs’ capabilities. By refining these models and expanding their scope, we can enhance their potential to transform ophthalmic diagnosis and treatment.

arxiv情報

著者 Xiaoyi Liang,Mouxiao Bian,Moxin Chen,Lihao Liu,Junjun He,Jie Xu,Lin Li
発行日 2025-03-10 09:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Novel Ophthalmic Benchmark for Evaluating Multimodal Large Language Models with Fundus Photographs and OCT Images はコメントを受け付けていません

Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators

要約

LLMベースの自動アノテーターは、人間ベースの評価と比較して、費用対効果とスケーラビリティにより、LLM開発プロセスの重要な要素になりました。
ただし、これらの自動アノテーターは、除去が難しいバイアスを導入できます。
既存の自動評価メトリックには、より長い出力の優先権などの単純で既知の交絡因子でさえもあります。
自動評価のバイアスを制御するための簡単な回帰分析アプローチを提案します。
実際のケーススタディとして、LLMSを使用して応答品質を推定する命令チューニングLLMの高速で手頃なベンチマークであるAlpacaevalの長さバイアスを減らすことに焦点を当てています。
人間の好みと非常に相関しているにもかかわらず、アルパカエバルは、より長い出力を生成するモデルを支持することが知られています。
反事実的な質問に答えることを目的とした長さ制御されたアルパカエバルを紹介します。「モデルとベースラインの出力が同じ長さだった場合、好みはどうなりますか?」
これを達成するために、まず一般化された線形モデルを適合させて、(長さの差)およびその他の関連する機能を制御したいメディエーターに基づいて、バイアスされた自動アノテーターの好みを予測します。
次に、長さの差がゼロでGLMを調整しながら設定を予測することにより、長さ制御された好みを取得します。
長さ制御は、モデルの冗長性の操作に対するメトリックの堅牢性を改善するだけでなく、LMSYSチャットボットアリーナと0.94から0.98にスピアマン相関を増加させることもわかります。

要約(オリジナル)

LLM-based auto-annotators have become a key component of the LLM development process due to their cost-effectiveness and scalability compared to human-based evaluation. However, these auto-annotators can introduce biases that are hard to remove. Even simple, known confounders such as preference for longer outputs remain in existing automated evaluation metrics. We propose a simple regression analysis approach for controlling biases in auto-evaluations. As a real case study, we focus on reducing the length bias of AlpacaEval, a fast and affordable benchmark for instruction-tuned LLMs that uses LLMs to estimate response quality. Despite being highly correlated with human preferences, AlpacaEval is known to favor models that generate longer outputs. We introduce a length-controlled AlpacaEval that aims to answer the counterfactual question: ‘What would the preference be if the model’s and baseline’s output had the same length?’ To achieve this, we first fit a generalized linear model to predict the biased auto-annotator’s preferences based on the mediators we want to control for (length difference) and other relevant features. We then obtain length-controlled preferences by predicting preferences while conditioning the GLM with a zero difference in lengths. Length-controlling not only improves the robustness of the metric to manipulations in model verbosity, but we also find that it increases the Spearman correlation with LMSYS Chatbot Arena from 0.94 to 0.98.

arxiv情報

著者 Yann Dubois,Balázs Galambosi,Percy Liang,Tatsunori B. Hashimoto
発行日 2025-03-10 09:27:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators はコメントを受け付けていません

Detecting mental disorder on social media: a ChatGPT-augmented explainable approach

要約

デジタル時代において、ソーシャルメディアで表現された抑うつ症状の有病率は深刻な懸念を引き起こし、タイムリーな検出のための高度な方法論を必要としています。
このペーパーでは、大規模な言語モデル(LLM)と説明可能な人工知能(XAI)とChatGPTのような会話エージェントを効果的に組み合わせた新しい方法論を提案することにより、解釈可能なうつ病検出の課題に対処します。
私たちの方法論では、説明は、BertのTwitter固有のバリアントであるBertweetを、マスクされた注意を介して分類と説明の両方を提供できる新しい自己省略モデル、すなわちBert-XDDに統合することで達成されます。
CHATGPTを使用して解釈可能性はさらに強化され、技術的な説明を人間の読み取り可能な解説に変換します。
解釈可能なうつ病検出のための効果的でモジュール式アプローチを導入することにより、私たちの方法論は、社会的に責任のあるデジタルプラットフォームの開発に貢献し、適格な医療専門家の指導の下でのメンタルヘルスの課題に対する早期介入とサポートを促進することができます。

要約(オリジナル)

In the digital era, the prevalence of depressive symptoms expressed on social media has raised serious concerns, necessitating advanced methodologies for timely detection. This paper addresses the challenge of interpretable depression detection by proposing a novel methodology that effectively combines Large Language Models (LLMs) with eXplainable Artificial Intelligence (XAI) and conversational agents like ChatGPT. In our methodology, explanations are achieved by integrating BERTweet, a Twitter-specific variant of BERT, into a novel self-explanatory model, namely BERT-XDD, capable of providing both classification and explanations via masked attention. The interpretability is further enhanced using ChatGPT to transform technical explanations into human-readable commentaries. By introducing an effective and modular approach for interpretable depression detection, our methodology can contribute to the development of socially responsible digital platforms, fostering early intervention and support for mental health challenges under the guidance of qualified healthcare professionals.

arxiv情報

著者 Loris Belcastro,Riccardo Cantini,Fabrizio Marozzo,Domenico Talia,Paolo Trunfio
発行日 2025-03-10 09:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SI | Detecting mental disorder on social media: a ChatGPT-augmented explainable approach はコメントを受け付けていません

PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM

要約

このペーパーでは、トークン化された表現を使用して2D画像をジョイントアングルに直接マッピングすることにより、明示的なポーズ推定の必要性を排除するロボットハンドコントロールの新しいフレームワークであるPoselessを紹介します。
当社のアプローチは、ランダム化されたジョイント構成によって生成された合成トレーニングデータを活用し、実際のシナリオへのゼロショット一般化とロボットから人間の手への横断的転送を可能にします。
視覚入力をトークン化し、トランスベースのデコーダーを使用することにより、Poselessは、深さのあいまいさやデータ不足などの課題に対処しながら、堅牢で低遅延の制御を実現します。
実験結果は、人間で標識されたデータセットに依存することなく、関節角度予測精度の競争力を示しています。

要約(オリジナル)

This paper introduces PoseLess, a novel framework for robot hand control that eliminates the need for explicit pose estimation by directly mapping 2D images to joint angles using tokenized representations. Our approach leverages synthetic training data generated through randomized joint configurations, enabling zero-shot generalization to real-world scenarios and cross-morphology transfer from robotic to human hands. By tokenizing visual inputs and employing a transformer-based decoder, PoseLess achieves robust, low-latency control while addressing challenges such as depth ambiguity and data scarcity. Experimental results demonstrate competitive performance in joint angle prediction accuracy without relying on any human-labelled dataset.

arxiv情報

著者 Alan Dao,Dinh Bach Vu,Tuan Le Duc Anh,Bui Quang Huy
発行日 2025-03-10 09:34:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO | PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM はコメントを受け付けていません

SmartRAG: Jointly Learn RAG-Related Tasks From the Environment Feedback

要約

RAGシステムは、一緒に動作する複数のモジュールで構成されています。
ただし、これらのモジュールは通常、個別にトレーニングされています。
複数のモジュールを組み込んだRAGのようなシステムは、最適なパフォーマンスを実現するために共同で最適化する必要があると主張します。
これを実証するために、ポリシーネットワークとレトリバーを含む\ textBf {smartrag}と呼ばれる特定のパイプラインを設計します。
ポリシーネットワークは、1)いつ回収するかを決定する意思決定者、2)レトリバーに最も適したクエリを生成するクエリライター、および3)観測値の/なしで最終的な応答を生成する回答ジェネレーターとして機能します。
次に、強化学習アルゴリズムを使用してシステム全体を共同で最適化することを提案します。報酬は、最小限の検索コストで最高のパフォーマンスを達成するようシステムを奨励するように設計されています。
共同で最適化されると、すべてのモジュールが他のモジュールがどのように機能しているかを認識でき、完全なシステムとして協力する最良の方法を見つけることができます。
経験的結果は、共同で最適化されたスマルトラグが、個別に最適化された対応物よりも優れたパフォーマンスを達成できることを示しています。

要約(オリジナル)

RAG systems consist of multiple modules to work together. However, these modules are usually separately trained. We argue that a system like RAG that incorporates multiple modules should be jointly optimized to achieve optimal performance. To demonstrate this, we design a specific pipeline called \textbf{SmartRAG} that includes a policy network and a retriever. The policy network can serve as 1) a decision maker that decides when to retrieve, 2) a query rewriter to generate a query most suited to the retriever, and 3) an answer generator that produces the final response with/without the observations. We then propose to jointly optimize the whole system using a reinforcement learning algorithm, with the reward designed to encourage the system to achieve the best performance with minimal retrieval cost. When jointly optimized, all the modules can be aware of how other modules are working and thus find the best way to work together as a complete system. Empirical results demonstrate that the jointly optimized SmartRAG can achieve better performance than separately optimized counterparts.

arxiv情報

著者 Jingsheng Gao,Linxu Li,Weiyuan Li,Yuzhuo Fu,Bin Dai
発行日 2025-03-10 09:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | SmartRAG: Jointly Learn RAG-Related Tasks From the Environment Feedback はコメントを受け付けていません

An Evaluation Benchmark for Adverse Drug Event Prediction from Clinical Trial Results

要約

有害薬物イベント(ADE)は、臨床試験の主要な安全性の問題です。
したがって、ADEを予測することは、より安全な薬を開発し、患者の転帰を高めるための鍵です。
この取り組みをサポートするために、モニッ麻痺治療におけるマルチサーベルADE予測のデータセットであるCT-ADEを紹介します。
CT-adeは、Meddraオントロジーを使用して注釈を付けられた臨床試験結果から2,497個の薬物と168,984個の薬物療法ペアを含みます。
既存のリソースとは異なり、CT-ADEは治療とターゲット集団データを統合し、投与量、管理ルート、人口統計などのさまざまな条件下で比較分析を可能にします。
さらに、CT-EDEは、肯定的および負の症例を含む、研究集団のすべてのADEを体系的に収集します。
CT-adデータセットを使用してADE予測パフォーマンスのベースラインを提供するために、大規模な言語モデル(LLM)を使用して分析を実施しました。
最高のLLMは56%のF1スコアを達成し、化学構造のみに依存している治療と患者情報を21%〜38%上回るモデルを取り入れました。
これらの調査結果は、ADE予測におけるコンテキスト情報の重要性を強調し、医薬品研究開発における安全リスク評価のための堅牢なリソースとしてCT-ADEを確立します。

要約(オリジナル)

Adverse drug events (ADEs) are a major safety issue in clinical trials. Thus, predicting ADEs is key to developing safer medications and enhancing patient outcomes. To support this effort, we introduce CT-ADE, a dataset for multilabel ADE prediction in monopharmacy treatments. CT-ADE encompasses 2,497 drugs and 168,984 drug-ADE pairs from clinical trial results, annotated using the MedDRA ontology. Unlike existing resources, CT-ADE integrates treatment and target population data, enabling comparative analyses under varying conditions, such as dosage, administration route, and demographics. In addition, CT-ADE systematically collects all ADEs in the study population, including positive and negative cases. To provide a baseline for ADE prediction performance using the CT-ADE dataset, we conducted analyses using large language models (LLMs). The best LLM achieved an F1-score of 56%, with models incorporating treatment and patient information outperforming by 21%-38% those relying solely on the chemical structure. These findings underscore the importance of contextual information in ADE prediction and establish CT-ADE as a robust resource for safety risk assessment in pharmaceutical research and development.

arxiv情報

著者 Anthony Yazdani,Alban Bornet,Philipp Khlebnikov,Boya Zhang,Hossein Rouhizadeh,Poorya Amini,Douglas Teodoro
発行日 2025-03-10 09:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | An Evaluation Benchmark for Adverse Drug Event Prediction from Clinical Trial Results はコメントを受け付けていません

On The Role of Prompt Construction In Enhancing Efficacy and Efficiency of LLM-Based Tabular Data Generation

要約

現実世界の表のデータのLLMベースのデータ生成は、列を記述するために使用される機能名に十分なセマンティックコンテキストがないことにより挑戦することができます。
ドメイン固有の洞察を使用してプロンプトを濃縮すると、データ生成の品質と効率の両方が改善できると仮定します。
この仮説をテストするために、3つの迅速な構築プロトコルを調査します。エキスパートガイド、LLMガイド、小説マッピングです。
最近提案された優れたフレームワークを使用した実証研究を通じて、コンテキストが豊富なプロンプトがデータ生成の品質とトレーニング効率を大幅に改善することにつながることがわかりました。

要約(オリジナル)

LLM-based data generation for real-world tabular data can be challenged by the lack of sufficient semantic context in feature names used to describe columns. We hypothesize that enriching prompts with domain-specific insights can improve both the quality and efficiency of data generation. To test this hypothesis, we explore three prompt construction protocols: Expert-guided, LLM-guided, and Novel-Mapping. Through empirical studies with the recently proposed GReaT framework, we find that context-enriched prompts lead to significantly improved data generation quality and training efficiency.

arxiv情報

著者 Banooqa Banday,Kowshik Thopalli,Tanzima Z. Islam,Jayaraman J. Thiagarajan
発行日 2025-03-10 09:52:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | On The Role of Prompt Construction In Enhancing Efficacy and Efficiency of LLM-Based Tabular Data Generation はコメントを受け付けていません

ASTRA: A Negotiation Agent with Adaptive and Strategic Reasoning through Action in Dynamic Offer Optimization

要約

交渉には、自分の有用性を最大化するために、自己利益と協力の動的なバランスをとる必要があります。
しかし、既存のエージェントは、人間のデータの境界の合理性、カウンターパートの行動に対する低い適応性、および限られた戦略的推論のために苦労しています。
これに対処するために、Astraを搭載した原則主導型交渉エージェントを紹介します。これは、2つのコア原則に基づいたターンレベルのオファー最適化の新しいフレームワークである対戦相手のモデリングとTit-for-Tatの相互関係です。
ASTRAは3つの段階で動作します。(1)対応する動作の解釈、(2)線形プログラミング(LP)ソルバーを介してカウンターオファーの最適化、および(3)交渉戦術とパートナーの受け入れ確率に基づくオファーの選択。
シミュレーションと人間の評価を通じて、当社のエージェントは、相手の変化するスタンスに効果的に適応し、適応性と戦略的推論を強化することにより有利な結果を達成します。
交渉のパフォーマンスを改善するだけでなく、強力なコーチングツールとしても機能し、解釈可能な戦略的フィードバックと最適なオファーの推奨事項を提供します。

要約(オリジナル)

Negotiation requires dynamically balancing self-interest and cooperation to maximize one’s own utility. Yet, existing agents struggle due to bounded rationality in human data, low adaptability to counterpart behavior, and limited strategic reasoning. To address this, we introduce principle-driven negotiation agents, powered by ASTRA, a novel framework for turn-level offer optimization grounded in two core principles: opponent modeling and Tit-for-Tat reciprocity. ASTRA operates in three stages: (1) interpreting counterpart behavior, (2) optimizing counteroffers via a linear programming (LP) solver, and (3) selecting offers based on negotiation tactics and the partner’s acceptance probability. Through simulations and human evaluations, our agent effectively adapts to an opponent’s shifting stance and achieves favorable outcomes through enhanced adaptability and strategic reasoning. Beyond improving negotiation performance, it also serves as a powerful coaching tool, offering interpretable strategic feedback and optimal offer recommendations.

arxiv情報

著者 Deuksin Kwon,Jiwon Hae,Emma Clift,Daniel Shamsoddini,Jonathan Gratch,Gale M. Lucas
発行日 2025-03-10 09:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ASTRA: A Negotiation Agent with Adaptive and Strategic Reasoning through Action in Dynamic Offer Optimization はコメントを受け付けていません