Generalizable Graph Neural Networks for Robust Power Grid Topology Control

要約

エネルギー遷移には、新しい混雑管理方法が必要です。
そのような方法の1つは、機械学習(ML)を使用してグリッドトポロジを制御することです。
このアプローチは、Power Network(L2RPN)競技を実施する学習に続いて人気を博しています。
グラフニューラルネットワーク(GNNS)は、計算にグラフ構造を反映するMLモデルのクラスであり、電力グリッドモデリングに適しています。
このように、トポロジー制御のためのさまざまなGNNアプローチが提案されています。
GNNレイヤーのみを使用するグリッドトポロジコントロールの最初のGNNモデルを提案します。
さらに、人気のある均一なグラフ表現が苦しんでいるバスバー情報の非対称性の問題を特定し、それを解決するために不均一なグラフ表現を提案します。
模倣学習タスクで、均質および異種のGNNと完全に接続されたニューラルネットワーク(FCNN)ベースラインの両方をトレーニングします。
モデルの分類精度とグリッド操作能力に応じて、モデルを評価します。
不均一なGNNは、分配中のネットワークで最適に機能し、FCNNS、最後に均質なGNNが続くことがわかります。
また、両方のGNNタイプは、FCNNよりも分散式ネットワークに対してよりよく一般化することがわかります。

要約(オリジナル)

The energy transition necessitates new congestion management methods. One such method is controlling the grid topology with machine learning (ML). This approach has gained popularity following the Learning to Run a Power Network (L2RPN) competitions. Graph neural networks (GNNs) are a class of ML models that reflect graph structure in their computation, which makes them suitable for power grid modeling. Various GNN approaches for topology control have thus been proposed. We propose the first GNN model for grid topology control that uses only GNN layers. Additionally, we identify the busbar information asymmetry problem that the popular homogeneous graph representation suffers from, and propose a heterogeneous graph representation to resolve it. We train both homogeneous and heterogeneous GNNs and fully connected neural networks (FCNN) baselines on an imitation learning task. We evaluate the models according to their classification accuracy and grid operation ability. We find that the heterogeneous GNNs perform best on in-distribution networks, followed by the FCNNs, and lastly, the homogeneous GNNs. We also find that both GNN types generalize better to out-of-distribution networks than FCNNs.

arxiv情報

著者 Matthijs de Jong,Jan Viebahn,Yuliya Shapovalova
発行日 2025-02-18 18:20:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Generalizable Graph Neural Networks for Robust Power Grid Topology Control はコメントを受け付けていません

Improving Clinical Question Answering with Multi-Task Learning: A Joint Approach for Answer Extraction and Medical Categorization

要約

臨床質問応答(CQA)は、医学的意思決定において重要な役割を果たし、医師が電子医療記録(EMR)から関連情報を抽出できるようにします。
Bert、Biobert、ClinicalBertなどの変圧器ベースのモデルはCQAで最先端のパフォーマンスを実証していますが、既存のモデルは抽出された回答を分類する能力がありません。

この制限に対処するために、回答抽出と医療分類の両方についてCQAモデルを共同でトレーニングするマルチタスク学習(MTL)フレームワークを導入します。
回答スパンの予測に加えて、我々のモデルは、診断、投薬、症状、手順、ラボレポートの5つの標準化された医療カテゴリに応答を分類します。
この分類により、より構造化された解釈可能な出力が可能になり、現実世界のヘルスケア設定で臨床QAモデルがより有用になります。
医療質問応答のための大規模なデータセットであるEMRQAでのアプローチを評価します。
結果は、MTLが標準の微調整と比較してF1スコアを2.2%改善し、回答の分類で90.7%の精度を達成したことを示しています。
これらの調査結果は、MTLがCQAのパフォーマンスを向上させるだけでなく、分類および構造化された医療情報の検索のための効果的なメカニズムも導入することを示唆しています。

要約(オリジナル)

Clinical Question Answering (CQA) plays a crucial role in medical decision-making, enabling physicians to extract relevant information from Electronic Medical Records (EMRs). While transformer-based models such as BERT, BioBERT, and ClinicalBERT have demonstrated state-of-the-art performance in CQA, existing models lack the ability to categorize extracted answers, which is critical for structured retrieval, content filtering, and medical decision support. To address this limitation, we introduce a Multi-Task Learning (MTL) framework that jointly trains CQA models for both answer extraction and medical categorization. In addition to predicting answer spans, our model classifies responses into five standardized medical categories: Diagnosis, Medication, Symptoms, Procedure, and Lab Reports. This categorization enables more structured and interpretable outputs, making clinical QA models more useful in real-world healthcare settings. We evaluate our approach on emrQA, a large-scale dataset for medical question answering. Results show that MTL improves F1-score by 2.2% compared to standard fine-tuning, while achieving 90.7% accuracy in answer categorization. These findings suggest that MTL not only enhances CQA performance but also introduces an effective mechanism for categorization and structured medical information retrieval.

arxiv情報

著者 Priyaranjan Pattnayak,Hitesh Laxmichand Patel,Amit Agarwal,Bhargava Kumar,Srikant Panda,Tejaswini Kumar
発行日 2025-02-18 18:20:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Improving Clinical Question Answering with Multi-Task Learning: A Joint Approach for Answer Extraction and Medical Categorization はコメントを受け付けていません

Near-Optimal Private Learning in Linear Contextual Bandits

要約

一般化された線形コンテキスト盗賊におけるプライベートラーニングの問題を分析します。
私たちのアプローチは、再加重回帰の新しい方法に基づいており、注文$ \ sqrt {t}+\ frac {1} {\ alpha} $および$ \ sqrt {t}/\ alpha $を順序の後悔の効率的なアルゴリズムを生成します。
それぞれ$ \ alpha $ -Privacyの共同およびローカルモデル。
さらに、プライベート線形モデルと線形文脈的盗賊で寸法に依存しないレートを達成する最適に近いプライベート手順を提供します。
特に、我々の結果は、私たちが考慮するすべての設定で共同プライバシーがほぼ「無料」であることを意味し、AzizeとBasu(2024)によってもたらされる未解決の問題に部分的に対処します。

要約(オリジナル)

We analyze the problem of private learning in generalized linear contextual bandits. Our approach is based on a novel method of re-weighted regression, yielding an efficient algorithm with regret of order $\sqrt{T}+\frac{1}{\alpha}$ and $\sqrt{T}/\alpha$ in the joint and local model of $\alpha$-privacy, respectively. Further, we provide near-optimal private procedures that achieve dimension-independent rates in private linear models and linear contextual bandits. In particular, our results imply that joint privacy is almost ‘for free’ in all the settings we consider, partially addressing the open problem posed by Azize and Basu (2024).

arxiv情報

著者 Fan Chen,Jiachun Li,Alexander Rakhlin,David Simchi-Levi
発行日 2025-02-18 18:35:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, math.ST, stat.ML, stat.TH | Near-Optimal Private Learning in Linear Contextual Bandits はコメントを受け付けていません

Performance Evaluation of Large Language Models in Statistical Programming

要約

大規模な言語モデル(LLM)のプログラミング機能は、自動コード生成に革命をもたらし、自動統計分析のための新しい道を開きました。
ただし、これらの生成されたコードの有効性と品質は、広く採用する前に体系的に評価する必要があります。
その卓越性の高まりにもかかわらず、LLMSによって生成された統計コードの包括的な評価は、文献では依然として不足しています。
このホワイトペーパーでは、統計分析のためのSASプログラミングのドメインで、CHATGPTの2つのバージョンとLlamaの1つのバージョンを含むLLMのパフォーマンスを評価します。
私たちの研究では、多様な統計的トピックとデータセットを含む一連の統計分析タスクを利用しています。
各タスクには、問題の説明、データセット情報、および人間が検証したSASコードが含まれます。
正確性、有効性、読みやすさ、実行可能性、および出力結果の精度に基づいて、人間の専門家評価を通じてLLMによって生成されたSASコードの品質の包括的な評価を実施します。
評価スコアの分析により、LLMは構文的に正しいコードを生成する際の有用性を示しているが、深いドメインの理解を必要とするタスクと闘い、冗長または誤った結果を生成する可能性があることが明らかになります。
この研究は、統計プログラミングにおけるLLMの機能と制限に関する貴重な洞察を提供し、統計分析のためのAIアシストコーディングシステムの将来の進歩のガイダンスを提供します。

要約(オリジナル)

The programming capabilities of large language models (LLMs) have revolutionized automatic code generation and opened new avenues for automatic statistical analysis. However, the validity and quality of these generated codes need to be systematically evaluated before they can be widely adopted. Despite their growing prominence, a comprehensive evaluation of statistical code generated by LLMs remains scarce in the literature. In this paper, we assess the performance of LLMs, including two versions of ChatGPT and one version of Llama, in the domain of SAS programming for statistical analysis. Our study utilizes a set of statistical analysis tasks encompassing diverse statistical topics and datasets. Each task includes a problem description, dataset information, and human-verified SAS code. We conduct a comprehensive assessment of the quality of SAS code generated by LLMs through human expert evaluation based on correctness, effectiveness, readability, executability, and the accuracy of output results. The analysis of rating scores reveals that while LLMs demonstrate usefulness in generating syntactically correct code, they struggle with tasks requiring deep domain understanding and may produce redundant or incorrect results. This study offers valuable insights into the capabilities and limitations of LLMs in statistical programming, providing guidance for future advancements in AI-assisted coding systems for statistical analysis.

arxiv情報

著者 Xinyi Song,Kexin Xie,Lina Lee,Ruizhe Chen,Jared M. Clark,Hao He,Haoran He,Jie Min,Xinlei Zhang,Simin Zheng,Zhiyang Zhang,Xinwei Deng,Yili Hong
発行日 2025-02-18 18:37:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, stat.AP | Performance Evaluation of Large Language Models in Statistical Programming はコメントを受け付けていません

Adapting Psycholinguistic Research for LLMs: Gender-inclusive Language in a Coreference Context

要約

性別を含む言語は、性別に関係なくすべての個人が特定の概念に関連付けられるようにすることを目的として使用されることがよくあります。
心理言語学的研究では、人間の認知に関連してその効果を調べていますが、言語モデル(LLM)がジェンダーを含む言語をどのように処理するかは不明のままです。
市販のLLMが日常のアプリケーションでますます強い足場を獲得していることを考えると、LLMが実際に性別を含む言語を中立的に解釈するかどうかを調べることが重要です。なぜなら、彼らが生成する言語はユーザーの言語に影響を与える可能性があるからです。
この研究では、LLM生成されたコアファレント用語が特定の性別表現と一致するか、モデルバイアスを反映するかを調べます。
心理言語的方法をフランス語から英語、ドイツ語に適応させると、英語では、LLMは一般に前件の性別を維持しているが、根本的な男性的な偏見を示していることがわかります。
ドイツ語では、このバイアスははるかに強力であり、テストされたすべての性別中和戦略を無効にします。

要約(オリジナル)

Gender-inclusive language is often used with the aim of ensuring that all individuals, regardless of gender, can be associated with certain concepts. While psycholinguistic studies have examined its effects in relation to human cognition, it remains unclear how Large Language Models (LLMs) process gender-inclusive language. Given that commercial LLMs are gaining an increasingly strong foothold in everyday applications, it is crucial to examine whether LLMs in fact interpret gender-inclusive language neutrally, because the language they generate has the potential to influence the language of their users. This study examines whether LLM-generated coreferent terms align with a given gender expression or reflect model biases. Adapting psycholinguistic methods from French to English and German, we find that in English, LLMs generally maintain the antecedent’s gender but exhibit underlying masculine bias. In German, this bias is much stronger, overriding all tested gender-neutralization strategies.

arxiv情報

著者 Marion Bartl,Thomas Brendan Murphy,Susan Leavy
発行日 2025-02-18 18:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Adapting Psycholinguistic Research for LLMs: Gender-inclusive Language in a Coreference Context はコメントを受け付けていません

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

要約

テキストからソングの世代、テキスト入力からボーカルと伴奏を作成するタスクは、ドメインの複雑さとデータ不足のために大きな課題をもたらします。
既存のアプローチでは、多くの場合、多段階の生成手順を採用しているため、面倒なトレーニングと推論パイプラインが生じます。
この論文では、制御可能な歌の生成向けに設計された完全にオープンソースの単一ステージの自動回帰トランスであるSonggenを提案します。
提案されたモデルは、楽器、ジャンル、ムード、音色の歌詞やテキストの説明を含む、多様な音楽属性に対するきめの細かい制御を促進すると同時に、音声クローニングのためのオプションの3秒の参照クリップも提供します。
統一された自動回帰フレームワーク内で、SongGenは2つの出力モードをサポートします。これにより、ボーカルと伴奏の混合を直接生成する混合モードと、ダウンストリームアプリケーションの柔軟性を高めるために個別に合成するデュアルトラックモードです。
各モードの多様なトークンパターン戦略を調査し、顕著な改善と貴重な洞察をもたらします。
さらに、効果的な品質制御を備えた自動データの前処理パイプラインを設計します。
コミュニティのエンゲージメントと将来の研究を促進するために、モデルの重み、トレーニングコード、注釈付きデータ、プリプロシングパイプラインをリリースします。
生成されたサンプルは、https://liuzh-19.github.io/songgen/のプロジェクトページで紹介され、コードはhttps://github.com/liuzh-19/songgenで入手できます。

要約(オリジナル)

Text-to-song generation, the task of creating vocals and accompaniment from textual inputs, poses significant challenges due to domain complexity and data scarcity. Existing approaches often employ multi-stage generation procedures, resulting in cumbersome training and inference pipelines. In this paper, we propose SongGen, a fully open-source, single-stage auto-regressive transformer designed for controllable song generation. The proposed model facilitates fine-grained control over diverse musical attributes, including lyrics and textual descriptions of instrumentation, genre, mood, and timbre, while also offering an optional three-second reference clip for voice cloning. Within a unified auto-regressive framework, SongGen supports two output modes: mixed mode, which generates a mixture of vocals and accompaniment directly, and dual-track mode, which synthesizes them separately for greater flexibility in downstream applications. We explore diverse token pattern strategies for each mode, leading to notable improvements and valuable insights. Furthermore, we design an automated data preprocessing pipeline with effective quality control. To foster community engagement and future research, we will release our model weights, training code, annotated data, and preprocessing pipeline. The generated samples are showcased on our project page at https://liuzh-19.github.io/SongGen/ , and the code will be available at https://github.com/LiuZH-19/SongGen .

arxiv情報

著者 Zihan Liu,Shuangrui Ding,Zhixiong Zhang,Xiaoyi Dong,Pan Zhang,Yuhang Zang,Yuhang Cao,Dahua Lin,Jiaqi Wang
発行日 2025-02-18 18:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD | SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation はコメントを受け付けていません

Rethinking Diverse Human Preference Learning through Principal Component Analysis

要約

人間の好みを理解することは、基礎モデルを改善し、パーソナライズされたAIシステムを構築するために重要です。
ただし、好みは本質的に多様で複雑であるため、従来の報酬モデルがフルレンジをキャプチャすることは困難です。
きめの粒度の優先データは役立ちますが、収集するのは高価で拡張が難しいです。
この論文では、分解された報酬モデル(DRMS)を紹介します。これは、細めに成長した注釈を必要とせずに、多様な人間の好みをバイナリ比較から抽出する新しいアプローチです。
私たちの重要な洞察は、人間の好みをベクトルとして表現し、主成分分析(PCA)を使用して分析することです。
優先応答と拒否された応答の違いの違いのデータセットを構築することにより、DRMは好みの異なる側面をキャプチャする直交基底ベクトルを識別します。
これらの分解された報酬を柔軟に組み合わせて、さまざまなユーザーニーズに合わせて、従来の報酬モデルに代わる解釈可能でスケーラブルな代替品を提供できます。
DRMSは、意味のある好みの寸法(例えば、有用性、安全性、ユーモアなど)を効果的に抽出し、追加のトレーニングなしで新しいユーザーに適応することを実証します。
私たちの結果は、DRMSをパーソナライズされた解釈可能なLLMアライメントの強力なフレームワークとして強調しています。

要約(オリジナル)

Understanding human preferences is crucial for improving foundation models and building personalized AI systems. However, preferences are inherently diverse and complex, making it difficult for traditional reward models to capture their full range. While fine-grained preference data can help, collecting it is expensive and hard to scale. In this paper, we introduce Decomposed Reward Models (DRMs), a novel approach that extracts diverse human preferences from binary comparisons without requiring fine-grained annotations. Our key insight is to represent human preferences as vectors and analyze them using Principal Component Analysis (PCA). By constructing a dataset of embedding differences between preferred and rejected responses, DRMs identify orthogonal basis vectors that capture distinct aspects of preference. These decomposed rewards can be flexibly combined to align with different user needs, offering an interpretable and scalable alternative to traditional reward models. We demonstrate that DRMs effectively extract meaningful preference dimensions (e.g., helpfulness, safety, humor) and adapt to new users without additional training. Our results highlight DRMs as a powerful framework for personalized and interpretable LLM alignment.

arxiv情報

著者 Feng Luo,Rui Yang,Hao Sun,Chunyuan Deng,Jiarui Yao,Jingyan Shen,Huan Zhang,Hanjie Chen
発行日 2025-02-18 18:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Rethinking Diverse Human Preference Learning through Principal Component Analysis はコメントを受け付けていません

State-space models can learn in-context by gradient descent

要約

深い状態空間モデル(ディープSSM)は、モデルシーケンスデータへの効果的なアプローチとして人気が高まっています。
また、トランスのように、コンテキスト内学習が可能であることが示されています。
ただし、SSMがどのようにコンテキスト内学習を行うことができるかについての完全な写真は欠落しています。
この研究では、状態空間モデルが勾配ベースの学習を実行し、トランスと同じ方法でコンテキスト内学習に使用できることを示す直接的で明示的な構造を提供します。
具体的には、乗法入力と出力ゲーティングで増強された単一の構造化状態空間モデル層が、勾配降下の1段階後に最小二乗損失で暗黙の線形モデルの出力を再現できることを証明します。
次に、マルチステップ線形および非線形回帰タスクへの簡単な拡張を示します。
線形および非線形回帰タスクでランダムに初期化された拡張SSMをトレーニングすることにより、構造を検証します。
最適化を介した経験的に得られたパラメーターは、理論構造によって分析的に予測されるものと一致します。
全体として、基礎モデルに典型的な表現力を可能にするための重要な帰納的バイアスとして、再発アーキテクチャにおける入力および出力ゲーティングの役割を解明します。
また、状態空間モデルと線形の自己触たちの関係と、コンテキスト内を学習する能力に関する新しい洞察を提供します。

要約(オリジナル)

Deep state-space models (Deep SSMs) are becoming popular as effective approaches to model sequence data. They have also been shown to be capable of in-context learning, much like transformers. However, a complete picture of how SSMs might be able to do in-context learning has been missing. In this study, we provide a direct and explicit construction to show that state-space models can perform gradient-based learning and use it for in-context learning in much the same way as transformers. Specifically, we prove that a single structured state-space model layer, augmented with multiplicative input and output gating, can reproduce the outputs of an implicit linear model with least squares loss after one step of gradient descent. We then show a straightforward extension to multi-step linear and non-linear regression tasks. We validate our construction by training randomly initialized augmented SSMs on linear and non-linear regression tasks. The empirically obtained parameters through optimization match the ones predicted analytically by the theoretical construction. Overall, we elucidate the role of input- and output-gating in recurrent architectures as the key inductive biases for enabling the expressive power typical of foundation models. We also provide novel insights into the relationship between state-space models and linear self-attention, and their ability to learn in-context.

arxiv情報

著者 Neeraj Mohan Sushma,Yudou Tian,Harshvardhan Mestha,Nicolo Colombo,David Kappel,Anand Subramoney
発行日 2025-02-18 18:55:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE | State-space models can learn in-context by gradient descent はコメントを受け付けていません

Learning to Defer for Causal Discovery with Imperfect Experts

要約

専門知識の統合、例えば
大規模な言語モデルから、知識が正しいと保証されていない場合、因果発見アルゴリズムに挑戦することがあります。
専門家の推奨事項は、データ駆動型の結果と矛盾する可能性があり、その信頼性はドメインまたは特定のクエリによって大きく異なる場合があります。
予測される因果関係のソフト制約または矛盾に基づく既存の方法は、専門知識のこれらの変動を説明できません。
これを改善するために、L2D-CDを提案します。L2D-CDは、専門家の推奨事項の正しさを測定し、それらをデータ駆動型の因果発見結果と最適に組み合わせる方法を提案します。
ペアワイズ因果発見(CD)の学習学習(L2D)アルゴリズムを適応させることにより、数値データまたはテキストメタデータに基づいた専門家の推奨事項を使用して古典的な因果発見方法に依存するかどうかを選択する延期関数を学習します。
標準的なt \ ‘ubingenペアデータセットでL2D-CDを評価し、因果発見方法と分離で使用される専門家の両方と比較して、その優れた性能を実証します。
さらに、私たちのアプローチは、専門家のパフォーマンスが強いまたは弱いドメインを識別します。
最後に、このアプローチを2つ以上の変数を持つグラフ上の因果発見に一般化するための戦略を概説し、この分野でのさらなる研究への道を開いています。

要約(オリジナル)

Integrating expert knowledge, e.g. from large language models, into causal discovery algorithms can be challenging when the knowledge is not guaranteed to be correct. Expert recommendations may contradict data-driven results, and their reliability can vary significantly depending on the domain or specific query. Existing methods based on soft constraints or inconsistencies in predicted causal relationships fail to account for these variations in expertise. To remedy this, we propose L2D-CD, a method for gauging the correctness of expert recommendations and optimally combining them with data-driven causal discovery results. By adapting learning-to-defer (L2D) algorithms for pairwise causal discovery (CD), we learn a deferral function that selects whether to rely on classical causal discovery methods using numerical data or expert recommendations based on textual meta-data. We evaluate L2D-CD on the canonical T\’ubingen pairs dataset and demonstrate its superior performance compared to both the causal discovery method and the expert used in isolation. Moreover, our approach identifies domains where the expert’s performance is strong or weak. Finally, we outline a strategy for generalizing this approach to causal discovery on graphs with more than two variables, paving the way for further research in this area.

arxiv情報

著者 Oscar Clivio,Divyat Mahajan,Perouz Taslakian,Sara Magliacane,Ioannis Mitliagkas,Valentina Zantedeschi,Alexandre Drouin
発行日 2025-02-18 18:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Learning to Defer for Causal Discovery with Imperfect Experts はコメントを受け付けていません

Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions

要約

健康やライフスタイルのコーチングなど、肯定的な行動の変化を促進するように設計されたインタラクティブなエージェントを評価するための合成ユーザーを生成するためのエンドツーエンドのフレームワークを提示します。
合成ユーザーは、健康コーチングエージェントとの現実的な相互作用を確保するために、この研究では、健康とライフスタイルの条件、特に睡眠と糖尿病の管理に基づいています。
合成ユーザーは2つの段階で作成されます。まず、構造化されたデータは、基本的な人口統計と行動属性に加えて、実際の健康とライフスタイルの要因に基づいて生成されます。
第二に、合成ユーザーの完全なプロファイルは、構造化されたデータに条件付けられて開発されます。
合成ユーザーとコーチングエージェント間の相互作用は、コンコルディアなどの生成エージェントベースのモデルを使用して、または言語モデルを促すことによりシミュレートされます。
睡眠と糖尿病のコーチングのために2人の独立したエージェントをケーススタディとして使用して、このフレームワークの妥当性は、合成ユーザーのニーズと課題に関するコーチングエージェントの理解を分析することにより実証されています。
最後に、人間の専門家によるユーザーコーチの相互作用の複数の盲目的な評価を通じて、健康と行動の属性を持つ合成ユーザーが、そのような属性に基づいていない一般的な合成ユーザーと比較して、同じ属性を持つ本物の人間のユーザーをより正確に描写することを実証します。
提案されたフレームワークは、広範で現実的で根拠のあるシミュレーションされた相互作用を通じて、会話エージェントの効率的な開発の基盤を築きます。

要約(オリジナル)

We present an end-to-end framework for generating synthetic users for evaluating interactive agents designed to encourage positive behavior changes, such as in health and lifestyle coaching. The synthetic users are grounded in health and lifestyle conditions, specifically sleep and diabetes management in this study, to ensure realistic interactions with the health coaching agent. Synthetic users are created in two stages: first, structured data are generated grounded in real-world health and lifestyle factors in addition to basic demographics and behavioral attributes; second, full profiles of the synthetic users are developed conditioned on the structured data. Interactions between synthetic users and the coaching agent are simulated using generative agent-based models such as Concordia, or directly by prompting a language model. Using two independently-developed agents for sleep and diabetes coaching as case studies, the validity of this framework is demonstrated by analyzing the coaching agent’s understanding of the synthetic users’ needs and challenges. Finally, through multiple blinded evaluations of user-coach interactions by human experts, we demonstrate that our synthetic users with health and behavioral attributes more accurately portray real human users with the same attributes, compared to generic synthetic users not grounded in such attributes. The proposed framework lays the foundation for efficient development of conversational agents through extensive, realistic, and grounded simulated interactions.

arxiv情報

著者 Taedong Yun,Eric Yang,Mustafa Safdari,Jong Ha Lee,Vaishnavi Vinod Kumar,S. Sara Mahdavi,Jonathan Amar,Derek Peyton,Reut Aharony,Andreas Michaelides,Logan Schneider,Isaac Galatzer-Levy,Yugang Jia,John Canny,Arthur Gretton,Maja Matarić
発行日 2025-02-18 18:56:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions はコメントを受け付けていません