Consistent Document-Level Relation Extraction via Counterfactuals

要約

ドキュメントレベルの関係抽出 (RE) モデルをトレーニングおよび評価するために、多くのデータセットが開発されています。
これらのほとんどは、実世界のデータを使用して構築されています。
実世界のデータに基づいてトレーニングされた RE モデルには事実によるバイアスが存在することが示されています。
この問題を評価し、対処するために、エンティティ置換を使用したドキュメントレベルの関係抽出データセットに対する反事実データ生成アプローチである CovEReD を紹介します。
まず、事実データに基づいてトレーニングされたモデルが一貫性のない動作を示すことを示します。つまり、モデルは事実データからトリプルを正確に抽出しますが、反事実的な変更後は同じトリプルを抽出できません。
この矛盾は、事実データに基づいてトレーニングされたモデルが、トリプルを抽出するために入力コンテキスト $\unicode{x2013}$ ではなく、特定のエンティティや外部知識 $\unicode{x2013}$ などの偽の信号に依存していることを示唆しています。
CovEReD を使用して文書レベルの反事実データを生成し、それらに基づいてモデルをトレーニングすることにより、RE パフォーマンスへの影響を最小限に抑えながら一貫性が維持されることを示します。
私たちは、CovEReD パイプラインと、反事実の RE 文書のデータセットである Re-DocRED-CF をリリースし、文書レベルの RE の不一致の評価と対処を支援します。

要約(オリジナル)

Many datasets have been developed to train and evaluate document-level relation extraction (RE) models. Most of these are constructed using real-world data. It has been shown that RE models trained on real-world data suffer from factual biases. To evaluate and address this issue, we present CovEReD, a counterfactual data generation approach for document-level relation extraction datasets using entity replacement. We first demonstrate that models trained on factual data exhibit inconsistent behavior: while they accurately extract triples from factual data, they fail to extract the same triples after counterfactual modification. This inconsistency suggests that models trained on factual data rely on spurious signals such as specific entities and external knowledge $\unicode{x2013}$ rather than on the input context $\unicode{x2013}$ to extract triples. We show that by generating document-level counterfactual data with CovEReD and training models on them, consistency is maintained with minimal impact on RE performance. We release our CovEReD pipeline as well as Re-DocRED-CF, a dataset of counterfactual RE documents, to assist in evaluating and addressing inconsistency in document-level RE.

arxiv情報

著者 Ali Modarressi,Abdullatif Köksal,Hinrich Schütze
発行日 2024-10-15 13:37:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Consistent Document-Level Relation Extraction via Counterfactuals はコメントを受け付けていません

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

要約

大規模で多様なコレクションから情報を効率的に取得して合成することが重要な課題となっています。
ただし、既存のビデオ検索データセットは範囲制限に悩まされており、主に専門的に編集された英語中心のビデオの小さなコレクションと、説明的だが曖昧なクエリを照合することに重点を置いています。
このギャップに対処するために、$\textbf{MultiVENT 2.0}$ を導入しました。これは、特定の世界の出来事を対象とした 218,000 以上のニュース ビデオと 3,906 のクエリのコレクションを特徴とする大規模な多言語イベント中心のビデオ検索ベンチマークです。
これらのクエリは、ビデオのビジュアル コンテンツ、オーディオ、埋め込みテキスト、およびテキスト メタデータに含まれる情報を特にターゲットにしており、システムがタスクを成功させるにはこれらすべてのソースを活用する必要があります。
予備的な結果は、最先端の視覚言語モデルがこの課題にかなり苦戦しており、代替アプローチは有望であるものの、この問題に適切に対処するにはまだ不十分であることを示しています。
これらの発見は、効果的なビデオ検索がマルチモーダルなコンテンツの理解と生成タスクに向けた重要なステップであるため、より堅牢なマルチモーダル検索システムの必要性を強調しています。

要約(オリジナル)

Efficiently retrieving and synthesizing information from large-scale multimodal collections has become a critical challenge. However, existing video retrieval datasets suffer from scope limitations, primarily focusing on matching descriptive but vague queries with small collections of professionally edited, English-centric videos. To address this gap, we introduce $\textbf{MultiVENT 2.0}$, a large-scale, multilingual event-centric video retrieval benchmark featuring a collection of more than 218,000 news videos and 3,906 queries targeting specific world events. These queries specifically target information found in the visual content, audio, embedded text, and text metadata of the videos, requiring systems leverage all these sources to succeed at the task. Preliminary results show that state-of-the-art vision-language models struggle significantly with this task, and while alternative approaches show promise, they are still insufficient to adequately address this problem. These findings underscore the need for more robust multimodal retrieval systems, as effective video retrieval is a crucial step towards multimodal content understanding and generation tasks.

arxiv情報

著者 Reno Kriz,Kate Sanders,David Etter,Kenton Murray,Cameron Carpenter,Kelly Van Ochten,Hannah Recknor,Jimena Guallar-Blasco,Alexander Martin,Ronald Colaianni,Nolan King,Eugene Yang,Benjamin Van Durme
発行日 2024-10-15 13:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval はコメントを受け付けていません

Agent Planning with World Knowledge Model

要約

インタラクティブな計画タスクを実行するためのエージェント モデルとして大規模言語モデル (LLM) を直接使用する最近の取り組みは、賞賛に値する結果を示しています。
しかし、そのような成果にもかかわらず、彼らは依然として、「現実の」物理世界についての理解が不十分なため、世界規模の計画において頭の悪い試行錯誤や、局所的な計画における幻覚作用の生成に苦労しています。
タスク前にグローバルな事前知識を提供し、タスク中にローカルな動的知識を維持する人間の精神世界知識モデルを模倣して、本稿ではエージェントの計画を容易にするパラメトリック世界知識モデル(WKM)を紹介します。
具体的には、エージェント モデルを操作して、専門家の軌跡とサンプリングされた軌跡の両方から知識を自己合成します。
次に、WKM を開発し、グローバルな計画を導くための事前タスクの知識と、ローカルな計画を支援するための動的な状態の知識を提供します。
3 つの最先端のオープンソース LLM、Mistral-7B、Gemma-7B、Llama-3-8B を使用した 3 つの複雑な現実世界のシミュレートされたデータセットの実験結果は、私たちの方法がさまざまな方法と比較して優れたパフォーマンスを達成できることを示しています。
強いベースライン。
さらに、WKM が盲目的な試行錯誤や幻覚行動の問題を効果的に軽減し、エージェントの世界理解に強力なサポートを提供できることを示すために分析を行いました。
その他の興味深い発見としては、1) インスタンス レベルのタスクの知識は、目に見えないタスクに対してより適切に一般化できる、2) 弱い WKM が強力なエージェント モデルの計画を導くことができる、3) 統合された WKM トレーニングにはさらなる開発の有望な可能性がある、などがあります。
コードは https://github.com/zjunlp/WKM で入手できます。

要約(オリジナル)

Recent endeavors towards directly using large language models (LLMs) as agent models to execute interactive planning tasks have shown commendable results. Despite their achievements, however, they still struggle with brainless trial-and-error in global planning and generating hallucinatory actions in local planning due to their poor understanding of the “real” physical world. Imitating humans’ mental world knowledge model which provides global prior knowledge before the task and maintains local dynamic knowledge during the task, in this paper, we introduce parametric World Knowledge Model (WKM) to facilitate agent planning. Concretely, we steer the agent model to self-synthesize knowledge from both expert and sampled trajectories. Then we develop WKM, providing prior task knowledge to guide the global planning and dynamic state knowledge to assist the local planning. Experimental results on three complex real-world simulated datasets with three state-of-the-art open-source LLMs, Mistral-7B, Gemma-7B, and Llama-3-8B, demonstrate that our method can achieve superior performance compared to various strong baselines. Besides, we analyze to illustrate that our WKM can effectively alleviate the blind trial-and-error and hallucinatory action issues, providing strong support for the agent’s understanding of the world. Other interesting findings include: 1) our instance-level task knowledge can generalize better to unseen tasks, 2) weak WKM can guide strong agent model planning, and 3) unified WKM training has promising potential for further development. The code is available at https://github.com/zjunlp/WKM.

arxiv情報

著者 Shuofei Qiao,Runnan Fang,Ningyu Zhang,Yuqi Zhu,Xiang Chen,Shumin Deng,Yong Jiang,Pengjun Xie,Fei Huang,Huajun Chen
発行日 2024-10-15 13:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MA | Agent Planning with World Knowledge Model はコメントを受け付けていません

VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

要約

マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、Embedded AI のアプリケーションに新たな道が開かれました。
以前の作品である EgoThink を基にして、自己中心的なビデオ理解機能を評価するための包括的なベンチマークである VidEgoThink を紹介します。
MLLM と身体化 AI における低レベル制御の間のギャップを埋めるために、ビデオ質問応答、階層計画、視覚的グラウンディング、報酬モデリングという 4 つの主要な相互関連タスクを設計します。
手動アノテーションのコストを最小限に抑えるために、GPT-4o の事前知識とマルチモーダル機能を活用して、Ego4D データセットに基づく自動データ生成パイプラインを開発しました。
次に、3 人のヒューマン アノテーターが生成されたデータをフィルタリングして多様性と品質を確保し、その結果 VidEgoThink ベンチマークが作成されます。
API ベースの MLLM、オープンソースの画像ベースの MLLM、オープンソースのビデオベースの MLLM の 3 種類のモデルを使用して広範な実験を行っています。
実験結果は、GPT-4o を含むすべての MLLM が、自己中心的なビデオの理解に関連するすべてのタスクにわたってパフォーマンスが低いことを示しています。
これらの調査結果は、Embedded AI の一人称視点のシナリオに効果的に適用するには、基礎モデルに依然として大幅な進歩が必要であることを示唆しています。
結論として、VidEgoThink は、人間の能力に似た自己中心的なビジョンのために MLLM を採用する研究傾向を反映しており、複雑な現実世界の環境における積極的な観察と対話を可能にします。

要約(オリジナル)

Recent advancements in Multi-modal Large Language Models (MLLMs) have opened new avenues for applications in Embodied AI. Building on previous work, EgoThink, we introduce VidEgoThink, a comprehensive benchmark for evaluating egocentric video understanding capabilities. To bridge the gap between MLLMs and low-level control in Embodied AI, we design four key interrelated tasks: video question-answering, hierarchy planning, visual grounding and reward modeling. To minimize manual annotation costs, we develop an automatic data generation pipeline based on the Ego4D dataset, leveraging the prior knowledge and multimodal capabilities of GPT-4o. Three human annotators then filter the generated data to ensure diversity and quality, resulting in the VidEgoThink benchmark. We conduct extensive experiments with three types of models: API-based MLLMs, open-source image-based MLLMs, and open-source video-based MLLMs. Experimental results indicate that all MLLMs, including GPT-4o, perform poorly across all tasks related to egocentric video understanding. These findings suggest that foundation models still require significant advancements to be effectively applied to first-person scenarios in Embodied AI. In conclusion, VidEgoThink reflects a research trend towards employing MLLMs for egocentric vision, akin to human capabilities, enabling active observation and interaction in the complex real-world environments.

arxiv情報

著者 Sijie Cheng,Kechen Fang,Yangyang Yu,Sicheng Zhou,Bohao Li,Ye Tian,Tingguang Li,Lei Han,Yang Liu
発行日 2024-10-15 14:08:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI はコメントを受け付けていません

Discovering Knowledge-Critical Subnetworks in Pretrained Language Models

要約

事前トレーニングされた言語モデル (LM) は、パラメータ内の知識の暗黙的な表現をエンコードします。
ただし、これらの表現を局所化し、相互のもつれを解くことは未解決の問題のままです。
この研究では、事前トレーニングされた言語モデルにさまざまな知識クリティカルなサブネットワーク、つまり、削除された場合にモデルが記憶した特定の知識を正確に抑制できる特定の疎な計算サブグラフが含まれているかどうかを調査します。
我々は、そのようなサブネットワークを発見するために重みとニューロンの両方に適用できる多目的微分可能なマスキングスキームを提案し、それらを使用して元のモデルの動作への悪影響を最小限に抑えながらモデルから特定の知識を正確に削除できることを示します。
複数の GPT2 バリアントで手法を実証し、リレーショナル知識の特定のコレクションを表現するために重要な高度にまばらなサブネットワーク (98% 以上のまばらさ) を明らかにします。
これらのサブネットワークが削除されると、残りのネットワークは初期の能力のほとんどを維持しますが、抑圧された知識を表現するのに苦労します。

要約(オリジナル)

Pretrained language models (LMs) encode implicit representations of knowledge in their parameters. However, localizing these representations and disentangling them from each other remains an open problem. In this work, we investigate whether pretrained language models contain various knowledge-critical subnetworks: particular sparse computational subgraphs that can, if removed, precisely suppress specific knowledge the model has memorized. We propose a multi-objective differentiable masking scheme that can be applied to both weights and neurons to discover such subnetworks and show that we can use them to precisely remove specific knowledge from models while minimizing adverse effects on the behavior of the original model. We demonstrate our method on multiple GPT2 variants, uncovering highly sparse subnetworks (98%+ sparsity) that are critical for expressing specific collections of relational knowledge. When these subnetworks are removed, the remaining network maintains most of its initial abilities but struggles to represent the suppressed knowledge.

arxiv情報

著者 Deniz Bayazit,Negar Foroutan,Zeming Chen,Gail Weiss,Antoine Bosselut
発行日 2024-10-15 14:12:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Discovering Knowledge-Critical Subnetworks in Pretrained Language Models はコメントを受け付けていません

Findings of the WMT 2024 Shared Task on Chat Translation

要約

このペーパーでは、チャット翻訳共有タスクの第 3 版からの調査結果を紹介します。
以前の版と同様に、このタスクにはバイリンガルのカスタマー サポートの会話の翻訳が含まれ、特に会話の文脈が翻訳の品質と評価に与える影響に焦点を当てていました。
また、以前のエディションの言語ペア (英語-ドイツ語、英語-フランス語、英語-ブラジルポルトガル語) に加えて、英語-韓国語、英語-オランダ語という 2 つの新しい言語ペアも含まれています。
8 つのチームから 22 件の主要な提出物と 32 件の対照的な提出物を受け取りました。各言語ペアには少なくとも 3 つのチームが参加していました。
私たちは、自動評価基準と直接評価フレームワークによる人間の判断の両方を使用して、システムを包括的に評価しました。
各言語ペアの公式ランキングは、エージェントと顧客の両方の翻訳方向でのパフォーマンスを考慮した人間の評価スコアに基づいて決定されました。
私たちの分析によると、システムは個々のターンの翻訳には優れているものの、全体的な会話レベルの翻訳品質には改善の余地があることがわかりました。

要約(オリジナル)

This paper presents the findings from the third edition of the Chat Translation Shared Task. As with previous editions, the task involved translating bilingual customer support conversations, specifically focusing on the impact of conversation context in translation quality and evaluation. We also include two new language pairs: English-Korean and English-Dutch, in addition to the set of language pairs from previous editions: English-German, English-French, and English-Brazilian Portuguese. We received 22 primary submissions and 32 contrastive submissions from eight teams, with each language pair having participation from at least three teams. We evaluated the systems comprehensively using both automatic metrics and human judgments via a direct assessment framework. The official rankings for each language pair were determined based on human evaluation scores, considering performance in both translation directions–agent and customer. Our analysis shows that while the systems excelled at translating individual turns, there is room for improvement in overall conversation-level translation quality.

arxiv情報

著者 Wafaa Mohammed,Sweta Agrawal,M. Amin Farajian,Vera Cabarrão,Bryan Eikema,Ana C. Farinha,José G. C. de Souza
発行日 2024-10-15 14:13:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Findings of the WMT 2024 Shared Task on Chat Translation はコメントを受け付けていません

Tokenization and Morphology in Multilingual Language Models: A~Comparative Analysis of mT5 and ByT5

要約

形態論はトークン化に直接的な課題をもたらすため、多言語言語モデリングにとって重要な要素です。
ここでは、トークン化が多言語言語モデルにエンコードされた形態学的知識にどのような影響を与えるかを理解しようとします。
具体的には、mT5 と ByT5 という 2 つの多言語言語モデルを対比することで、トークン化の影響を捉えます。
2 つのモデルは同じアーキテクチャ、トレーニング目標、トレーニング データを共有し、トークン化戦略 (サブワード トークン化と文字レベル トークン化) のみが異なります。
4 つのタスクと 17 の言語について、これらのモデルにエンコードされた形態学的知識を調査したところ、多言語言語モデルは平均パフォーマンスが同等であるにもかかわらず、一部の言語の形態学的システムを他の言語よりもよく学習し、形態学的情報は中間層と後期層でエンコードされていることがわかりました。
特性ベースのモデルでは、相応のプローブ精度を得るためにさらにいくつかのレイヤーが必要です。
最後に、不規則性が多い言語ほど、事前トレーニング データの占有率が高いことでより多くのメリットが得られることを示します。

要約(オリジナル)

Morphology is a crucial factor for multilingual language modeling as it poses direct challenges for tokenization. Here, we seek to understand how tokenization influences the morphological knowledge encoded in multilingual language models. Specifically, we capture the impact of tokenization by contrasting two multilingual language models: mT5 and ByT5. The two models share the same architecture, training objective, and training data and only differ in their tokenization strategies: subword tokenization vs. character-level tokenization. Probing the morphological knowledge encoded in these models on four tasks and 17 languages, our analyses show that multilingual language models learn the morphological systems of some languages better than others despite similar average performance and that morphological information is encoded in the middle and late layers, where characted-based models need a few more layers to yield commensurate probing accuracy. Finally, we show that languages with more irregularities benefit more from having a higher share of the pre-training data.

arxiv情報

著者 Thao Anh Dang,Limor Raviv,Lukas Galke
発行日 2024-10-15 14:14:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Tokenization and Morphology in Multilingual Language Models: A~Comparative Analysis of mT5 and ByT5 はコメントを受け付けていません

Inducing anxiety in large language models can induce bias

要約

大規模言語モデル (LLM) は、公開討論を活性化しながら、機械学習の研究を変革しています。
これらのモデルがいつうまく機能して成功するかだけでなく、なぜ失敗したり不正行為が行われるのかを理解することは、社会との関連性が非常に重要です。
私たちは、不適応行動を説明し修正するために使用される枠組みである精神医学のレンズを、これらのモデルによって生成される出力に向けることを提案します。
私たちは 12 の確立された LLM に焦点を当て、それらに対して精神医学で一般的に使用されるアンケートを実施しました。
私たちの結果は、最新の LLM のうち 6 つが不安アンケートに確実に反応し、人間と同等の不安スコアを生成していることを示しています。
さらに、LLM の反応は、不安を誘発するプロンプトを使用することで予測どおりに変化する可能性があります。
不安誘発は、不安アンケートのLLMのスコアに影響を与えるだけでなく、人種差別や年齢差別などの偏見を測定する以前に確立されたベンチマークにおける彼らの行動にも影響を与えます。
重要なのは、不安を誘発するテキストが大きいほどバイアスの強い増加につながり、プロンプトがどの程度不安を大規模な言語モデルに伝えるかが、応用設定での行動に強い影響を与えることを示唆しています。
これらの結果は、私たちが権威と自律性をますます委任している有能なアルゴリズムを研究するために精神医学から得た方法の有用性を実証しています。

要約(オリジナル)

Large language models (LLMs) are transforming research on machine learning while galvanizing public debates. Understanding not only when these models work well and succeed but also why they fail and misbehave is of great societal relevance. We propose to turn the lens of psychiatry, a framework used to describe and modify maladaptive behavior, to the outputs produced by these models. We focus on twelve established LLMs and subject them to a questionnaire commonly used in psychiatry. Our results show that six of the latest LLMs respond robustly to the anxiety questionnaire, producing comparable anxiety scores to humans. Moreover, the LLMs’ responses can be predictably changed by using anxiety-inducing prompts. Anxiety-induction not only influences LLMs’ scores on an anxiety questionnaire but also influences their behavior in a previously-established benchmark measuring biases such as racism and ageism. Importantly, greater anxiety-inducing text leads to stronger increases in biases, suggesting that how anxiously a prompt is communicated to large language models has a strong influence on their behavior in applied settings. These results demonstrate the usefulness of methods taken from psychiatry for studying the capable algorithms to which we increasingly delegate authority and autonomy.

arxiv情報

著者 Julian Coda-Forno,Kristin Witte,Akshay K. Jagadish,Marcel Binz,Zeynep Akata,Eric Schulz
発行日 2024-10-15 14:20:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Inducing anxiety in large language models can induce bias はコメントを受け付けていません

OLAPH: Improving Factuality in Biomedical Long-form Question Answering

要約

医療分野では、多くのシナリオで大規模言語モデル (LLM) の長文生成機能が必要になります。
具体的には、患者の質問に答える場合、モデルの応答が事実に基づく主張を伝えることが重要であり、それらの主張を評価するための自動化された方法の必要性を強調します。
そこで、生物医学分野に関連する長文の質問応答データセットを使用して再構築されたベンチマーク データセットである MedLFQA を紹介します。
当社は MedLFQA を使用して、事実性のコスト効率の高い自動評価を促進します。
また、費用対効果の高い多面的な自動評価を利用して総合的な好みのセットを構築し、好みの方法で質問に答える、シンプルで斬新なフレームワークである OLAPH も提案します。
私たちのフレームワークは、幻覚を軽減し、重要な医学的主張を含めるために LLM を段階的に訓練することにつながります。
トレーニング中に使用されなかった評価指標であっても、OLAPH フレームワークでトレーニングされた LLM は事実上大幅なパフォーマンスの向上を示していることを強調します。
私たちの調査結果では、OLAPH フレームワークでトレーニングされた 7B LLM は、事実性の点で医療専門家の回答に匹敵する長い回答を提供できることが明らかになりました。
私たちは、私たちの研究により、医療分野における LLM の長文生成能力の評価に光を当てることができると信じています。
コードとデータセットが利用可能です。

要約(オリジナル)

In the medical domain, numerous scenarios necessitate the long-form generation ability of large language models (LLMs). Specifically, when addressing patients’ questions, it is essential that the model’s response conveys factual claims, highlighting the need for an automated method to evaluate those claims. Thus, we introduce MedLFQA, a benchmark dataset reconstructed using long-form question-answering datasets related to the biomedical domain. We use MedLFQA to facilitate a cost-effective automatic evaluations of factuality. We also propose OLAPH, a simple and novel framework that utilizes cost-effective and multifaceted automatic evaluation to construct a synthetic preference set and answers questions in our preferred manner. Our framework leads us to train LLMs step-by-step to reduce hallucinations and include crucial medical claims. We highlight that, even on evaluation metrics not used during training, LLMs trained with our OLAPH framework demonstrate significant performance improvement in factuality. Our findings reveal that a 7B LLM trained with our OLAPH framework can provide long answers comparable to the medical experts’ answers in terms of factuality. We believe that our work could shed light on gauging the long-text generation ability of LLMs in the medical domain. Our code and datasets are available.

arxiv情報

著者 Minbyul Jeong,Hyeon Hwang,Chanwoong Yoon,Taewhoo Lee,Jaewoo Kang
発行日 2024-10-15 14:21:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | OLAPH: Improving Factuality in Biomedical Long-form Question Answering はコメントを受け付けていません

Capturing Minds, Not Just Words: Enhancing Role-Playing Language Models with Personality-Indicative Data

要約

ロール プレイング エージェント (RPA) は、大規模言語モデル (LLM) の人気のあるアプリケーション領域であり、産業界と学術界の両方から大きな関心を集めています。既存の RPA はキャラクターの知識や口調をうまく表現していますが、キャラクターの心を捉えるという課題に直面しています。
特に小規模なロールプレイング言語モデル (RPLM) の場合。
この論文では、性格を示すデータを介して RPLM を強化することを提案します。
具体的には、心理スケールからの質問を活用し、高度な RPA を抽出して、登場人物の心をつかむ対話を生成します。
実験結果は、私たちのデータセットで訓練された RPLM が、一般的な評価と性格関連の評価の両方において高度なロールプレイング能力を発揮することを検証しました。
コードとデータは \href{https://github.com/alienet1109/RolePersonality}{この URL} で入手できます。

要約(オリジナル)

Role-playing agents (RPA) have been a popular application area for large language models (LLMs), attracting significant interest from both industry and academia.While existing RPAs well portray the characters’ knowledge and tones, they face challenges in capturing their minds, especially for small role-playing language models (RPLMs). In this paper, we propose to enhance RPLMs via personality-indicative data. Specifically, we leverage questions from psychological scales and distill advanced RPAs to generate dialogues that grasp the minds of characters. Experimental results validate that RPLMs trained with our dataset exhibit advanced role-playing capabilities for both general and personality-related evaluations. Code and data are available at \href{https://github.com/alienet1109/RolePersonality}{this URL}.

arxiv情報

著者 Yiting Ran,Xintao Wang,Rui Xu,Xinfeng Yuan,Jiaqing Liang,Deqing Yang,Yanghua Xiao
発行日 2024-10-15 14:24:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Capturing Minds, Not Just Words: Enhancing Role-Playing Language Models with Personality-Indicative Data はコメントを受け付けていません