Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs

要約

ペルソナシミュレーションへの以前のアプローチ大規模な言語モデル(LLM)は、通常、基本的な伝記情報の学習、または限られたロールプレイダイアログデータセットを使用してキャラクターの応答をキャプチャすることに依存しています。
しかし、個人の全体的な表現は、表面レベルの事実や会話を超えて、より深い考えや思考になります。
この作業では、文字の言語パターンと特徴的な思考プロセスの両方を再現するように設計されたモデルであるCharacherbotを紹介します。
有名な中国の作家であるLu Xunをケーススタディとして使用して、彼の17のエッセイコレクションから派生した4つのトレーニングタスクを提案します。
これらには、外部の言語構造と知識の習得に焦点を当てたトレーニング前のタスク、および3つの微調整タスクが含まれます:多肢選択質問、生成的な質問への回答、スタイル転送、それぞれがLU Xunの内部アイデアと執筆とLLMを調整します
スタイル。
これらのタスク全体で学習を最適化するために、Charloraパラメーターの更新メカニズムを導入します。一般的な言語スタイルの専門家が他のタスク固有の専門家と協力して、言語スタイルとより深い考えの理解の両方をよりよく研究します。
言語の精度と意見の理解について3つのタスクでキャラクターボットを評価し、適応したメトリックのベースラインを大幅に上回ることを示しています。
この作業が、ディープキャラクターのペルソナシミュレーションLLMに関する将来の研究を促すことを願っています。

要約(オリジナル)

Previous approaches to persona simulation large language models (LLMs) have typically relied on learning basic biographical information, or using limited role-play dialogue datasets to capture a character’s responses. However, a holistic representation of an individual goes beyond surface-level facts or conversations to deeper thoughts and thinking. In this work, we introduce CharacterBot, a model designed to replicate both the linguistic patterns and distinctive thought processes of a character. Using Lu Xun, a renowned Chinese writer, as a case study, we propose four training tasks derived from his 17 essay collections. These include a pre-training task focused on mastering external linguistic structures and knowledge, as well as three fine-tuning tasks: multiple-choice question answering, generative question answering, and style transfer, each aligning the LLM with Lu Xun’s internal ideation and writing style. To optimize learning across these tasks, we introduce a CharLoRA parameter updating mechanism, where a general linguistic style expert collaborates with other task-specific experts to better study both the language style and the understanding of deeper thoughts. We evaluate CharacterBot on three tasks for linguistic accuracy and opinion comprehension, demonstrating that it significantly outperforms the baselines on our adapted metrics. We hope that this work inspires future research on deep character persona simulation LLM.

arxiv情報

著者 Zixiao Wang,Duzhen Zhang,Ishita Agrawal,Shen Gao,Le Song,Xiuying Chen
発行日 2025-02-18 16:11:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs はコメントを受け付けていません

Eager Updates For Overlapped Communication and Computation in DiLoCo

要約

ディロコなどの分散最適化方法は、データセンターなどの複数の分散労働者で非常に大きなモデルをトレーニングするのに効果的であることが示されています。
これらの方法は、更新を2つの部分に分割します。内部最適化フェーズ。ワーカーが独自のローカルデータで複数の最適化ステップを独立して実行すると、内側の更新が同期される外部最適化ステップ。
このようなアプローチでは、労働者がデータセンターである設定では、標準的なデータ並列トレーニングよりも数桁少ない通信が必要ですが、これらのアプローチの限られた通信要件でさえ、各外部最適化ステップで必要なブロッキングがあるため、依然として大きなスローダウンを引き起こす可能性があります。
このホワイトペーパーでは、外部最適化ステップが内部最適化フェーズと完全に重複できるように、計算と通信を重複させることにより、この問題を軽減する手法を調査します。
熱心な更新と呼ばれる特定のバリアントが、労働者間の帯域幅が低い設定で標準的なディロコで競争力のあるパフォーマンスを提供することを示します。

要約(オリジナル)

Distributed optimization methods such as DiLoCo have been shown to be effective in training very large models across multiple distributed workers, such as datacenters. These methods split updates into two parts: an inner optimization phase, where the workers independently execute multiple optimization steps on their own local data, and an outer optimization step, where the inner updates are synchronized. While such approaches require orders of magnitude less communication than standard data-parallel training, in settings where the workers are datacenters, even the limited communication requirements of these approaches can still cause significant slow downs due to the blocking necessary at each outer optimization step. In this paper, we investigate techniques to mitigate this issue by overlapping communication with computation in a manner that allows the outer optimization step to fully overlap with the inner optimization phase. We show that a particular variant, dubbed eager updates, provides competitive performance with standard DiLoCo in settings with low bandwidth between workers.

arxiv情報

著者 Satyen Kale,Arthur Douillard,Yanislav Donchev
発行日 2025-02-18 16:16:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Eager Updates For Overlapped Communication and Computation in DiLoCo はコメントを受け付けていません

Language Barriers: Evaluating Cross-Lingual Performance of CNN and Transformer Architectures for Speech Quality Estimation

要約

客観的な音声品質モデルは、自動化された方法を使用して、人間の認識音声品質を予測することを目的としています。
ただし、言語的、知覚的、およびデータセット固有の違いにより、平均意見スコア(MO)は言語間で異なるため、横断的一般化は大きな課題のままです。
主に英語のデータで訓練されたモデルは、異なる音声、色調、および韻律特性を持つ言語に一般化するのに苦労し、客観的評価の矛盾につながる可能性があります。
この研究では、CNNベースのモデルであるNISQAとトランスベースのオーディオスペクトログラムトランス(AST)モデルの2つの音声品質モデルの横断的性能を調査します。
両方のモデルは、49,000を超える音声サンプルを含む英語のデータセットのみで訓練され、その後、ドイツ語、フランス語、北京語、スウェーデン語、オランダ語での音声で評価されました。
ピアソン相関係数(PCC)とルート平均平方根誤差(RMSE)を使用して、5つの音声品質の寸法(色、不連続性、ラウドネス、ノイズ、MO)にわたってモデルパフォーマンスを分析します。
私たちの調査結果は、ASTはより安定した言語間パフォーマンスを達成しますが、両方のモデルが顕著なバイアスを示すことを示しています。
特に、マンダリンの音声品質予測は、人間のMOSスコアと高く相関していますが、スウェーデンとオランダ語はより大きな予測の課題を提示します。
不連続性は、すべての言語でモデル化することは依然として困難です。
これらの結果は、バランスのとれた多言語データセットと、横断的一般化を改善するためのアーキテクチャ固有の適応の必要性を強調しています。

要約(オリジナル)

Objective speech quality models aim to predict human-perceived speech quality using automated methods. However, cross-lingual generalization remains a major challenge, as Mean Opinion Scores (MOS) vary across languages due to linguistic, perceptual, and dataset-specific differences. A model trained primarily on English data may struggle to generalize to languages with different phonetic, tonal, and prosodic characteristics, leading to inconsistencies in objective assessments. This study investigates the cross-lingual performance of two speech quality models: NISQA, a CNN-based model, and a Transformer-based Audio Spectrogram Transformer (AST) model. Both models were trained exclusively on English datasets containing over 49,000 speech samples and subsequently evaluated on speech in German, French, Mandarin, Swedish, and Dutch. We analyze model performance using Pearson Correlation Coefficient (PCC) and Root Mean Square Error (RMSE) across five speech quality dimensions: coloration, discontinuity, loudness, noise, and MOS. Our findings show that while AST achieves a more stable cross-lingual performance, both models exhibit noticeable biases. Notably, Mandarin speech quality predictions correlate highly with human MOS scores, whereas Swedish and Dutch present greater prediction challenges. Discontinuities remain difficult to model across all languages. These results highlight the need for more balanced multilingual datasets and architecture-specific adaptations to improve cross-lingual generalization.

arxiv情報

著者 Wafaa Wardah,Tuğçe Melike Koçak Büyüktaş,Kirill Shchegelskiy,Sebastian Möller,Robert P. Spang
発行日 2025-02-18 16:22:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Language Barriers: Evaluating Cross-Lingual Performance of CNN and Transformer Architectures for Speech Quality Estimation はコメントを受け付けていません

Lexical categories of stem-forming roots in Mapudüngun verb forms

要約

Mapuche言語の形態学的分析のための計算システムを開発し、さまざまな著者やスタイルのテキストで評価した後、このツールを実装するための基礎として使用されるソースの言語的仮定を検証する必要がありました。
現在の研究では、主な焦点は、形態学的分析システムの開発に使用されるソースで口頭で認識されているMapud \ ‘Ungun Rootsの語彙カテゴリ分類にあります。
この語彙カテゴリ改訂の結果は、検証されたらすぐに実装されるため、計算分析装置に直接利益をもたらします。
さらに、これらの結果がマプチェ語の語彙カテゴリに関するいくつかの不確実性を明確にするのに役立つことが期待されています。
この作業は、真の口頭根の原子価を特定するための予備的なタスクに対処します。その結果は、この記事を補完する後続の研究で提示されます。

要約(オリジナル)

After developing a computational system for morphological analysis of the Mapuche language, and evaluating it with texts from various authors and styles, it became necessary to verify the linguistic assumptions of the source used as the basis for implementing this tool. In the present work, the primary focus is on the lexical category classification of Mapud\’ungun roots recognised as verbal in the source utilised for the development of the morphological analysis system. The results of this lexical category revision directly benefit the computational analyser, as they are implemented as soon as they are verified. Additionally, it is hoped that these results will help clarify some uncertainties about lexical categories in the Mapuche language. This work addresses a preliminary task to identify the valency of true verbal roots, the results of which will be presented in a subsequent work that complements this article.

arxiv情報

著者 Andrés Chandía
発行日 2025-02-18 16:26:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Lexical categories of stem-forming roots in Mapudüngun verb forms はコメントを受け付けていません

On-Device Collaborative Language Modeling via a Mixture of Generalists and Specialists

要約

デバイス上のLLMは、プライバシーを強化し、パーソナライズされたユーザーエクスペリエンスを提供する能力について注目を集めています。
希少なデータを使用して個人学習を促進するために、連邦学習は標準的なアプローチになりました。
ただし、計算リソースの不均一性やデータの不均一性などの課題に直面しています。
comigs($ \ textbf {co} $ llaborative Learningを提案します。

私たちの方法の重要な革新は、ターゲット分布との整合を確保するために、ルーターが個別の検証セットを使用してルーターが最適化されている、専門家の混合学習目標の双レベルの最適化定式化です。
私たちは、理論的分析を提供する交互の最小化で目標を解決します。
私たちの方法は、さまざまな数の専門家の専門家をローカライズしながら、ユーザー全体で一般主義者の専門家を共有し、それによりユーザーの計算リソースに適応し、プライバシーを維持します。
広範な実験を通じて、コミグは、各トークンの世代の一般的な知識とパーソナライズされた知識のバランスを効果的にバランスさせます。
comigは、専門家の専門知識を通じてローカルデータに適応しながら、ジェネラリストの正規化効果に対する過剰な存在に対して堅牢なままであることを実証します。
共同LLMのコードベースをオープンします。

要約(オリジナル)

On-device LLMs have gained increasing attention for their ability to enhance privacy and provide a personalized user experience. To facilitate private learning with scarce data, Federated Learning has become a standard approach. However, it faces challenges such as computational resource heterogeneity and data heterogeneity among end users. We propose CoMiGS ($\textbf{Co}$llaborative learning with a $\textbf{Mi}$xture of $\textbf{G}$eneralists and $\textbf{S}$pecialists), the first approach to address both challenges. A key innovation of our method is the bi-level optimization formulation of the Mixture-of-Experts learning objective, where the router is optimized using a separate validation set to ensure alignment with the target distribution. We solve our objective with alternating minimization, for which we provide a theoretical analysis. Our method shares generalist experts across users while localizing a varying number of specialist experts, thereby adapting to users’ computational resources and preserving privacy. Through extensive experiments, we show CoMiGS effectively balances general and personalized knowledge for each token generation. We demonstrate that CoMiGS remains robust against overfitting-due to the generalists’ regularizing effect-while adapting to local data through specialist expertise. We open source our codebase for collaborative LLMs.

arxiv情報

著者 Dongyang Fan,Bettina Messmer,Nikita Doikov,Martin Jaggi
発行日 2025-02-18 16:27:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | On-Device Collaborative Language Modeling via a Mixture of Generalists and Specialists はコメントを受け付けていません

Adaptive Knowledge Graphs Enhance Medical Question Answering: Bridging the Gap Between LLMs and Evolving Medical Knowledge

要約

大規模な言語モデル(LLM)は、広範な臨床データと医学文献を活用することにより、医療の質問を大幅に進めました。
しかし、医学知識の急速な進化と、ドメイン固有のリソースを手動で更新する労働集約的なプロセスは、これらのシステムの信頼性に課題をもたらします。
これに対処するために、医療知識グラフの構築と継続的な更新を自動化し、推論を統合し、PubMedやWikisearchなどの現在の外部証拠を取得する包括的なフレームワークであるAdaptive Medical Graph-Rag(AMG-RAG)を紹介します。
新しい発見と複雑な医療概念を動的にリンクすることにより、AMG-ragは精度を向上させるだけでなく、医療質問の解釈可能性を向上させます。
MEDQAおよびMEDMCQAベンチマークの評価は、AMG-RAGの有効性を示しており、MEDQAで74.1%のF1スコアを達成し、MEDMCQAで66.34%の精度を達成し、同等のモデルと10〜100倍の両方を上回ります。
特に、これらの改善は、計算オーバーヘッドを増やすことなく達成され、自動化された知識グラフの生成の重要な役割と、最新の信頼できる医療洞察を提供する外部の証拠の取得を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have significantly advanced medical question-answering by leveraging extensive clinical data and medical literature. However, the rapid evolution of medical knowledge and the labor-intensive process of manually updating domain-specific resources pose challenges to the reliability of these systems. To address this, we introduce Adaptive Medical Graph-RAG (AMG-RAG), a comprehensive framework that automates the construction and continuous updating of medical knowledge graphs, integrates reasoning, and retrieves current external evidence, such as PubMed and WikiSearch. By dynamically linking new findings and complex medical concepts, AMG-RAG not only improves accuracy but also enhances interpretability in medical queries. Evaluations on the MEDQA and MEDMCQA benchmarks demonstrate the effectiveness of AMG-RAG, achieving an F1 score of 74.1 percent on MEDQA and an accuracy of 66.34 percent on MEDMCQA, outperforming both comparable models and those 10 to 100 times larger. Notably, these improvements are achieved without increasing computational overhead, highlighting the critical role of automated knowledge graph generation and external evidence retrieval in delivering up-to-date, trustworthy medical insights.

arxiv情報

著者 Mohammad Reza Rezaei,Reza Saadati Fard,Jayson Parker,Rahul G. Krishnan,Milad Lankarany
発行日 2025-02-18 16:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MA | Adaptive Knowledge Graphs Enhance Medical Question Answering: Bridging the Gap Between LLMs and Evolving Medical Knowledge はコメントを受け付けていません

Towards a Design Guideline for RPA Evaluation: A Survey of Large Language Model-Based Role-Playing Agents

要約

ロールプレイングエージェント(RPA)は、さまざまなタスクで人間のような行動をシミュレートするますます人気のあるタイプのLLMエージェントです。
ただし、RPAの評価は、多様なタスク要件とエージェント設計のために困難です。
このペーパーでは、2021年1月から2024年12月の間に公開された1,676の論文を体系的にレビューすることにより、LLMベースのRPAのエビデンスに基づいた、実用的で一般化可能な評価設計ガイドラインを提案します。分析では、6つのエージェント属性、7つのタスク属性、7つの評価メトリックが特定されています。
既存の文献から。
これらの調査結果に基づいて、RPA評価設計ガイドラインを提示して、研究者がより体系的で一貫した評価方法を開発するのを支援します。

要約(オリジナル)

Role-Playing Agent (RPA) is an increasingly popular type of LLM Agent that simulates human-like behaviors in a variety of tasks. However, evaluating RPAs is challenging due to diverse task requirements and agent designs. This paper proposes an evidence-based, actionable, and generalizable evaluation design guideline for LLM-based RPA by systematically reviewing 1,676 papers published between Jan. 2021 and Dec. 2024. Our analysis identifies six agent attributes, seven task attributes, and seven evaluation metrics from existing literature. Based on these findings, we present an RPA evaluation design guideline to help researchers develop more systematic and consistent evaluation methods.

arxiv情報

著者 Chaoran Chen,Bingsheng Yao,Ruishi Zou,Wenyue Hua,Weimin Lyu,Toby Jia-Jun Li,Dakuo Wang
発行日 2025-02-18 16:33:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Towards a Design Guideline for RPA Evaluation: A Survey of Large Language Model-Based Role-Playing Agents はコメントを受け付けていません

Oreo: A Plug-in Context Reconstructor to Enhance Retrieval-Augmented Generation

要約

さまざまなNLPタスクにおける大規模な言語モデル(LLM)の顕著な能力にもかかわらず、パラメトリックな知識が限られており、ドメイン固有の専門知識がないため、幻覚に対して脆弱なままです。
検索された生成(RAG)は、LLMSの知識ベースを強化するために外部ドキュメント検索を組み込むことにより、この課題に対処します。
このアプローチでは、RAGはクエリに応じて外部コーパスからドキュメントチャンクを取得します。クエリは、ダウンストリーム言語モデルのコンテキストとして使用されて回答を生成します。
ただし、これらの検索された知識源には、多くの場合、無関係または誤った情報が含まれており、下流タスクにおけるRAGの有効性を損なうことが含まれます。
この制限を克服するために、ジェネレーターに供給する前に外部の知識ソースを改良するように設計されたコンパクトで効率的でプラグ可能なモジュールを導入します。
モジュールは、最も関連性が高くサポート的な情報を抽出し、簡潔なクエリ固有の形式に再編成することにより、取得したコンテンツを再構築します。
3段階のトレーニングパラダイム – 監視された微調整、対照的なマルチタスク学習、および強化学習ベースのアライメントを含む – は、重要な知識を優先し、発電機の好みに合わせます。
この方法により、LLMはより正確で信頼性が高く、文脈的に適切な出力を生成できます。

要約(オリジナル)

Despite the remarkable capabilities of Large Language Models (LLMs) in various NLP tasks, they remain vulnerable to hallucinations due to their limited parametric knowledge and lack of domain-specific expertise. Retrieval-Augmented Generation (RAG) addresses this challenge by incorporating external document retrieval to augment the knowledge base of LLMs. In this approach, RAG retrieves document chunks from an external corpus in response to a query, which are then used as context for the downstream language model to generate an answer. However, these retrieved knowledge sources often include irrelevant or erroneous information, undermining the effectiveness of RAG in downstream tasks. To overcome this limitation, we introduce a compact, efficient, and pluggable module designed to refine external knowledge sources before feeding them to the generator. The module reconstructs retrieved content by extracting the most relevant and supportive information and reorganising it into a concise, query-specific format. Through a three-stage training paradigm – comprising supervised fine-tuning, contrastive multi-task learning, and reinforcement learning-based alignment – it prioritises critical knowledge and aligns it with the generator’s preferences. This method enables LLMs to produce outputs that are more accurate, reliable, and contextually appropriate.

arxiv情報

著者 Sha Li,Naren Ramarkrishnan
発行日 2025-02-18 16:38:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Oreo: A Plug-in Context Reconstructor to Enhance Retrieval-Augmented Generation はコメントを受け付けていません

Towards Human Understanding of Paraphrase Types in Large Language Models

要約

言い換えは、さまざまな方法で提示された表現を理解する人間の直感的な能力を表しています。
言語モデルの現在の言い換え評価は、主にバイナリアプローチを使用し、特定のテキストの変更の制限された解釈可能性を提供します。
原子の言い換えタイプ(APT)は、言い換えを異なる言語変化に分解し、言語表現の柔軟性(例えば、使用される構文または語彙の変化)の粒状ビューを提供します。
この研究では、10個のAPTと5つのプロンプトテクニックを備えた英語の言い換えを生成する際に、ChatGptに対する人間の好みを評価します。
Apty(Atomic Paraphrase Types)を紹介します。これは、15のアノテーターによる800文レベルおよび単語レベルの注釈のデータセットです。
また、データセットは、RLHFおよびDPOメソッドでモデルを微調整するために使用できるさまざまなタイプのパラフラゼの人間の好みのランキングを提供します。
我々の結果は、ChatGptとDPOトレーニングを受けたLlama 7Bモデルが、追加や削除などの単純なAPTを生成できるが、複雑な構造(たとえば、従属変化など)と闘うことができることを明らかにしています。
この研究は、言語モデルの言い換えのどの側面がすでに理解に成功しているか、そしてとらえどころのないものを理解することに貢献しています。
さらに、キュレーションされたデータセットを使用して、特定の言語機能を備えた言語モデルを開発する方法を示します。

要約(オリジナル)

Paraphrases represent a human’s intuitive ability to understand expressions presented in various different ways. Current paraphrase evaluations of language models primarily use binary approaches, offering limited interpretability of specific text changes. Atomic paraphrase types (APT) decompose paraphrases into different linguistic changes and offer a granular view of the flexibility in linguistic expression (e.g., a shift in syntax or vocabulary used). In this study, we assess the human preferences towards ChatGPT in generating English paraphrases with ten APTs and five prompting techniques. We introduce APTY (Atomic Paraphrase TYpes), a dataset of 800 sentence-level and word-level annotations by 15 annotators. The dataset also provides a human preference ranking of paraphrases with different types that can be used to fine-tune models with RLHF and DPO methods. Our results reveal that ChatGPT and a DPO-trained LLama 7B model can generate simple APTs, such as additions and deletions, but struggle with complex structures (e.g., subordination changes). This study contributes to understanding which aspects of paraphrasing language models have already succeeded at understanding and what remains elusive. In addition, we show how our curated datasets can be used to develop language models with specific linguistic capabilities.

arxiv情報

著者 Dominik Meier,Jan Philip Wahle,Terry Ruas,Bela Gipp
発行日 2025-02-18 16:39:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Towards Human Understanding of Paraphrase Types in Large Language Models はコメントを受け付けていません

Whose story is it? Personalizing story generation by inferring author styles

要約

パーソナライズは、インタラクティブなライティングおよび教育アプリケーションのユーザーエクスペリエンスを改善するために不可欠になりましたが、ストーリー生成におけるその可能性はほとんど未踏のままです。
この作業では、パーソナライズされたストーリー生成のための新しい2段階のパイプラインを提案します。
私たちのアプローチは、最初に著者の過去の作品から暗黙の物語を書く特性を導き、物語理論に触発された著者の執筆シートにそれらを整理します。
第2段階では、このシートを使用して、テーラードペルソナの説明とパーソナライズされたストーリーライティングルールを使用して、著者のペルソナをシミュレートします。
アプローチを有効にして検証するために、Mythosを構築します。これは、多様なストーリー作成設定を反映した5つの異なるソースにわたって64人の著者から590ストーリーのデータセットです。
非個人化されたベースラインとの直接的な比較は、高品質のパーソナライズされたストーリーを生成する際のパイプラインの有効性を示しています。
私たちのパーソナライズされたストーリーは、過去の作品に基づいて著者の執筆スタイルをキャプチャする際に、75%の勝利(ベースラインで14%、11%のタイ)を達成しています。
人間の評価は、著者の執筆シートの高品質を強調し、パーソナライズされたストーリー生成タスクに関する貴重な洞察を提供します。
注目すべき持ち帰りは、Redditなどの特定の情報源からの著作は、AO3のような他の情報源よりもパーソナライズしやすいもので、創造性や言語使用などの物語の側面は、プロットのような他のものよりもパーソナライズしやすいことです。

要約(オリジナル)

Personalization has become essential for improving user experience in interactive writing and educational applications, yet its potential in story generation remains largely unexplored. In this work, we propose a novel two-stage pipeline for personalized story generation. Our approach first infers an author’s implicit story-writing characteristics from their past work and organizes them into an Author Writing Sheet, inspired by narrative theory. The second stage uses this sheet to simulate the author’s persona through tailored persona descriptions and personalized story writing rules. To enable and validate our approach, we construct Mythos, a dataset of 590 stories from 64 authors across five distinct sources that reflect diverse story-writing settings. A head-to-head comparison with a non-personalized baseline demonstrates our pipeline’s effectiveness in generating high-quality personalized stories. Our personalized stories achieve a 75 percent win rate (versus 14 percent for the baseline and 11 percent ties) in capturing authors’ writing style based on their past works. Human evaluation highlights the high quality of our Author Writing Sheet and provides valuable insights into the personalized story generation task. Notable takeaways are that writings from certain sources, such as Reddit, are easier to personalize than others, like AO3, while narrative aspects, like Creativity and Language Use, are easier to personalize than others, like Plot.

arxiv情報

著者 Nischal Ashok Kumar,Chau Minh Pham,Mohit Iyyer,Andrew Lan
発行日 2025-02-18 16:45:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Whose story is it? Personalizing story generation by inferring author styles はコメントを受け付けていません