How Much is Enough? The Diminishing Returns of Tokenization Training Data

要約

自然言語処理における重要な初期ステップであるトークン化は、トークン化アルゴリズム、語彙サイズ、トークン化戦略、推論戦略、トレーニングデータコーパスなど、いくつかの重要なパラメーターによって支配されます。
このペーパーでは、見過ごされがちなハイパーパラメーターであるトークン剤トレーニングデータサイズの影響を調査します。
1GBから900GBの範囲の英語トレーニングデータを使用して、さまざまな語彙サイズでBPE、Unigramlm、およびワードピーストークンザーをトレーニングします。
私たちの調査結果は、トレーニングデータサイズが約150GBを超えて増加するにつれてリターンが減少することを明らかにし、追加データを通じて達成可能なトークン化品質の改善の実用的な制限を示唆しています。
この現象を分析し、飽和効果をトークン化前段階によって導入された制約に起因します。
次に、英語から類型的に遠い言語であるロシア語のデータを実験することにより、これらの発見が一般化できる程度を示します。
ロシア語のテキストでは、200GBのデータからトークナイザーをトレーニングした後、収益が減少することを観察します。これは、英語でトレーニングするときよりも約33%多いです。
これらの結果は、大きなコーパスでのトレーニングに必要な計算を削減することにより、トークン化プロセスを最適化するための貴重な洞察を提供し、トークン化アルゴリズムの将来の研究のための有望な方向性を提案します。

要約(オリジナル)

Tokenization, a crucial initial step in natural language processing, is governed by several key parameters, such as the tokenization algorithm, vocabulary size, pre-tokenization strategy, inference strategy, and training data corpus. This paper investigates the impact of an often-overlooked hyperparameter, tokenizer training data size. We train BPE, UnigramLM, and WordPiece tokenizers across various vocabulary sizes using English training data ranging from 1GB to 900GB. Our findings reveal diminishing returns as training data size increases beyond roughly 150GB, suggesting a practical limit to the improvements in tokenization quality achievable through additional data. We analyze this phenomenon and attribute the saturation effect to constraints introduced by the pre-tokenization stage. We then demonstrate the extent to which these findings can generalize by experimenting on data in Russian, a language typologically distant from English. For Russian text, we observe diminishing returns after training a tokenizer from 200GB of data, which is approximately 33% more than when training on English. These results provide valuable insights for optimizing the tokenization process by reducing the compute required for training on large corpora and suggest promising directions for future research in tokenization algorithms.

arxiv情報

著者 Varshini Reddy,Craig W. Schmidt,Yuval Pinter,Chris Tanner
発行日 2025-06-13 13:24:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL | How Much is Enough? The Diminishing Returns of Tokenization Training Data はコメントを受け付けていません

Long-Short Alignment for Effective Long-Context Modeling in LLMs

要約

大規模な言語モデル(LLM)は、印象的なパフォーマンスと驚くべき緊急特性を示しています。
ただし、それらの有効性は、変圧器アーキテクチャの固定コンテキストウィンドウによって制限されたままであり、長いコンテキストモデリングの課題をもたらします。
これらの課題の中で、長さの一般化 – トレーニング中に見られるものよりも長くシーケンスに一般化する能力 – は、古典的および基本的な問題です。
この作業では、長さの一般化に関する新鮮な視点を提案し、ポジショナルエンコーディングやデータ構造などの入力機能に従来の重点からモデルの出力分布に焦点を合わせます。
具体的には、合成タスクに関するケーススタディを通じて、\ textBf {long-shortアラインメント}の重要な役割を強調します。これは、さまざまな長さのシーケンス全体にわたる出力分布の一貫性です。
この洞察を自然言語のタスクに拡張して、この現象を定量化するためにロングショートミスアライメントと呼ばれるメトリックを提案し、メトリックと長さの一般化パフォーマンスの間の強い相関関係を明らかにします。
これらの調査結果に基づいて、トレーニング中の長期的なアライメントを促進する正規化用語を開発します。
広範な実験は、当社のアプローチの有効性を検証し、LLMでより効果的な長いコンテキストモデリングを達成するための新しい洞察を提供します。
コードはhttps://github.com/pku-ml/longshortalignmentで入手できます。

要約(オリジナル)

Large language models (LLMs) have exhibited impressive performance and surprising emergent properties. However, their effectiveness remains limited by the fixed context window of the transformer architecture, posing challenges for long-context modeling. Among these challenges, length generalization — the ability to generalize to sequences longer than those seen during training — is a classical and fundamental problem. In this work, we propose a fresh perspective on length generalization, shifting the focus from the conventional emphasis on input features such as positional encodings or data structures to the output distribution of the model. Specifically, through case studies on synthetic tasks, we highlight the critical role of \textbf{long-short alignment} — the consistency of output distributions across sequences of varying lengths. Extending this insight to natural language tasks, we propose a metric called Long-Short Misalignment to quantify this phenomenon, uncovering a strong correlation between the metric and length generalization performance. Building on these findings, we develop a regularization term that promotes long-short alignment during training. Extensive experiments validate the effectiveness of our approach, offering new insights for achieving more effective long-context modeling in LLMs. Code is available at https://github.com/PKU-ML/LongShortAlignment.

arxiv情報

著者 Tianqi Du,Haotian Huang,Yifei Wang,Yisen Wang
発行日 2025-06-13 13:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Long-Short Alignment for Effective Long-Context Modeling in LLMs はコメントを受け付けていません

Women, Infamous, and Exotic Beings: What Honorific Usages in Wikipedia Reflect on the Cross-Cultural Sociolinguistic Norms?

要約

Wikipediaは、大規模な多言語でコミュニティ主導のプラットフォームであり、自然言語処理(NLP)にとって貴重なリソースですが、栄誉の豊富な言語での敬意を表した使用の一貫性は未定です。
敬意、微妙でありながら深遠な言語マーカーは、社会的階層、礼儀正しさ、文化的価値をエンコードしますが、ウィキペディアの編集ガイドラインは、そのような形が文法的および社会的に一般的である言語での使用に関する明確な基準を欠いています。
このペーパーでは、ヒンディー語とベンガル語のウィキペディアの記事におけるサードパーソンの敬語代名詞と動詞形式の大規模な分析を通じて、このギャップについて説明します。
大規模な言語モデル(LLM)を使用して、性別、年齢、名声、文化的起源などの社会人口統計上の機能のために、言語あたり10,000件の記事を自動的に注釈します。
(i)記事全体での敬意を表した使用の一貫性、(ii)矛盾が社会文化的要因とどのように相関するか、および(iii)言語間の明示的または暗黙的なバイアスの存在を存在する方法を調査します。
私たちは、敬語の使用はヒンディー語よりもベンガル語で一貫して一般的であることがわかりますが、非自尊心のある形は、両方の悪名高い、少年、エキゾチックなエンティティにとってより頻繁です。
特に、性別バイアスは両方の言語、特にヒンディー語で出現します。特に、男性は女性よりも名誉を受ける可能性が高くなります。
私たちの分析では、ウィキペディアが名誉ある使用のための言語固有の編集ガイドラインを開発する必要性を強調しています。

要約(オリジナル)

Wikipedia, as a massively multilingual, community-driven platform, is a valuable resource for Natural Language Processing (NLP), yet the consistency of honorific usage in honorific-rich languages remains underexplored. Honorifics, subtle yet profound linguistic markers, encode social hierarchies, politeness norms, and cultural values, but Wikipedia’s editorial guidelines lack clear standards for their usage in languages where such forms are grammatically and socially prevalent. This paper addresses this gap through a large-scale analysis of third-person honorific pronouns and verb forms in Hindi and Bengali Wikipedia articles. Using Large Language Models (LLM), we automatically annotate 10,000 articles per language for honorific usage and socio-demographic features such as gender, age, fame, and cultural origin. We investigate: (i) the consistency of honorific usage across articles, (ii) how inconsistencies correlate with socio-cultural factors, and (iii) the presence of explicit or implicit biases across languages. We find that honorific usage is consistently more common in Bengali than Hindi, while non-honorific forms are more frequent for infamous, juvenile, and exotic entities in both. Notably, gender bias emerges in both languages, particularly in Hindi, where men are more likely to receive honorifics than women. Our analysis highlights the need for Wikipedia to develop language-specific editorial guidelines for honorific usage.

arxiv情報

著者 Sourabrata Mukherjee,Atharva Mehta,Soumya Teotia,Sougata Saha,Akhil Arora,Monojit Choudhury
発行日 2025-06-13 13:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Women, Infamous, and Exotic Beings: What Honorific Usages in Wikipedia Reflect on the Cross-Cultural Sociolinguistic Norms? はコメントを受け付けていません

MEDDxAgent: A Unified Modular Agent Framework for Explainable Automatic Differential Diagnosis

要約

鑑別診断(DDX)は、臨床的意思決定の基本的でありながら複雑な側面であり、医師は症状、前件、および医学知識に基づいて、可能な病気のランク付けされたリストを反復的に改良します。
大規模な言語モデル(LLMS)の最近の進歩はDDXのサポートに有望であることが示されていますが、既存のアプローチは、単一データセットの評価、コンポーネントの孤立した最適化、完全な患者プロファイルに関する非現実的な仮定、および単一のアトーム診断などの重要な制限に直面しています。
完全な患者プロファイルにアクセスできると仮定するのではなく、診断推論が反復学習を通じて進化するインタラクティブDDX向けに設計されたモジュラー説明可能なDDXエージェント(MEDDXAGENT)フレームワークを導入します。
MedDxagentは、3つのモジュラーコンポーネントを統合します。(1)オーケストレーター(DDXDriver)、(2)シミュレーターを採用する履歴、および(3)知識の検索および診断戦略のための2つの専門的なエージェント。
堅牢な評価を確保するために、呼吸、皮膚、希少疾患をカバーする包括的なDDXベンチマークを導入します。
単一ターンの診断アプローチを分析し、最初に患者プロファイルが利用できない場合の反復改良の重要性を実証します。
当社の幅広い評価は、MedDxagentが大小のLLMと小さなLLMの両方でインタラクティブDDXの10%以上の精度の向上を達成し、その診断推論プロセスに重要な説明可能性を提供することを示しています。

要約(オリジナル)

Differential Diagnosis (DDx) is a fundamental yet complex aspect of clinical decision-making, in which physicians iteratively refine a ranked list of possible diseases based on symptoms, antecedents, and medical knowledge. While recent advances in large language models (LLMs) have shown promise in supporting DDx, existing approaches face key limitations, including single-dataset evaluations, isolated optimization of components, unrealistic assumptions about complete patient profiles, and single-attempt diagnosis. We introduce a Modular Explainable DDx Agent (MEDDxAgent) framework designed for interactive DDx, where diagnostic reasoning evolves through iterative learning, rather than assuming a complete patient profile is accessible. MEDDxAgent integrates three modular components: (1) an orchestrator (DDxDriver), (2) a history taking simulator, and (3) two specialized agents for knowledge retrieval and diagnosis strategy. To ensure robust evaluation, we introduce a comprehensive DDx benchmark covering respiratory, skin, and rare diseases. We analyze single-turn diagnostic approaches and demonstrate the importance of iterative refinement when patient profiles are not available at the outset. Our broad evaluation demonstrates that MEDDxAgent achieves over 10% accuracy improvements in interactive DDx across both large and small LLMs, while offering critical explainability into its diagnostic reasoning process.

arxiv情報

著者 Daniel Rose,Chia-Chien Hung,Marco Lepri,Israa Alqassem,Kiril Gashteovski,Carolin Lawrence
発行日 2025-06-13 13:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MEDDxAgent: A Unified Modular Agent Framework for Explainable Automatic Differential Diagnosis はコメントを受け付けていません

Persona-driven Simulation of Voting Behavior in the European Parliament with Large Language Models

要約

大規模な言語モデル(LLMS)は、政治的言説を理解したり、生み出したりするための顕著な能力を表示しますが、進歩的な左寄りのバイアスを一貫して表示することがわかっています。
同時に、いわゆるペルソナまたはアイデンティティプロンプトは、基本モデルが整合していない社会経済グループと一致するLLMの動作を生成することが示されています。
この作業では、限られた情報を使用してゼロショットペルソナが個々の投票決定を正確に予測できるかどうかを分析し、集約により、多様な一連のポリシーでヨーロッパグループの位置を正確に予測します。
予測が反事実的な議論、異なるペルソナプロンプト、および生成方法に対して安定しているかどうかを評価します。
最後に、約0.793の加重F1スコアで、欧州議会のメンバーの投票行動を合理的にシミュレートできることがわかりました。
2024年の欧州議会と当社のコードの政治家のペルソナデータセットは、https://github.com/dess-mannheim/european_parliament_simulationで入手できます。

要約(オリジナル)

Large Language Models (LLMs) display remarkable capabilities to understand or even produce political discourse, but have been found to consistently display a progressive left-leaning bias. At the same time, so-called persona or identity prompts have been shown to produce LLM behavior that aligns with socioeconomic groups that the base model is not aligned with. In this work, we analyze whether zero-shot persona prompting with limited information can accurately predict individual voting decisions and, by aggregation, accurately predict positions of European groups on a diverse set of policies. We evaluate if predictions are stable towards counterfactual arguments, different persona prompts and generation methods. Finally, we find that we can simulate voting behavior of Members of the European Parliament reasonably well with a weighted F1 score of approximately 0.793. Our persona dataset of politicians in the 2024 European Parliament and our code are available at https://github.com/dess-mannheim/european_parliament_simulation.

arxiv情報

著者 Maximilian Kreutner,Marlene Lutz,Markus Strohmaier
発行日 2025-06-13 14:02:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Persona-driven Simulation of Voting Behavior in the European Parliament with Large Language Models はコメントを受け付けていません

Are Multimodal Large Language Models Pragmatically Competent Listeners in Simple Reference Resolution Tasks?

要約

カラーパッチやカラーグリッドなどのシンプルで抽象的な視覚刺激を特徴とする参照解像度タスクで、マルチモーダルの大手言語モデルの言語能力を調査します。
タスクは、今日の言語モデルにとって挑戦的ではないように思えるかもしれませんが、人間のダイアドにとっては簡単であるため、MLLMの実用的な能力の非常に関連性の高いプローブであると考えています。
私たちの結果と分析は、実際に、色の説明のコンテキスト依存的な解釈などの基本的な実用的な能力が、最先端のMLLMの主要な課題であることを示唆しています。

要約(オリジナル)

We investigate the linguistic abilities of multimodal large language models in reference resolution tasks featuring simple yet abstract visual stimuli, such as color patches and color grids. Although the task may not seem challenging for today’s language models, being straightforward for human dyads, we consider it to be a highly relevant probe of the pragmatic capabilities of MLLMs. Our results and analyses indeed suggest that basic pragmatic capabilities, such as context-dependent interpretation of color descriptions, still constitute major challenges for state-of-the-art MLLMs.

arxiv情報

著者 Simeon Junker,Manar Ali,Larissa Koch,Sina Zarrieß,Hendrik Buschmeier
発行日 2025-06-13 14:09:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Are Multimodal Large Language Models Pragmatically Competent Listeners in Simple Reference Resolution Tasks? はコメントを受け付けていません

Word Sense Detection Leveraging Maximum Mean Discrepancy

要約

単語感覚分析は、言語的および社会的背景を解釈するための重要な分析作業です。
センスの変化の検出という言葉は、時間の経過とともに単語の意味のシフトを特定して解釈するタスクです。
このペーパーでは、MMDセンス分析を提案します。これは、最大平均不一致(MMD)を活用して意味的に意味のある変数を選択し、期間にわたって変化を定量化する新しいアプローチです。
この方法により、感覚シフトを受けている単語の識別と、複数の歴史的期間にわたる進化の説明の両方が可能になります。
私の知る限り、これはWord Sense Change検出へのMMDの最初のアプリケーションです。
経験的評価の結果は、提案されたアプローチの有効性を示しています。

要約(オリジナル)

Word sense analysis is an essential analysis work for interpreting the linguistic and social backgrounds. The word sense change detection is a task of identifying and interpreting shifts in word meanings over time. This paper proposes MMD-Sense-Analysis, a novel approach that leverages Maximum Mean Discrepancy (MMD) to select semantically meaningful variables and quantify changes across time periods. This method enables both the identification of words undergoing sense shifts and the explanation of their evolution over multiple historical periods. To my knowledge, this is the first application of MMD to word sense change detection. Empirical assessment results demonstrate the effectiveness of the proposed approach.

arxiv情報

著者 Kensuke Mitsuzawa
発行日 2025-06-13 14:11:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML | Word Sense Detection Leveraging Maximum Mean Discrepancy はコメントを受け付けていません

On the Performance of LLMs for Real Estate Appraisal

要約

不動産市場は世界経済にとって不可欠ですが、重要な情報の非対称性に苦しんでいます。
この調査では、最適化されたコンテキスト学習(ICL)戦略を通じて競争力のある解釈可能な住宅価格の見積もりを生成することにより、大規模な言語モデル(LLM)が不動産洞察へのアクセスを民主化する方法を調べます。
多様な国際住宅データセットで主要なLLMを体系的に評価し、ゼロショット、少数のショット、市場レポート強化、およびハイブリッドプロンプトのテクニックを比較します。
我々の結果は、LLMSがプロパティサイズやアメニティなどの快楽変数を効果的に活用して、意味のある推定値を生成することを示しています。
従来の機械学習モデルは純粋な予測精度のために強力なままですが、LLMSはよりアクセスしやすく、インタラクティブで解釈可能な代替品を提供します。
自明では慎重な解釈には必要ですが、LLMは最先端のモデルと一致して予測を説明し、信頼性を確認していることがわかります。
特徴の類似性と地理的近接性に基づいて慎重に選択されたコンテキスト内の例は、LLMのパフォーマンスを大幅に向上させますが、LLMSは価格間隔の自信過剰と限られた空間推論に苦労しています。
迅速な最適化を通じて、構造化された予測タスクの実用的なガイダンスを提供します。
私たちの調査結果は、不動産評価の透明性を改善し、利害関係者に実用的な洞察を提供するLLMSの可能性を強調しています。

要約(オリジナル)

The real estate market is vital to global economies but suffers from significant information asymmetry. This study examines how Large Language Models (LLMs) can democratize access to real estate insights by generating competitive and interpretable house price estimates through optimized In-Context Learning (ICL) strategies. We systematically evaluate leading LLMs on diverse international housing datasets, comparing zero-shot, few-shot, market report-enhanced, and hybrid prompting techniques. Our results show that LLMs effectively leverage hedonic variables, such as property size and amenities, to produce meaningful estimates. While traditional machine learning models remain strong for pure predictive accuracy, LLMs offer a more accessible, interactive and interpretable alternative. Although self-explanations require cautious interpretation, we find that LLMs explain their predictions in agreement with state-of-the-art models, confirming their trustworthiness. Carefully selected in-context examples based on feature similarity and geographic proximity, significantly enhance LLM performance, yet LLMs struggle with overconfidence in price intervals and limited spatial reasoning. We offer practical guidance for structured prediction tasks through prompt optimization. Our findings highlight LLMs’ potential to improve transparency in real estate appraisal and provide actionable insights for stakeholders.

arxiv情報

著者 Margot Geerts,Manon Reusens,Bart Baesens,Seppe vanden Broucke,Jochen De Weerdt
発行日 2025-06-13 14:14:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | On the Performance of LLMs for Real Estate Appraisal はコメントを受け付けていません

Large Language Models for Toxic Language Detection in Low-Resource Balkan Languages

要約

特に限られた節度ツールを持つ地域では、オンラインの有毒言語は真の害を引き起こします。
この研究では、セルビア語、クロアチア語、ボスニア語で、ラベル付きデータが限られている言語で、大規模な言語モデルが有毒なコメントをどのように処理するかを評価します。
音楽、政治、スポーツ、モデリング、インフルエンサーコンテンツ、性差別の議論、一般的なトピックなど、多様なカテゴリのビデオから引き出された4,500のYouTubeとTiktokのコメントのデータセットを作成し、手動でラベル付けしました。
4つのモデル(GPT-3.5 Turbo、GPT-4.1、GEMINI 1.5 Pro、およびClaude 3 Opus)を2つのモードでテストしました:ゼロショットとコンテキストの高度化。
精度、リコール、F1スコア、精度、偽陽性率を測定しました。
短いコンテキストスニペットを含むリコールを平均で約0.12に引き上げ、F1スコアを最大0.10に改善しましたが、誤検知が増加することもあります。
最高のバランスは、コンテキストの高度モードでジェミニから来て、F1スコア0.82と0.82の精度に達しましたが、ゼロショットGPT-4.1は精度でLEDされ、最低の誤報がありました。
最小限のコンテキストを追加することで、リソースの低い設定での有毒言語の検出を改善し、迅速な設計やしきい値のキャリブレーションの改善などの実用的な戦略を示唆する方法を示します。
これらの結果は、迅速な設計だけで、サービスを受けていないバルカン語のコミュニティの毒性検出に有意義な利益をもたらす可能性があることを示しています。

要約(オリジナル)

Online toxic language causes real harm, especially in regions with limited moderation tools. In this study, we evaluate how large language models handle toxic comments in Serbian, Croatian, and Bosnian, languages with limited labeled data. We built and manually labeled a dataset of 4,500 YouTube and TikTok comments drawn from videos across diverse categories, including music, politics, sports, modeling, influencer content, discussions of sexism, and general topics. Four models (GPT-3.5 Turbo, GPT-4.1, Gemini 1.5 Pro, and Claude 3 Opus) were tested in two modes: zero-shot and context-augmented. We measured precision, recall, F1 score, accuracy and false positive rates. Including a short context snippet raised recall by about 0.12 on average and improved F1 score by up to 0.10, though it sometimes increased false positives. The best balance came from Gemini in context-augmented mode, reaching an F1 score of 0.82 and accuracy of 0.82, while zero-shot GPT-4.1 led on precision and had the lowest false alarms. We show how adding minimal context can improve toxic language detection in low-resource settings and suggest practical strategies such as improved prompt design and threshold calibration. These results show that prompt design alone can yield meaningful gains in toxicity detection for underserved Balkan language communities.

arxiv情報

著者 Amel Muminovic,Amela Kadric Muminovic
発行日 2025-06-13 15:01:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models for Toxic Language Detection in Low-Resource Balkan Languages はコメントを受け付けていません

Post Persona Alignment for Multi-Session Dialogue Generation

要約

マルチセッションのペルソナベースの対話生成は、長期的な一貫性を維持し、多様でパーソナライズされた応答を生成する際の課題を提示します。
大規模な言語モデル(LLM)はシングルセッションの対話に優れていますが、拡張された相互作用全体でペルソナの忠実さと会話の一貫性を維持するのに苦労しています。
既存の方法は通常、応答生成の前にペルソナ情報を取得します。これは、多様性を制約し、一般的な出力をもたらす可能性があります。
このプロセスを逆転させる新しい2段階のフレームワークであるPostペルソナアライメント(PPA)を提案します。
PPAは、最初に対話のコンテキストのみに基づいて一般的な応答を生成し、次にクエリとして応答を使用して関連するペルソナメモリを取得し、最後にスピーカーのペルソナと一致する応答を改善します。
この事後整合戦略は、一貫性とパーソナライズを維持しながら、自然性と多様性を促進します。
マルチセッションLLM生成ダイアログデータの実験は、PPAが一貫性、多様性、およびペルソナ関連の事前のアプローチを大幅に上回り、長期的なパーソナライズされたダイアログ生成に対してより柔軟で効果的なパラダイムを提供することを示しています。

要約(オリジナル)

Multi-session persona-based dialogue generation presents challenges in maintaining long-term consistency and generating diverse, personalized responses. While large language models (LLMs) excel in single-session dialogues, they struggle to preserve persona fidelity and conversational coherence across extended interactions. Existing methods typically retrieve persona information before response generation, which can constrain diversity and result in generic outputs. We propose Post Persona Alignment (PPA), a novel two-stage framework that reverses this process. PPA first generates a general response based solely on dialogue context, then retrieves relevant persona memories using the response as a query, and finally refines the response to align with the speaker’s persona. This post-hoc alignment strategy promotes naturalness and diversity while preserving consistency and personalization. Experiments on multi-session LLM-generated dialogue data demonstrate that PPA significantly outperforms prior approaches in consistency, diversity, and persona relevance, offering a more flexible and effective paradigm for long-term personalized dialogue generation.

arxiv情報

著者 Yi-Pei Chen,Noriki Nishida,Hideki Nakayama,Yuji Matsumoto
発行日 2025-06-13 15:04:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Post Persona Alignment for Multi-Session Dialogue Generation はコメントを受け付けていません