APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs

要約

大規模な言語モデル(LLM)アプリケーションを進めるためには、長いコンテキストの推論が重要ですが、そのPrefill速度は依然として重要なボトルネックのままです。
シーケンス並列性戦略や近似の注意メカニズムを介した計算削減などの現在のアプローチは、最適な推論効率を提供することに依然として不足しています。
これにより、入力をより長いシーケンスにスケーリングし、タイムリーに長いコンテキストクエリを処理できます。
これに対処するために、マルチホストのおおよその注意をレバレバルする効率的な長いコンテキスト推論フレームワークであるAPBを紹介します。
APBは、シーケンス並列性フレームワーク内で重要なキー価値ペアの通信メカニズムを導入し、タスクのパフォーマンスを維持しながらより速い推論速度を可能にします。
最適化された分布戦略とともにテーラードFlashAttNカーネルを組み込んでAPBを実装し、多様なモデルと並列性構成をサポートします。
APBは、観察可能なタスクパフォ​​ーマンスの低下なしに、それぞれFlashattn、Ringattn、およびStarattnと比較して、最大9.2x、4.2x、および1.6xのスピードアップを達成します。
https://github.com/thunlp/apbでAPBの実装および実験コードを提供します。

要約(オリジナル)

While long-context inference is crucial for advancing large language model (LLM) applications, its prefill speed remains a significant bottleneck. Current approaches, including sequence parallelism strategies and compute reduction through approximate attention mechanisms, still fall short of delivering optimal inference efficiency. This hinders scaling the inputs to longer sequences and processing long-context queries in a timely manner. To address this, we introduce APB, an efficient long-context inference framework that leverages multi-host approximate attention to enhance prefill speed by reducing compute and enhancing parallelism simultaneously. APB introduces a communication mechanism for essential key-value pairs within a sequence parallelism framework, enabling a faster inference speed while maintaining task performance. We implement APB by incorporating a tailored FlashAttn kernel alongside optimized distribution strategies, supporting diverse models and parallelism configurations. APB achieves speedups of up to 9.2x, 4.2x, and 1.6x compared with FlashAttn, RingAttn, and StarAttn, respectively, without any observable task performance degradation. We provide the implementation and experiment code of APB in https://github.com/thunlp/APB.

arxiv情報

著者 Yuxiang Huang,Mingye Li,Xu Han,Chaojun Xiao,Weilin Zhao,Sun Ao,Hao Zhou,Jie Zhou,Zhiyuan Liu,Maosong Sun
発行日 2025-02-17 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs はコメントを受け付けていません

BIG5-CHAT: Shaping LLM Personalities Through Training on Human-Grounded Data

要約

この作業では、現実的な人格特性をLLMに埋め込むという課題に取り組みます。
以前のアプローチは、主に、リアリズムと妥当性の問題に苦しんでいる、望ましい人格特性に関連する行動を説明する迅速な方法に焦点を当ててきました。
これらの制限に対処するために、人間が言語で性格を表現する方法のモデルを接地するために設計された100,000の対話を含む大規模なデータセットであるBig5-chatを紹介します。
このデータセットを活用して、トレーニングベースの方法として、監督された微調整と直接優先嗜好の最適化を、LLMSをより自然に人間の性格パターンとより自然に整列させることを探ります。
私たちの方法は、BFIやIPIP-Neoなどの人格評価を促すよりも優れており、特性相関は人間のデータに密接に一致しています。
さらに、我々の実験は、より高い良心性、より高い同意性、より低い外向性、および低い神経症を示すように訓練されたモデルが推論タスクのパフォーマンスを改善し、これらの特性が人間の認知パフォーマンスにどのように影響するかについての心理的な発見と協力することを明らかにしています。
私たちの知る限り、この作品は、トレーニングベースの方法が実際の人間の行動から学ぶことでLLMの人格をどのように形成できるかを示す最初の包括的な研究です。

要約(オリジナル)

In this work, we tackle the challenge of embedding realistic human personality traits into LLMs. Previous approaches have primarily focused on prompt-based methods that describe the behavior associated with the desired personality traits, suffering from realism and validity issues. To address these limitations, we introduce BIG5-CHAT, a large-scale dataset containing 100,000 dialogues designed to ground models in how humans express their personality in language. Leveraging this dataset, we explore Supervised Fine-Tuning and Direct Preference Optimization as training-based methods to align LLMs more naturally with human personality patterns. Our methods outperform prompting on personality assessments such as BFI and IPIP-NEO, with trait correlations more closely matching human data. Furthermore, our experiments reveal that models trained to exhibit higher conscientiousness, higher agreeableness, lower extraversion, and lower neuroticism display better performance on reasoning tasks, aligning with psychological findings on how these traits impact human cognitive performance. To our knowledge, this work is the first comprehensive study to demonstrate how training-based methods can shape LLM personalities through learning from real human behaviors.

arxiv情報

著者 Wenkai Li,Jiarui Liu,Andy Liu,Xuhui Zhou,Mona Diab,Maarten Sap
発行日 2025-02-17 18:05:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BIG5-CHAT: Shaping LLM Personalities Through Training on Human-Grounded Data はコメントを受け付けていません

Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset (GIST)

要約

機械翻訳の分野は大きな進歩を達成していますが、特にAIでのドメイン固有の用語翻訳は依然として困難です。
2000年から2023年にわたるトップAIカンファレンスペーパーから抽出された5K用語を含む大規模な多言語AI用語データセットであるGISTを紹介します。この用語は、抽出用のLLMSを組み合わせたハイブリッドフレームワークを使用して、アラビア語、中国語、フランス語、日本、およびロシア語に翻訳されます。
翻訳のための人間の専門知識があります。
データセットの品質は既存のリソースに対してベンチマークされており、クラウドソーシング評価を通じて優れた翻訳の精度を示しています。
GISTは、再翻訳後の改良方法を使用して翻訳ワークフローに統合されます。
ACLアンソロジープラットフォームでのWebデモンストレーションは、その実用的なアプリケーションを強調し、英語以外のスピーカーのアクセシビリティの改善を紹介します。
この作業は、AI用語リソースの重要なギャップに対処し、AI研究におけるグローバルな包括性と協力を促進することを目的としています。

要約(オリジナル)

The field of machine translation has achieved significant advancements, yet domain-specific terminology translation, particularly in AI, remains challenging. We introduce GIST, a large-scale multilingual AI terminology dataset containing 5K terms extracted from top AI conference papers spanning 2000 to 2023. The terms are translated into Arabic, Chinese, French, Japanese, and Russian using a hybrid framework that combines LLMs for extraction with human expertise for translation. The dataset’s quality is benchmarked against existing resources, demonstrating superior translation accuracy through crowdsourced evaluation. GIST is integrated into translation workflows using post-translation refinement methods that require no retraining, where LLM prompting consistently improves BLEU and COMET scores. A web demonstration on the ACL Anthology platform highlights its practical application, showcasing improved accessibility for non-English speakers. This work aims to address critical gaps in AI terminology resources and fosters global inclusivity and collaboration in AI research.

arxiv情報

著者 Jiarui Liu,Iman Ouzzani,Wenkai Li,Lechen Zhang,Tianyue Ou,Houda Bouamor,Zhijing Jin,Mona Diab
発行日 2025-02-17 18:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset (GIST) はコメントを受け付けていません

A-MEM: Agentic Memory for LLM Agents

要約

大規模な言語モデル(LLM)エージェントは、複雑な実世界のタスクに外部ツールを効果的に使用できますが、歴史的な経験を活用するためにメモリシステムが必要です。
現在のメモリシステムは、基本的なストレージと検索を可能にしますが、グラフデータベースを組み込もうとする最近の試みにもかかわらず、洗練されたメモリ組織を欠いています。
さらに、これらのシステムの固定操作と構造は、多様なタスク全体で適応性を制限しています。
この制限に対処するために、このペーパーでは、エージェントの方法で記憶を動的に整理できるLLMエージェント向けの新しいエージェントメモリシステムを提案します。
Zettelkastenメソッドの基本原則に従って、動的なインデックス作成とリンクを通じて相互接続された知識ネットワークを作成するようにメモリシステムを設計しました。
新しいメモリが追加されると、コンテキストの説明、キーワード、タグなど、複数の構造化された属性を含む包括的なメモを生成します。
次に、システムは歴史的な記憶を分析して、関連する接続を特定し、意味のある類似性が存在するリンクを確立します。
さらに、このプロセスにより、メモリの進化が可能になります。新しいメモリが統合されると、既存の歴史的記憶のコンテキスト表現と属性の更新をトリガーでき、メモリネットワークがその理解を継続的に改良することができます。
私たちのアプローチは、Zettelkastenの構造化された組織原則を、エージェント主導の意思決定の柔軟性と組み合わせて、より適応的でコンテキスト認識したメモリ管理を可能にします。
6つの基礎モデルでの経験的実験は、既存のSOTAベースラインに対する優れた改善を示しています。
ソースコードは、https://github.com/wujiangxu/agenticmemoryで入手できます。

要約(オリジナル)

While large language model (LLM) agents can effectively use external tools for complex real-world tasks, they require memory systems to leverage historical experiences. Current memory systems enable basic storage and retrieval but lack sophisticated memory organization, despite recent attempts to incorporate graph databases. Moreover, these systems’ fixed operations and structures limit their adaptability across diverse tasks. To address this limitation, this paper proposes a novel agentic memory system for LLM agents that can dynamically organize memories in an agentic way. Following the basic principles of the Zettelkasten method, we designed our memory system to create interconnected knowledge networks through dynamic indexing and linking. When a new memory is added, we generate a comprehensive note containing multiple structured attributes, including contextual descriptions, keywords, and tags. The system then analyzes historical memories to identify relevant connections, establishing links where meaningful similarities exist. Additionally, this process enables memory evolution – as new memories are integrated, they can trigger updates to the contextual representations and attributes of existing historical memories, allowing the memory network to continuously refine its understanding. Our approach combines the structured organization principles of Zettelkasten with the flexibility of agent-driven decision making, allowing for more adaptive and context-aware memory management. Empirical experiments on six foundation models show superior improvement against existing SOTA baselines. The source code is available at https://github.com/WujiangXu/AgenticMemory.

arxiv情報

著者 Wujiang Xu,Zujie Liang,Kai Mei,Hang Gao,Juntao Tan,Yongfeng Zhang
発行日 2025-02-17 18:36:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | A-MEM: Agentic Memory for LLM Agents はコメントを受け付けていません

Scaling Test-Time Compute Without Verification or RL is Suboptimal

要約

テスト時間計算のスケーリングに大きな進歩にもかかわらず、コミュニティで継続的な議論は、スケーリングにより継続的かつ効率的な改善を可能にするために拡大する方法です。
主に2つのアプローチがあります。まず、成功した検索または思考の痕跡を蒸留することです。
第二に、強化学習(RL)と検索アルゴリズムを導くために、検証(0/1結果の報酬、報酬モデル、または検証剤)を使用します。
この論文では、RLまたは検索に基づいた検証剤ベースの(VB)メソッドを使用したFinetuning LLMSが、固定額のコンピューティング/データ予算を考慮して、検索トレースの蒸留またはクローニングに基づいた検証剤フリー(VF)アプローチよりもはるかに優れていることを証明します。

さらに、テスト時間計算(出力トークンの長さとして測定)とトレーニングデータをスケーリングする際に、ベースの事前訓練を受けたLLMが正しい溶液トレースよりも不均一な分布を提示する場合、VFメソッドのサブオプティマリティはVBと比較して不十分であることを示します(例えば
、異なる長さ、スタイルなど)、およびそれからサンプリングされたトレースの報酬よりも非鋭い分布を認めます。
抗濃縮[erd \ h {o} s、1945]を使用してこの状態を正式にします。
これは、VBメソッドがより漸近的にスケールし、VBとVFメソッドのパフォーマンスギャップがテスト時間の予算が増加するにつれて拡大するという強い結果を意味します。
3/8/32Bサイズの事前訓練を受けたLLMの教訓的および数学推論の両方の問題について、理論を実証的に裏付けています。テスト時間計算のスケーリングには検証が重要であることがわかります。

要約(オリジナル)

Despite substantial advances in scaling test-time compute, an ongoing debate in the community is how it should be scaled up to enable continued and efficient improvements with scaling. There are largely two approaches: first, distilling successful search or thinking traces; and second, using verification (e.g., 0/1 outcome rewards, reward models, or verifiers) to guide reinforcement learning (RL) and search algorithms. In this paper, we prove that finetuning LLMs with verifier-based (VB) methods based on RL or search is far superior to verifier-free (VF) approaches based on distilling or cloning search traces, given a fixed amount of compute/data budget. Further, we show that as we scale test-time compute (measured as the output token length) and training data, suboptimality of VF methods scales poorly compared to VB when the base pre-trained LLM presents a heterogeneous distribution over correct solution traces (e.g., different lengths, styles, etc.) and admits a non-sharp distribution over rewards on traces sampled from it. We formalize this condition using anti-concentration [Erd\H{o}s, 1945]. This implies a stronger result that VB methods scale better asymptotically, with the performance gap between VB and VF methods widening as test-time budget grows. We corroborate our theory empirically on both didactic and math reasoning problems with 3/8/32B-sized pre-trained LLMs, where we find verification is crucial for scaling test-time compute.

arxiv情報

著者 Amrith Setlur,Nived Rajaraman,Sergey Levine,Aviral Kumar
発行日 2025-02-17 18:43:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Scaling Test-Time Compute Without Verification or RL is Suboptimal はコメントを受け付けていません

On the Query Complexity of Verifier-Assisted Language Generation

要約

最近、多数の作品が推論時間アルゴリズム(例:Best-of-N)を提案しており、生成プロセスを支援するために検証剤を組み込んでいます。
彼らの品質効率のトレードオフは、さまざまな制約された生成タスクに経験的にベンチマークされていますが、アルゴリズム設計の状況はまだほとんど理解されていません。
このホワイトペーパーでは、事前に訓練された言語モデルジェネレーターのOracleとプロセス検証を使用して、制約された生成について推論するための数学的フレームワークを開発します。これは、選択の制約を満たす文字列にプレフィックスを拡張できるかどうかを決定できます。
非常に単純な設定でさえ、検証剤へのアクセスが扱いやすい問題(情報理論的または計算的に)を扱いやすいものにする可能性があることを示します。
実際、TokenWiseの拒絶サンプリングのような単純なアルゴリズムでさえ、検証剤へのアクセスから大きなメリットを享受できることを示しています。
経験的には、サンプラーが「バックトラック」(すなわち、生成された最終的なトークンを消去する)が許可されているトークンワイズ拒絶サンプリングの自然な修正が、自然ベースライン(例えば(ブロックワイズ)のサンプリング、核)に堅牢かつ実質的な利点があることを示しています。
サンプリング) – 計算効率、精度、多様性の両方の観点から。

要約(オリジナル)

Recently, a plethora of works have proposed inference-time algorithms (e.g. best-of-n), which incorporate verifiers to assist the generation process. Their quality-efficiency trade-offs have been empirically benchmarked on a variety of constrained generation tasks, but the algorithmic design landscape is still largely poorly understood. In this paper, we develop a mathematical framework for reasoning about constrained generation using a pre-trained language model generator oracle and a process verifier–which can decide whether a prefix can be extended to a string which satisfies the constraints of choice. We show that even in very simple settings, access to a verifier can render an intractable problem (information-theoretically or computationally) to a tractable one. In fact, we show even simple algorithms, like tokenwise rejection sampling, can enjoy significant benefits from access to a verifier. Empirically, we show that a natural modification of tokenwise rejection sampling, in which the sampler is allowed to ‘backtrack’ (i.e., erase the final few generated tokens) has robust and substantive benefits over natural baselines (e.g. (blockwise) rejection sampling, nucleus sampling)–both in terms of computational efficiency, accuracy and diversity.

arxiv情報

著者 Edoardo Botta,Yuchen Li,Aashay Mehta,Jordan T. Ash,Cyril Zhang,Andrej Risteski
発行日 2025-02-17 18:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | On the Query Complexity of Verifier-Assisted Language Generation はコメントを受け付けていません

RA-MTR: A Retrieval Augmented Multi-Task Reader based Approach for Inspirational Quote Extraction from Long Documents

要約

有名な個人からの心に強く訴える引用は、ニュース記事、エッセイ、日常の会話で考えを伝えるためによく使用されます。
この論文では、長いテキストから最も関連性の高い引用を抽出することを目的とする新しいコンテキストベースの引用抽出システムを提案します。
この引用抽出は、最初にベクトルストアベースのレトリバーを使用して、マルチタスクリーダーを適用することにより、まずオープンドメインの質問に応答する問題になります。
3つのコンテキストベースの引用抽出データセットをキュレートし、最先端のパフォーマンスを向上させる新しいマルチタスクフレームワークRA-MTRを導入し、Bow F1スコアで5.08%の最大改善を達成します。

要約(オリジナル)

Inspirational quotes from famous individuals are often used to convey thoughts in news articles, essays, and everyday conversations. In this paper, we propose a novel context-based quote extraction system that aims to extract the most relevant quote from a long text. We formulate this quote extraction as an open domain question answering problem first by employing a vector-store based retriever and then applying a multi-task reader. We curate three context-based quote extraction datasets and introduce a novel multi-task framework RA-MTR that improves the state-of-the-art performance, achieving a maximum improvement of 5.08% in BoW F1-score.

arxiv情報

著者 Sayantan Adak,Animesh Mukherjee
発行日 2025-02-17 18:46:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RA-MTR: A Retrieval Augmented Multi-Task Reader based Approach for Inspirational Quote Extraction from Long Documents はコメントを受け付けていません

OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain

要約

大規模な言語モデル(LLMS)の典型的かつ実用的な応用として、特にLLMがドメイン固有の知識を欠く可能性のある垂直ドメインでは、検索された生成(RAG)技術が広範囲に注目しています。
このホワイトペーパーでは、金融領域に全方向性および自動ラグベンチマーク、Omnievalを紹介します。
私たちのベンチマークは、(1)クエリを5つのタスククラスと16の財務トピックに分類するマトリックスベースのRAGシナリオ評価システムを含む多次元評価フレームワークによって特徴付けられ、多様なクエリシナリオの構造化された評価につながります。
(2)GPT-4ベースの自動生成と人間の注釈を組み合わせた多次元評価データ生成アプローチで、生成されたインスタンスでの人間の評価における87.47 \%の受け入れ比を達成します。
(3)検索と生成のパフォーマンスの両方を評価するマルチステージ評価システムは、RAGパイプラインで包括的な評価をもたらします。
(4)ルールベースおよびLLMベースのものから導き出された堅牢な評価メトリックは、手動注釈とLLM評価者の監視された微調整を通じて評価の信頼性を高めます。
私たちの実験は、大規模なテストデータセットを含むOmnievalの包括性を実証し、多様なトピックとタスクにわたるRAGシステムのパフォーマンスの変動を強調し、RAGモデルが垂直ドメインでの機能を改善する重要な機会を明らかにします。
\ href {https://github.com/ruc-nlpir/omnieval} {https://github.com/ruc-nlpir/omnieval}でベンチマークのコードをオープンします。

要約(オリジナル)

As a typical and practical application of Large Language Models (LLMs), Retrieval-Augmented Generation (RAG) techniques have gained extensive attention, particularly in vertical domains where LLMs may lack domain-specific knowledge. In this paper, we introduce an omnidirectional and automatic RAG benchmark, OmniEval, in the financial domain. Our benchmark is characterized by its multi-dimensional evaluation framework, including (1) a matrix-based RAG scenario evaluation system that categorizes queries into five task classes and 16 financial topics, leading to a structured assessment of diverse query scenarios; (2) a multi-dimensional evaluation data generation approach, which combines GPT-4-based automatic generation and human annotation, achieving an 87.47\% acceptance ratio in human evaluations on generated instances; (3) a multi-stage evaluation system that evaluates both retrieval and generation performance, result in a comprehensive evaluation on the RAG pipeline; and (4) robust evaluation metrics derived from rule-based and LLM-based ones, enhancing the reliability of assessments through manual annotations and supervised fine-tuning of an LLM evaluator. Our experiments demonstrate the comprehensiveness of OmniEval, which includes extensive test datasets and highlights the performance variations of RAG systems across diverse topics and tasks, revealing significant opportunities for RAG models to improve their capabilities in vertical domains. We open source the code of our benchmark in \href{https://github.com/RUC-NLPIR/OmniEval}{https://github.com/RUC-NLPIR/OmniEval}.

arxiv情報

著者 Shuting Wang,Jiejun Tan,Zhicheng Dou,Ji-Rong Wen
発行日 2025-02-17 18:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain はコメントを受け付けていません

SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs

要約

チェーンオブテイ(COT)の推論により、中間推論ステップを生成することにより、大規模な言語モデル(LLMS)が複雑な推論タスクを解決できます。
ただし、既存のアプローチのほとんどは、ハードトークンデコードに焦点を当てており、離散語彙空間内の推論を制約し、常に最適ではない場合があります。
最近の努力は継続的なスペースの推論を探求していますが、彼らはしばしば壊滅的な忘却に苦しみ、適切な指示でゼロショット設定ですでにうまく機能する最先端のLLMへの適用性を制限します。
この課題に対処するために、基礎となるLLMの変更を必要としない連続空間推論のための新しいアプローチを提案します。
具体的には、軽量のアシスタントモデルを使用して、インスタンス固有のソフト思考トークンを最初の思考チェーンとして推測的に生成し、投影モジュールを介してLLMの表現スペースにマッピングされます。
5つの推論ベンチマークでの実験結果は、私たちの方法が、パラメーター効率の高い微調整を通じてLLM推論パフォーマンスを強化することを示しています。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning enables Large Language Models (LLMs) to solve complex reasoning tasks by generating intermediate reasoning steps. However, most existing approaches focus on hard token decoding, which constrains reasoning within the discrete vocabulary space and may not always be optimal. While recent efforts explore continuous-space reasoning, they often suffer from catastrophic forgetting, limiting their applicability to state-of-the-art LLMs that already perform well in zero-shot settings with a proper instruction. To address this challenge, we propose a novel approach for continuous-space reasoning that does not require modifying the underlying LLM. Specifically, we employ a lightweight assistant model to generate instance-specific soft thought tokens speculatively as the initial chain of thoughts, which are then mapped into the LLM’s representation space via a projection module. Experimental results on five reasoning benchmarks demonstrate that our method enhances LLM reasoning performance through supervised, parameter-efficient fine-tuning.

arxiv情報

著者 Yige Xu,Xu Guo,Zhiwei Zeng,Chunyan Miao
発行日 2025-02-17 18:52:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs はコメントを受け付けていません

REVERSUM: A Multi-staged Retrieval-Augmented Generation Method to Enhance Wikipedia Tail Biographies through Personal Narratives

要約

ウィキペディアは、幅広いエンティティに関する事実情報のための非常に貴重なリソースです。
ただし、あまり知られていないエンティティの記事の品質は、よく知られているエンティティの品質に遅れをとっています。
この研究は、自伝や伝記などの個人的な物語を活用することにより、ウィキペディアのBおよびCカテゴリの伝記記事を強化するための新しいアプローチを提案しています。
マルチステージの検索された高級世代のテクニック – Reversumを利用することにより、これらのあまり知られていない記事の情報コンテンツを豊かにすることを目指しています。
私たちの研究は、個人的な物語がウィキペディアの記事の品質を大幅に改善し、以前の研究で十分に活用されていない信頼できる情報の豊富な情報源を提供できることを明らかにしています。
群衆ベースの評価に基づいて、Reversum生成コンテンツは、元のWikipediaの記事との統合性の点で、最高のパフォーマンスのベースラインよりも17%、情報性の点で28.5 \%よりも優れています。
コードとデータは、https://github.com/sayantan11995/wikipedia_enrichmentで入手できます

要約(オリジナル)

Wikipedia is an invaluable resource for factual information about a wide range of entities. However, the quality of articles on less-known entities often lags behind that of the well-known ones. This study proposes a novel approach to enhancing Wikipedia’s B and C category biography articles by leveraging personal narratives such as autobiographies and biographies. By utilizing a multi-staged retrieval-augmented generation technique — REVerSum — we aim to enrich the informational content of these lesser-known articles. Our study reveals that personal narratives can significantly improve the quality of Wikipedia articles, providing a rich source of reliable information that has been underutilized in previous studies. Based on crowd-based evaluation, REVerSum generated content outperforms the best performing baseline by 17% in terms of integrability to the original Wikipedia article and 28.5\% in terms of informativeness. Code and Data are available at: https://github.com/sayantan11995/wikipedia_enrichment

arxiv情報

著者 Sayantan Adak,Pauras Mangesh Meher,Paramita Das,Animesh Mukherjee
発行日 2025-02-17 18:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | REVERSUM: A Multi-staged Retrieval-Augmented Generation Method to Enhance Wikipedia Tail Biographies through Personal Narratives はコメントを受け付けていません