要約
今日、膨大な量のオンライン情報が、英語やフランス語などの高リソース言語に集中しているため、英語を母国語としない人々には困難が伴う。ウィキペディアはこの不均衡を反映しており、低リソース言語のコンテンツはしばしば古かったり不完全だったりする。最近の研究では、ルールベースの手法を使ってウィキペディアのテーブルの言語間同期を改善しようとしている。これらのアプローチは効果的であるが、複雑さと一般化に苦戦している。本稿では、スケーラブルなソリューションとしてゼロショットプロンプトを用い、多言語情報同期のための大規模言語モデル(LLM)を探索する。古くなったウィキペディアのテーブルを更新する実際のプロセスをシミュレートした情報更新データセットを紹介し、LLMの性能を評価する。その結果、シングルプロンプトアプローチはしばしば最適な結果をもたらさないことが明らかになった。提案手法は、特に情報更新(1.79%)と情報追加(20.58%)において、既存のベースラインを凌駕し、アーキテクチャ間で動的にデータを更新し、充実させるモデルの強みを強調する。
要約(オリジナル)
The vast amount of online information today poses challenges for non-English speakers, as much of it is concentrated in high-resource languages such as English and French. Wikipedia reflects this imbalance, with content in low-resource languages frequently outdated or incomplete. Recent research has sought to improve cross-language synchronization of Wikipedia tables using rule-based methods. These approaches can be effective, but they struggle with complexity and generalization. This paper explores large language models (LLMs) for multilingual information synchronization, using zero-shot prompting as a scalable solution. We introduce the Information Updation dataset, simulating the real-world process of updating outdated Wikipedia tables, and evaluate LLM performance. Our findings reveal that single-prompt approaches often produce suboptimal results, prompting us to introduce a task decomposition strategy that enhances coherence and accuracy. Our proposed method outperforms existing baselines, particularly in Information Updation (1.79%) and Information Addition (20.58%), highlighting the model strength in dynamically updating and enriching data across architectures
arxiv情報
| 著者 | Siddharth Khincha,Tushar Kataria,Ankita Anand,Dan Roth,Vivek Gupta |
| 発行日 | 2025-04-03 13:15:18+00:00 |
| arxivサイト | arxiv_id(pdf) |