The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models

要約

While reasoning and multilingual capabilities in Language Models (LMs) have achieved remarkable progress in recent years, their integration into a unified paradigm, multilingual reasoning, is at a nascent stage.
Multilingual reasoning requires language models to handle logical reasoning across languages while addressing misalignment, biases, and challenges in low-resource settings.
この調査では、LMSでの多言語推論の最初の詳細なレビューを提供します。
この調査では、多言語の推論にLMSを活用する既存の方法の体系的な概要を提供し、特に言語モデルを適用することの課題、動機、および基礎的側面を多様な言語を超えて適用することの基礎的側面を概説します。
LMSでの多言語推論のトレーニングに使用される標準のデータリソースと、多言語機能を評価するために採用された評価ベンチマークの概要を説明します。
次に、これらのベンチマークでのさまざまな最先端の方法とそのパフォーマンスを分析します。
最後に、LMSの多言語推論を改善するための将来の研究の機会を探り、多様な言語と複雑な推論タスクを処理する能力の向上に焦点を当てています。

要約(オリジナル)

While reasoning and multilingual capabilities in Language Models (LMs) have achieved remarkable progress in recent years, their integration into a unified paradigm, multilingual reasoning, is at a nascent stage. Multilingual reasoning requires language models to handle logical reasoning across languages while addressing misalignment, biases, and challenges in low-resource settings. This survey provides the first in-depth review of multilingual reasoning in LMs. In this survey, we provide a systematic overview of existing methods that leverage LMs for multilingual reasoning, specifically outlining the challenges, motivations, and foundational aspects of applying language models to reason across diverse languages. We provide an overview of the standard data resources used for training multilingual reasoning in LMs and the evaluation benchmarks employed to assess their multilingual capabilities. Next, we analyze various state-of-the-art methods and their performance on these benchmarks. Finally, we explore future research opportunities to improve multilingual reasoning in LMs, focusing on enhancing their ability to handle diverse languages and complex reasoning tasks.

arxiv情報

著者 Akash Ghosh,Debayan Datta,Sriparna Saha,Chirag Agarwal
発行日 2025-02-13 16:25:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models はコメントを受け付けていません

SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation

要約

強力な全天候型地球観測ツールとして、合成開口レーダー(SAR)リモートセンシングにより、重要な軍事偵察、海上監視、インフラストラクチャの監視が可能になります。
ビジョン言語モデル(VLM)は、自然言語の処理と画像の理解において顕著な進歩を遂げていますが、ドメインの専門知識が不十分なため、プロフェッショナルドメインではそのアプリケーションが限られたままです。
このペーパーでは、約200万の高品質の画像テキストペアを含むSarchat-2Mという名前のSAR画像の最初の大規模なマルチモーダルダイアログデータセットを革新的に提案し、詳細なターゲット注釈を備えた多様なシナリオを網羅しています。
このデータセットは、視覚的理解やオブジェクト検出タスクなどのいくつかの重要なタスクをサポートするだけでなく、独自の革新的な側面も持っています。この研究は、SARドメインの視覚言語データセットとベンチマークを開発し、SAR画像解釈のVLMS機能を可能にし、評価します。
これは、さまざまなリモートセンシング垂直ドメインでマルチモーダルデータセットを構築するためのパラダイムフレームワークを提供します。
16の主流VLMでの実験を通じて、データセットの有効性が完全に検証されました。
このプロジェクトは、https://github.com/jimmyma99/sarchatでリリースされます。

要約(オリジナル)

As a powerful all-weather Earth observation tool, synthetic aperture radar (SAR) remote sensing enables critical military reconnaissance, maritime surveillance, and infrastructure monitoring. Although Vision language models (VLMs) have made remarkable progress in natural language processing and image understanding, their applications remain limited in professional domains due to insufficient domain expertise. This paper innovatively proposes the first large-scale multimodal dialogue dataset for SAR images, named SARChat-2M, which contains approximately 2 million high-quality image-text pairs, encompasses diverse scenarios with detailed target annotations. This dataset not only supports several key tasks such as visual understanding and object detection tasks, but also has unique innovative aspects: this study develop a visual-language dataset and benchmark for the SAR domain, enabling and evaluating VLMs’ capabilities in SAR image interpretation, which provides a paradigmatic framework for constructing multimodal datasets across various remote sensing vertical domains. Through experiments on 16 mainstream VLMs, the effectiveness of the dataset has been fully verified. The project will be released at https://github.com/JimmyMa99/SARChat.

arxiv情報

著者 Zhiming Ma,Xiayang Xiao,Sihao Dong,Peidong Wang,HaiPeng Wang,Qingyun Pan
発行日 2025-02-13 17:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation はコメントを受け付けていません

Fine-Tuned LLMs are ‘Time Capsules’ for Tracking Societal Bias Through Books

要約

本は、しばしば文化的な洞察が豊富ですが、その時代の社会的偏見を反映することもできます – 大規模な言語モデル(LLM)がトレーニング中に学び、永続化するバイアス。
微調整されたLLMを使用して、これらのバイアスを追跡および定量化する新しい方法を導入します。
70年間(1950-2019)にわたって593の架空の本を含むコーパスであるBookPageを開発し、バイアスの進化を追跡しています。
各10年の本にLLMを微調整し、ターゲットプロンプトを使用して、性別、性的指向、人種、宗教に関連するバイアスの変化を調べます。
私たちの調査結果は、LLMSが10年固有の本で訓練されたことは、段階的な傾向と顕著な変化の両方を伴う時代を反映したバイアスを明らかにしていることを示しています。
たとえば、モデルの反応は、1950年代から2010年までのリーダーシップの役割(8%から22%)における女性の描写の漸進的な増加を示し、1990年代(4%から12%)で大幅に増加し、おそらく
サードウェーブフェミニズム。
同性関係の参照は、1980年代から2000年代に著しく増加し(0%から10%)、LGBTQ+の可視性の成長を反映しています。
驚いたことに、イスラム教の否定的な描写は、2000年代に急激に上昇し(26%から38%)、9/11以降の感情を反映している可能性があります。
重要なことに、これらのバイアスは、モデルのアーキテクチャや初期トレーニングではなく、主に本の内容に起因することを示しています。
私たちの研究は、AI、文学研究、社会科学研究を橋渡しすることにより、社会的バイアスの傾向に関する新しい視点を提供します。

要約(オリジナル)

Books, while often rich in cultural insights, can also mirror societal biases of their eras – biases that Large Language Models (LLMs) may learn and perpetuate during training. We introduce a novel method to trace and quantify these biases using fine-tuned LLMs. We develop BookPAGE, a corpus comprising 593 fictional books across seven decades (1950-2019), to track bias evolution. By fine-tuning LLMs on books from each decade and using targeted prompts, we examine shifts in biases related to gender, sexual orientation, race, and religion. Our findings indicate that LLMs trained on decade-specific books manifest biases reflective of their times, with both gradual trends and notable shifts. For example, model responses showed a progressive increase in the portrayal of women in leadership roles (from 8% to 22%) from the 1950s to 2010s, with a significant uptick in the 1990s (from 4% to 12%), possibly aligning with third-wave feminism. Same-sex relationship references increased markedly from the 1980s to 2000s (from 0% to 10%), mirroring growing LGBTQ+ visibility. Concerningly, negative portrayals of Islam rose sharply in the 2000s (26% to 38%), likely reflecting post-9/11 sentiments. Importantly, we demonstrate that these biases stem mainly from the books’ content and not the models’ architecture or initial training. Our study offers a new perspective on societal bias trends by bridging AI, literary studies, and social science research.

arxiv情報

著者 Sangmitra Madhusudan,Robert Morabito,Skye Reid,Nikta Gohari Sadr,Ali Emami
発行日 2025-02-13 17:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Fine-Tuned LLMs are ‘Time Capsules’ for Tracking Societal Bias Through Books はコメントを受け付けていません

Zero-shot generation of synthetic neurosurgical data with large language models

要約

臨床データは脳神経外科的研究を進めるための基本ですが、アクセスはデータの可用性、小さなサンプルサイズ、プライバシー規制、リソース集約的な前処理および識別手順によってしばしば制約されます。
合成データは、実際のデータ(RWD)へのアクセスと使用に関連する課題に対する潜在的なソリューションを提供します。
この研究の目的は、条件付き表形式生成敵ネットワーク(CTGAN)でベンチマークすることにより、大きな言語モデル(LLM)、GPT-4Oを使用した合成神経外科データのゼロショット生成の能力を評価することを目的としています。
合成データセットを実際の神経外科的データと比較して、忠実度(平均、割合、分布、および二変量相関)、ユーティリティ(RWDのML分類器パフォーマンス)、プライバシー(RWDからの記録の複製)を評価しました。
GPT-4O生成データセットは、トレーニング前のRWDへの微調整やアクセスがないにもかかわらず、CTGANパフォーマンスと一致または超えた。
データセットは、増幅されたサンプルサイズであっても、実際の患者記録を直接露出することなく、RWDに対する高い単変量および二変量の忠実度を示しました。
GPT-4O生成データでML分類器をトレーニングし、RWDでのバイナリ予測タスクのテストで、術後の機能状態の劣化を予測するためのCTGANデータ(0.705)のトレーニングに匹敵するパフォーマンスを備えたF1スコア(0.706)が示されました。
GPT-4oは、高忠実度の合成神経外科的データを生成する有望な能力を実証しました。
これらの調査結果は、GPT-4Oで合成されたデータが、サンプルサイズが少ない臨床データを効果的に増強し、神経外科的結果の予測のためにMLモデルを訓練できることを示しています。
分布特性の保存を改善し、分類器のパフォーマンスを高めるには、さらなる調査が必要です。

要約(オリジナル)

Clinical data is fundamental to advance neurosurgical research, but access is often constrained by data availability, small sample sizes, privacy regulations, and resource-intensive preprocessing and de-identification procedures. Synthetic data offers a potential solution to challenges associated with accessing and using real-world data (RWD). This study aims to evaluate the capability of zero-shot generation of synthetic neurosurgical data with a large language model (LLM), GPT-4o, by benchmarking with the conditional tabular generative adversarial network (CTGAN). Synthetic datasets were compared to real-world neurosurgical data to assess fidelity (means, proportions, distributions, and bivariate correlations), utility (ML classifier performance on RWD), and privacy (duplication of records from RWD). The GPT-4o-generated datasets matched or exceeded CTGAN performance, despite no fine-tuning or access to RWD for pre-training. Datasets demonstrated high univariate and bivariate fidelity to RWD without directly exposing any real patient records, even at amplified sample size. Training an ML classifier on GPT-4o-generated data and testing on RWD for a binary prediction task showed an F1 score (0.706) with comparable performance to training on the CTGAN data (0.705) for predicting postoperative functional status deterioration. GPT-4o demonstrated a promising ability to generate high-fidelity synthetic neurosurgical data. These findings also indicate that data synthesized with GPT-4o can effectively augment clinical data with small sample sizes, and train ML models for prediction of neurosurgical outcomes. Further investigation is necessary to improve the preservation of distributional characteristics and boost classifier performance.

arxiv情報

著者 Austin A. Barr,Eddie Guo,Emre Sezgin
発行日 2025-02-13 18:21:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Zero-shot generation of synthetic neurosurgical data with large language models はコメントを受け付けていません

Logical forms complement probability in understanding language model (and human) performance

要約

自然言語での計画のために大規模な言語モデル(LLM)を使用することに関心が高まっているため、その行動を理解することは重要な研究問題になります。
この作業は、自然言語で論理的推論を実行するLLMSの能力の体系的な調査を実施しています。
命題およびモーダルロジックにおける仮説的および分離的な三段論法の制御されたデータセットを導入し、LLMパフォーマンスを理解するためのテストベッドとして使用します。
私たちの結果は、LLMの行動を予測する際の新しい洞察につながります。入力の確率に加えて(Gonen et al。、2023; McCoy et al。、2024)、論理形式は直交因子と見なされるべきです。
さらに、LLMと人間の行動結果を比較することにより、人間とLLMの論理的推論パフォーマンスの類似点と相違点を示します。

要約(オリジナル)

With the increasing interest in using large language models (LLMs) for planning in natural language, understanding their behaviors becomes an important research question. This work conducts a systematic investigation of LLMs’ ability to perform logical reasoning in natural language. We introduce a controlled dataset of hypothetical and disjunctive syllogisms in propositional and modal logic and use it as the testbed for understanding LLM performance. Our results lead to novel insights in predicting LLM behaviors: in addition to the probability of input (Gonen et al., 2023; McCoy et al., 2024), logical forms should be considered as orthogonal factors. In addition, we show similarities and differences between the logical reasoning performances of humans and LLMs by comparing LLM and human behavioral results.

arxiv情報

著者 Yixuan Wang,Freda Shi
発行日 2025-02-13 18:46:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LO | Logical forms complement probability in understanding language model (and human) performance はコメントを受け付けていません

Do LLMs Recognize Your Preferences? Evaluating Personalized Preference Following in LLMs

要約

大規模な言語モデル(LLM)はチャットボットとしてますます使用されていますが、ユーザーの好みに対する応答をパーソナライズする能力は依然として限られています。
Prefevalを紹介します。これは、LLMSの長い文書の会話設定でユーザーの好みを推測、記憶、遵守する能力を評価するためのベンチマークを紹介します。
Prevevalは、20のトピックにまたがる3,000の手動でキュレーションされたユーザーの好みとクエリペアで構成されています。
Prevevalには、明示的なフォームと暗黙的なフォームの両方でユーザーのパーソナライズまたは優先情報が含まれ、世代と分類タスクを使用してLLMパフォーマンスを評価します。
PRENTEVALでは、さまざまなコンテキストの長さが最大100kトークンで、マルチセッションの会話で、10のオープンソースと独自のLLMの能力に従って、前述の好みを評価しました。
さまざまなプロンプト、反復フィードバック、および検索された生成方法でベンチマークします。
私たちのベンチマークの取り組みは、最先端のLLMSが会話中のユーザーの好みを積極的に追う際に重要な課題に直面していることを明らかにしています。
特に、ゼロショット設定では、ほとんどの評価されているモデルでは、精度後の優先度はわずか10ターン(〜3Kトークン)で10%を下回ります。
高度なプロンプトと検索の方法があっても、長時間の会話では、以下がまだ悪化しています。
さらに、威力の微調整がパフォーマンスを大幅に改善することを示しています。
Prefevalは、LLMSの好みを測定、理解し、強化するための貴重なリソースとして機能し、能力に続く能力を高め、パーソナライズされた会話エージェントへの道を開くと考えています。
コードとデータセットはhttps://prefeval.github.io/で入手できます。

要約(オリジナル)

Large Language Models (LLMs) are increasingly used as chatbots, yet their ability to personalize responses to user preferences remains limited. We introduce PrefEval, a benchmark for evaluating LLMs’ ability to infer, memorize and adhere to user preferences in a long-context conversational setting. PrefEval comprises 3,000 manually curated user preference and query pairs spanning 20 topics. PrefEval contains user personalization or preference information in both explicit and implicit forms, and evaluates LLM performance using a generation and a classification task. With PrefEval, we evaluated the aforementioned preference following capabilities of 10 open-source and proprietary LLMs in multi-session conversations with varying context lengths up to 100k tokens. We benchmark with various prompting, iterative feedback, and retrieval-augmented generation methods. Our benchmarking effort reveals that state-of-the-art LLMs face significant challenges in proactively following users’ preferences during conversations. In particular, in zero-shot settings, preference following accuracy falls below 10% at merely 10 turns (~3k tokens) across most evaluated models. Even with advanced prompting and retrieval methods, preference following still deteriorates in long-context conversations. Furthermore, we show that fine-tuning on PrefEval significantly improves performance. We believe PrefEval serves as a valuable resource for measuring, understanding, and enhancing LLMs’ preference following abilities, paving the way for personalized conversational agents. Our code and dataset are available at https://prefeval.github.io/.

arxiv情報

著者 Siyan Zhao,Mingyi Hong,Yang Liu,Devamanyu Hazarika,Kaixiang Lin
発行日 2025-02-13 18:52:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Do LLMs Recognize Your Preferences? Evaluating Personalized Preference Following in LLMs はコメントを受け付けていません

Truth Knows No Language: Evaluating Truthfulness Beyond English

要約

バスク、カタロニア、ガリシア語、スペイン語の真実性を評価するために設計された真実のベンチマークの専門的に翻訳された拡張を紹介します。
大規模な言語モデル(LLM)の真実性評価は、主に英語で実施されています。
ただし、LLMが言語間で真実性を維持する能力は、未調査のままです。
私たちの研究では、12の最先端のオープンLLMSを評価し、人間の評価、多肢選択メトリック、およびLLM-A-a-a-judgeスコアリングを使用して、ベースと命令チューニングモデルを比較します。
私たちの調査結果は、LLMSが英語で最高のパフォーマンスを発揮し、バスクで最悪の状態であるが、言語間の全体的な真実性の矛盾は予想よりも小さいことを明らかにしています。
さらに、LLM-as-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-dudgeは、複数の選択メトリックよりも人間の判断とより密接に相関しており、情報性が真実性評価において重要な役割を果たすことを示しています。
また、私たちの結果は、機械翻訳が真実性ベンチマークを追加の言語に拡張するための実行可能なアプローチを提供し、専門的な翻訳に代わるスケーラブルな代替品を提供することを示しています。
最後に、文化的および時間的変動を説明する真実性評価の必要性を強調しているコンテキストおよび時間依存の質問よりも、普遍的な知識の質問は言語間でよりよく処理されていることがわかります。
データセットとコードは、公開ライセンスで公開されています。

要約(オリジナル)

We introduce a professionally translated extension of the TruthfulQA benchmark designed to evaluate truthfulness in Basque, Catalan, Galician, and Spanish. Truthfulness evaluations of large language models (LLMs) have primarily been conducted in English. However, the ability of LLMs to maintain truthfulness across languages remains under-explored. Our study evaluates 12 state-of-the-art open LLMs, comparing base and instruction-tuned models using human evaluation, multiple-choice metrics, and LLM-as-a-Judge scoring. Our findings reveal that, while LLMs perform best in English and worst in Basque (the lowest-resourced language), overall truthfulness discrepancies across languages are smaller than anticipated. Furthermore, we show that LLM-as-a-Judge correlates more closely with human judgments than multiple-choice metrics, and that informativeness plays a critical role in truthfulness assessment. Our results also indicate that machine translation provides a viable approach for extending truthfulness benchmarks to additional languages, offering a scalable alternative to professional translation. Finally, we observe that universal knowledge questions are better handled across languages than context- and time-dependent ones, highlighting the need for truthfulness evaluations that account for cultural and temporal variability. Dataset and code are publicly available under open licenses.

arxiv情報

著者 Blanca Calvo Figueras,Eneko Sagarzazu,Julen Etxaniz,Jeremy Barnes,Pablo Gamallo,Iria De Dios Flores,Rodrigo Agerri
発行日 2025-02-13 15:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Truth Knows No Language: Evaluating Truthfulness Beyond English はコメントを受け付けていません

S$^2$-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation

要約

スキル学習の最近の進歩により、ロボット操作は、実際の数のデモンストレーションから複雑な操作タスクを学習できるようにすることで、新たな高みへの操作を推進しています。
ただし、これらのスキルは、トレーニングデータに表示されている特定のアクション、オブジェクト、および環境\ TextIT {インスタンス}に限定され、同じカテゴリの他のインスタンスへの移行に問題があることがよくあります。
この作業では、インスタンスレベルのトレーニングデータからカテゴリレベルのインスタンスレベルへの一般化を可能にするオープンボキャブラリー空間セマンティック拡散ポリシー(S $^2 $ -diffusion)を提示します。
スキルの機能的側面は、空間表現と組み合わせた迅速なセマンティックモジュールを介してキャプチャできることを示します。
さらに、深度推定ネットワークを活用して、単一のRGBカメラのみを使用できるようにすることを提案します。
私たちのアプローチは、シミュレーションと現実世界の両方で、さまざまな数のロボット操作タスクで評価され、比較されます。
我々の結果は、S $^2 $ -diffusionが、カテゴリに照明された要因の変化に不変であり、特定の例で訓練されていなくても、同じカテゴリ内の他のインスタンスでパフォーマンスを満たすことができることを示しています。
すべての現実世界の実験の完全なビデオは、補足資料で入手できます。

要約(オリジナル)

Recent advances in skill learning has propelled robot manipulation to new heights by enabling it to learn complex manipulation tasks from a practical number of demonstrations. However, these skills are often limited to the particular action, object, and environment \textit{instances} that are shown in the training data, and have trouble transferring to other instances of the same category. In this work we present an open-vocabulary Spatial-Semantic Diffusion policy (S$^2$-Diffusion) which enables generalization from instance-level training data to category-level, enabling skills to be transferable between instances of the same category. We show that functional aspects of skills can be captured via a promptable semantic module combined with a spatial representation. We further propose leveraging depth estimation networks to allow the use of only a single RGB camera. Our approach is evaluated and compared on a diverse number of robot manipulation tasks, both in simulation and in the real world. Our results show that S$^2$-Diffusion is invariant to changes in category-irrelevant factors as well as enables satisfying performance on other instances within the same category, even if it was not trained on that specific instance. Full videos of all real-world experiments are available in the supplementary material.

arxiv情報

著者 Quantao Yang,Michael C. Welle,Danica Kragic,Olov Andersson
発行日 2025-02-13 15:06:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | S$^2$-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation はコメントを受け付けていません

SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models

要約

自然言語処理の急速に進化する分野では、大規模な言語モデル(LLM)には、ますます複雑な推論の課題が課せられています。
考え方の促しのような伝統的な方法は有望であることを示していますが、モデルの推論能力を完全に活用するのに不足していることがよくあります。
このホワイトペーパーでは、自己焦点のパラダイムを通じて推論を改善するために設計された新規プロンプト技術であるSquare(Sequential Ouction Reshing Reasoning Engine)を紹介します。
COTフレームワークに基づいて、Squareはメインクエリに取り組む前に複数の補助質問を生成および解決するようにモデルをプロンプトし、トピックのさまざまな側面のより徹底的な調査を促進します。
複数の質問分配データセットでLLAMA 3およびGPT-4Oモデルを使用して実施された広大な評価は、正方形が従来のCOTプロンプトと既存の再配置とレスポンドの方法を大幅に上回ることを示しています。
クエリを体系的に分解することにより、Squareは推論タスクでLLM機能を進めます。
このコードは、https://github.com/intellabs/rag-fit/tree/squareで公開されています。

要約(オリジナル)

In the rapidly evolving field of Natural Language Processing, Large Language Models (LLMs) are tasked with increasingly complex reasoning challenges. Traditional methods like chain-of-thought prompting have shown promise but often fall short in fully leveraging a model’s reasoning capabilities. This paper introduces SQuARE (Sequential Question Answering Reasoning Engine), a novel prompting technique designed to improve reasoning through a self-interrogation paradigm. Building upon CoT frameworks, SQuARE prompts models to generate and resolve multiple auxiliary questions before tackling the main query, promoting a more thorough exploration of various aspects of a topic. Our expansive evaluations, conducted with Llama 3 and GPT-4o models across multiple question-answering datasets, demonstrate that SQuARE significantly surpasses traditional CoT prompts and existing rephrase-and-respond methods. By systematically decomposing queries, SQuARE advances LLM capabilities in reasoning tasks. The code is publicly available at https://github.com/IntelLabs/RAG-FiT/tree/square.

arxiv情報

著者 Daniel Fleischer,Moshe Berchansky,Gad Markovits,Moshe Wasserblat
発行日 2025-02-13 15:07:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models はコメントを受け付けていません

Improving Factual Consistency of News Summarization by Contrastive Preference Optimization

要約

大規模な言語モデル(LLMS)によって行われたニュース要約の最近の進展にもかかわらず、テキスト生成で「幻覚」として知られるオリジナルの記事と実際に矛盾する要約を生成することがよくあります。
以前の小さなモデル(BART、T5など)とは異なり、現在のLLMは愚かな間違いが少なくなりますが、原因と結果を課したり、誤った詳細を追加したり、過剰に一般化するなど、より洗練された間違いを犯します。これらの幻覚は、従来の方法で検出するのが難しいです。
テキスト要約の事実上の一貫性を改善するための大きな課題。
このホワイトペーパーでは、忠実で偽のコンテンツを生成するためにLLMSの傾向を解くために、対照的な好みの最適化(CPO)を提案します。
さらに、2種類の傾向を区別する能力を向上させるために、調査ベースの特定のトレーニング方法を採用します。
このようにして、LLMSは命令をより正確に実行し、幻覚の認識を強化することができます。
実験結果は、CPOがLLMSに基づく要約の信頼性を大幅に改善することを示しています。

要約(オリジナル)

Despite the recent progress in news summarization made by large language models (LLMs), they often generate summaries that are factually inconsistent with original articles, known as ‘hallucinations’ in text generation. Unlike previous small models (e.g., BART, T5), current LLMs make fewer silly mistakes but more sophisticated ones, such as imposing cause and effect, adding false details, overgeneralizing, etc. These hallucinations are challenging to detect through traditional methods, which poses great challenges for improving the factual consistency of text summarization. In this paper, we propose Contrastive Preference Optimization (CPO) to disentangle the LLMs’ propensities to generate faithful and fake content. Furthermore, we adopt a probing-based specific training method to improve their capacity of distinguishing two types of propensities. In this way, LLMs can execute the instructions more accurately and have enhanced perception of hallucinations. Experimental results show that CPO significantly improves the reliability of summarization based on LLMs.

arxiv情報

著者 Huawen Feng,Yan Fan,Xiong Liu,Ting-En Lin,Zekun Yao,Yuchuan Wu,Fei Huang,Yongbin Li,Qianli Ma
発行日 2025-02-13 15:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Improving Factual Consistency of News Summarization by Contrastive Preference Optimization はコメントを受け付けていません