Behind Maya: Building a Multilingual Vision Language Model

要約

最近では、大規模なビジョン言語モデル(VLM)の急速な発展が見られました。
彼らは、主に広く話されている言語では、学術ベンチマークで印象的な結果を示していますが、低リソース言語と多様な文化的文脈ではパフォーマンスがありません。
これらの制限に対処するために、オープンソースの多言語VLMであるMayaを紹介します。
私たちの貢献は次のとおりです。1)LLAVA Pretrainingデータセットに基づく8つの言語の多言語画像テキスト前削除データセット。
2)これらの言語をサポートする多言語画像テキストモデルで、ビジョン言語タスクにおける文化的および言語的理解を高めます。
https://github.com/nahidalam/mayaで入手可能なコード。

要約(オリジナル)

In recent times, we have seen a rapid development of large Vision-Language Models (VLMs). They have shown impressive results on academic benchmarks, primarily in widely spoken languages but lack performance on low-resource languages and varied cultural contexts. To address these limitations, we introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; and 2) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.

arxiv情報

著者 Nahid Alam,Karthik Reddy Kanjula,Surya Guthikonda,Timothy Chung,Bala Krishna S Vegesna,Abhipsha Das,Anthony Susevski,Ryan Sze-Yin Chan,S M Iftekhar Uddin,Shayekh Bin Islam,Roshan Santhosh,Snegha A,Drishti Sharma,Chen Liu,Isha Chaturvedi,Genta Indra Winata,Ashvanth. S,Snehanshu Mukherjee,Alham Fikri Aji
発行日 2025-05-13 19:01:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Behind Maya: Building a Multilingual Vision Language Model はコメントを受け付けていません

Simulating and Analysing Human Survey Responses with Large Language Models: A Case Study in Energy Stated Preference

要約

調査研究は、消費者の好みを把握し、政策決定を通知することにより、研究において重要な役割を果たしています。
述べられた選好(SP)調査は、研究者が、個人が仮説的、潜在的に未来的なシナリオでトレードオフを行う方法を理解するのに役立ちます。
ただし、従来の方法は費用がかかり、時間がかかり、回答者の疲労と倫理的制約の影響を受けます。
大規模な言語モデル(LLM)は、人間のような反応を生成する際に顕著な能力を示しており、調査研究での使用に関心を促しています。
この研究では、エネルギー関連のSP調査における消費者の選択をシミュレートするためのLLMSを調査し、データ収集と分析のワークフローへの統合を調査します。
テストシナリオは、迅速なデザイン、コンテキスト学習(ICL)、チェーンオブテキスト(COT)推論、モデルタイプ、従来の選択モデルとの統合、および潜在的な偏見を考慮して、いくつかのLLMS(LLAMA 3.1、LLAMA 3.1、MISTRAL、GPT-3.5、DEEPSEEK-R1)のシミュレーションパフォーマンスを個別および集約レベルで評価するように設計されました。
LLMはランダムな推測よりも精度を達成しますが、実用的なシミュレーションの使用にはパフォーマンスが不十分です。
クラウドベースのLLMは、より小さなローカルモデルを常に上回ることはありません。
DeepSeek-R1は、最高の平均精度(77%)を達成し、精度、因子識別、および選択分布アライメントで非合理的なLLMを上回ります。
以前のSP選択は最も効果的な入力です。
より多くの要因を備えたより長いプロンプトは、精度を低下させます。
混合ロジットモデルは、LLMプロンプトの改良をサポートできます。
推論LLMSは、因子の有意性を示すことにより、データ分析の可能性を示し、統計モデルに定性的な補完を提供します。
制限にもかかわらず、事前に訓練されたLLMSはスケーラビリティを提供し、最小限の履歴データを必要とします。
将来の作業では、プロンプトを改良し、COTの推論をさらに調査し、微調整技術を調査する必要があります。

要約(オリジナル)

Survey research plays a crucial role in studies by capturing consumer preferences and informing policy decisions. Stated preference (SP) surveys help researchers understand how individuals make trade-offs in hypothetical, potentially futuristic, scenarios. However, traditional methods are costly, time-consuming, and affected by respondent fatigue and ethical constraints. Large language models (LLMs) have shown remarkable capabilities in generating human-like responses, prompting interest in their use in survey research. This study investigates LLMs for simulating consumer choices in energy-related SP surveys and explores their integration into data collection and analysis workflows. Test scenarios were designed to assess the simulation performance of several LLMs (LLaMA 3.1, Mistral, GPT-3.5, DeepSeek-R1) at individual and aggregated levels, considering prompt design, in-context learning (ICL), chain-of-thought (CoT) reasoning, model types, integration with traditional choice models, and potential biases. While LLMs achieve accuracy above random guessing, performance remains insufficient for practical simulation use. Cloud-based LLMs do not consistently outperform smaller local models. DeepSeek-R1 achieves the highest average accuracy (77%) and outperforms non-reasoning LLMs in accuracy, factor identification, and choice distribution alignment. Previous SP choices are the most effective input; longer prompts with more factors reduce accuracy. Mixed logit models can support LLM prompt refinement. Reasoning LLMs show potential in data analysis by indicating factor significance, offering a qualitative complement to statistical models. Despite limitations, pre-trained LLMs offer scalability and require minimal historical data. Future work should refine prompts, further explore CoT reasoning, and investigate fine-tuning techniques.

arxiv情報

著者 Han Wang,Jacek Pawlak,Aruna Sivakumar
発行日 2025-05-13 19:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Simulating and Analysing Human Survey Responses with Large Language Models: A Case Study in Energy Stated Preference はコメントを受け付けていません

ForeCite: Adapting Pre-Trained Language Models to Predict Future Citation Rates of Academic Papers

要約

学術論文の将来の引用率を予測することは、研究評価の自動化と科学的進歩の加速に向けた重要なステップです。
$ \ textbf {forecite} $を提示します。これは、平均的な毎月の引用率予測のために、事前に訓練された因果言語モデルを線形ヘッドで追加するためのシンプルだが強力なフレームワークを提示します。
回帰タスクにトランスを適応させるForeciteは、2000年から2024年に発行された900K+生物医学論文のキュレーションデータセットで$ \ rho = 0.826 $のテスト相関を実現し、以前の最先端で27ポイント改善されました。
包括的なスケーリング法解析により、モデルサイズとデータ量間で一貫したゲインが明らかになり、一時的なホールドアウト実験では実用的な堅牢性が確認されます。
グラデーションベースの顕著なヒートマップは、タイトルと抽象的なテキストに潜在的に過度の依存度を示唆しています。
これらの結果は、学術研究の長期的な影響を予測する新しい最先端を確立し、科学的貢献の自動化された高忠実度の評価の基礎を築きます。

要約(オリジナル)

Predicting the future citation rates of academic papers is an important step toward the automation of research evaluation and the acceleration of scientific progress. We present $\textbf{ForeCite}$, a simple but powerful framework to append pre-trained causal language models with a linear head for average monthly citation rate prediction. Adapting transformers for regression tasks, ForeCite achieves a test correlation of $\rho = 0.826$ on a curated dataset of 900K+ biomedical papers published between 2000 and 2024, a 27-point improvement over the previous state-of-the-art. Comprehensive scaling-law analysis reveals consistent gains across model sizes and data volumes, while temporal holdout experiments confirm practical robustness. Gradient-based saliency heatmaps suggest a potentially undue reliance on titles and abstract texts. These results establish a new state-of-the-art in forecasting the long-term influence of academic research and lay the groundwork for the automated, high-fidelity evaluation of scientific contributions.

arxiv情報

著者 Gavin Hull,Alex Bihlo
発行日 2025-05-13 20:10:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | ForeCite: Adapting Pre-Trained Language Models to Predict Future Citation Rates of Academic Papers はコメントを受け付けていません

Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training

要約

トレーニング前の標準的な大きな視覚言語モデル(LVLMS)では、モデルは通常、次のトークン予測(NTP)を介して画像に条件付けられたキャプションの共同確率を最大化します。
ただし、キャプショントークンの小さなサブセットのみが視覚コンテンツに直接関係しているため、この素朴なNTPは意図せずにノイズに適合し、幻覚のリスクを高めます。
重要なサンプリングフレームワークから引き出され、NTP損失の差動重み付けを通じて、画像関連のトークンに優先順位を付けることにより、この問題に対処する単純なビジョン言語の事前トレーニングアプローチを提示します。
Priorは、LVLMSトレーニングの確率に基づいて各トークンを重量化するために、画像入力なしでキャプションでトレーニングされたテキストのみの大型言語モデル(LLM)を参照モデルを導入します。
直感的には、視覚入力に直接関連するトークンは、画像なしでは予測するのが難しく、したがって、テキストのみの参照LLMからより低い確率を受け取ります。
トレーニング中、各トークンの損失を調整する重要なスコアに基づいて、トークン固有の再重視用語を実装します。
2つの異なる設定で事前に実装します:Visual Encodersを使用したLVLMSとVisual EncodersなしのLVLMS。
NTPと比較して、いくつかの視覚言語ベンチマークで、それぞれ19%および8%の平均相対改善が観察されます。
さらに、以前のスケーリング係数が大幅に高いスケーリング係数によって示されるように、以前のスケーリング特性を示しており、計算とデータの増加が与えられたNTPと比較してパフォーマンスの向上の可能性が高いことを示しています。

要約(オリジナル)

In standard large vision-language models (LVLMs) pre-training, the model typically maximizes the joint probability of the caption conditioned on the image via next-token prediction (NTP); however, since only a small subset of caption tokens directly relates to the visual content, this naive NTP unintentionally fits the model to noise and increases the risk of hallucination. We present PRIOR, a simple vision-language pre-training approach that addresses this issue by prioritizing image-related tokens through differential weighting in the NTP loss, drawing from the importance sampling framework. PRIOR introduces a reference model-a text-only large language model (LLM) trained on the captions without image inputs, to weight each token based on its probability for LVLMs training. Intuitively, tokens that are directly related to the visual inputs are harder to predict without the image and thus receive lower probabilities from the text-only reference LLM. During training, we implement a token-specific re-weighting term based on the importance scores to adjust each token’s loss. We implement PRIOR in two distinct settings: LVLMs with visual encoders and LVLMs without visual encoders. We observe 19% and 8% average relative improvement, respectively, on several vision-language benchmarks compared to NTP. In addition, PRIOR exhibits superior scaling properties, as demonstrated by significantly higher scaling coefficients, indicating greater potential for performance gains compared to NTP given increasing compute and data.

arxiv情報

著者 Yangyi Chen,Hao Peng,Tong Zhang,Heng Ji
発行日 2025-05-13 21:27:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training はコメントを受け付けていません

A suite of LMs comprehend puzzle statements as well as humans

要約

最近の主張は、大規模な言語モデル(LMS)が、最小限の複雑な英語声明を理解する際に人間をパフォーマーしていることを示唆しています(Dentella et al。、2024)。
ここでは、これらの発見を再訪し、人間のパフォーマンスは過大評価されている一方で、LLMの能力は過小評価されていると主張します。
同じ刺激を使用して、2つの条件で人間の反応を比較した前提条件の研究を報告します。1つは再読み取り(元の研究の複製)と、読み直しを制限したもの(より自然主義的理解テスト)を制限します。
再読み込みが制限されたとき(73%)、Falcon-180b-chat(76%)およびGPT-4(81%)を下回ると、人間の精度が大幅に低下しました。
新しいGPT-O1モデルは、完全な精度を実現します。
結果は、さらに、人間とモデルの両方が、潜在的に相互の行動(たとえば、キス)を含む質問によって不釣り合いに挑戦されており、モデル固有の赤字ではなく共有された実用的な感受性を示唆していることを示しています。
LLAMA-2-70Bのログ確率、自由回答形式のモデル応答の再現、および他の文の文法評価を使用した追加の分析により、モデルパフォーマンスの体系的な過小評価が明らかになります。
GPT-4Oは、迅速なフレーミングに応じて、素朴なまたは専門家の文法判断のいずれかに合わせることができることがわかります。
これらの調査結果は、LLM評価におけるより慎重な実験設計とコーディングの実践の必要性を強調しており、現在のモデルは言語理解で人間よりも本質的に弱いという仮定に挑戦します。

要約(オリジナル)

Recent claims suggest that large language models (LMs) underperform humans in comprehending minimally complex English statements (Dentella et al., 2024). Here, we revisit those findings and argue that human performance was overestimated, while LLM abilities were underestimated. Using the same stimuli, we report a preregistered study comparing human responses in two conditions: one allowed rereading (replicating the original study), and one that restricted rereading (a more naturalistic comprehension test). Human accuracy dropped significantly when rereading was restricted (73%), falling below that of Falcon-180B-Chat (76%) and GPT-4 (81%). The newer GPT-o1 model achieves perfect accuracy. Results further show that both humans and models are disproportionately challenged by queries involving potentially reciprocal actions (e.g., kissing), suggesting shared pragmatic sensitivities rather than model-specific deficits. Additional analyses using Llama-2-70B log probabilities, a recoding of open-ended model responses, and grammaticality ratings of other sentences reveal systematic underestimation of model performance. We find that GPT-4o can align with either naive or expert grammaticality judgments, depending on prompt framing. These findings underscore the need for more careful experimental design and coding practices in LLM evaluation, and they challenge the assumption that current models are inherently weaker than humans at language comprehension.

arxiv情報

著者 Adele E Goldberg,Supantho Rakshit,Jennifer Hu,Kyle Mahowald
発行日 2025-05-13 22:18:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A suite of LMs comprehend puzzle statements as well as humans はコメントを受け付けていません

An Analytical Emotion Framework of Rumour Threads on Social Media

要約

オンラインソーシャルメディアの噂は、現代社会に大きなリスクをもたらし、それらがどのように発展するかをよりよく理解する必要性を動機付けます。
私たちは特に、感情と噂における噂の間のインターフェースに焦点を当てており、元の噂が投稿した感情の単一の側面に主に焦点を当てており、噂と非悪用の比較の違いを見落としていたトピックに関する驚くほどまばらな文献に基づいています。
この作業では、マルチアスペクト感情検出、対照的な噂、非誤りスレッドを備えた包括的な分析感情フレームワークを提供し、感情の相関と因果分析の両方を提供するために、さらに一歩進んでいます。
オンラインソーシャルメディアスレッドの感情ダイナミクスをさらに理解するために、既存の広く使用されている噂データセットにフレームワークを適用しました。
私たちの枠組みは、噂がより否定的な感情(たとえば、怒り、恐怖、悲観論)を引き起こし、非悪用がよりポジティブなものを呼び起こすことを明らかにしています。
感情は伝染性があり、噂が否定性を広げ、非悪用は積極性を広げます。
因果分析は、驚きの橋の噂やその他の感情を示しています。
悲観論は悲しみと恐怖から生まれますが、楽観主義は喜びと愛から生じます。

要約(オリジナル)

Rumours in online social media pose significant risks to modern society, motivating the need for better understanding of how they develop. We focus specifically on the interface between emotion and rumours in threaded discourses, building on the surprisingly sparse literature on the topic which has largely focused on single aspect of emotions within the original rumour posts themselves, and largely overlooked the comparative differences between rumours and non-rumours. In this work, we take one step further to provide a comprehensive analytical emotion framework with multi-aspect emotion detection, contrasting rumour and non-rumour threads and provide both correlation and causal analysis of emotions. We applied our framework on existing widely-used rumour datasets to further understand the emotion dynamics in online social media threads. Our framework reveals that rumours trigger more negative emotions (e.g., anger, fear, pessimism), while non-rumours evoke more positive ones. Emotions are contagious, rumours spread negativity, non-rumours spread positivity. Causal analysis shows surprise bridges rumours and other emotions; pessimism comes from sadness and fear, while optimism arises from joy and love.

arxiv情報

著者 Rui Xing,Boyang Sun,Kun Zhang,Preslav Nakov,Timothy Baldwin,Jey Han Lau
発行日 2025-05-13 22:37:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SI | An Analytical Emotion Framework of Rumour Threads on Social Media はコメントを受け付けていません

For GPT-4 as with Humans: Information Structure Predicts Acceptability of Long-Distance Dependencies

要約

どんなLMでも自然言語を理解しているか、信頼できるメタリングスティックな判断を生み出すかについては、まだ議論されています。
さらに、LMSが言語学者によって提案されている形と機能の間の微妙な関係を表現し、尊重できることは、比較的少ない作業を実証しています。
ここでは、最近の研究で確立された特定の関係に焦点を当てています。標準文の情報構造に関する英語の話者の判断は、対応する「長距離依存性」構造に関する独立して収集された受容性評価を予測します。
LMがこの関係をキャプチャするかどうかを判断するために、人間と新しい拡張機能と同じタスクでGPT-4をプローブします。
研究2では、基本文の情報構造を操作し、因果関係を確認します。コンテキスト文の構成要素の卓越性を高めると、LDD構造のその後の受容性評価が増加します。
この調査結果は、自然とGPT-4生成された英語、および情報構造と構文の間の厳しい関係を示唆しており、それがさらなる調査を請います。

要約(オリジナル)

It remains debated how well any LM understands natural language or generates reliable metalinguistic judgments. Moreover, relatively little work has demonstrated that LMs can represent and respect subtle relationships between form and function proposed by linguists. We here focus on a particular such relationship established in recent work: English speakers’ judgments about the information structure of canonical sentences predicts independently collected acceptability ratings on corresponding ‘long distance dependency’ [LDD] constructions, across a wide array of base constructions and multiple types of LDDs. To determine whether any LM captures this relationship, we probe GPT-4 on the same tasks used with humans and new extensions.Results reveal reliable metalinguistic skill on the information structure and acceptability tasks, replicating a striking interaction between the two, despite the zero-shot, explicit nature of the tasks, and little to no chance of contamination [Studies 1a, 1b]. Study 2 manipulates the information structure of base sentences and confirms a causal relationship: increasing the prominence of a constituent in a context sentence increases the subsequent acceptability ratings on an LDD construction. The findings suggest a tight relationship between natural and GPT-4 generated English, and between information structure and syntax, which begs for further exploration.

arxiv情報

著者 Nicole Cuneo,Eleanor Graves,Supantho Rakshit,Adele E. Goldberg
発行日 2025-05-13 22:41:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | For GPT-4 as with Humans: Information Structure Predicts Acceptability of Long-Distance Dependencies はコメントを受け付けていません

Automated Meta Prompt Engineering for Alignment with the Theory of Mind

要約

人間の精神的期待と大規模な言語モデル(LLM)神経処理の間の神経状態の類似性を最適化しながら、複雑なタスクの流fluent的なテキストを共同で生成するメタ採用方法を導入します。
エージェントの強化学習の手法が適用されます。この手法では、裁判官(LLMAAJ)としてのLLMが、コンテキスト内学習を通じて、意図された意図しない生成されたテキスト特性を解釈することによりコンテンツを作成する方法を教えます。
コンテンツの生産に関する人間の精神的信念を測定するために、ユーザーは、米国オープン2024テニスグランドスラムに掲載される前に、長い形式のAIに生成されたテキスト記事を変更します。
現在、LLMAAJは、LLMからテキストの作成内に人間の編集を予測して含めることにより、心の理論(TOM)アライメントの問題を解決できます。
実験を通して、生産システムの結果を解釈することにより、人間のコンテンツレビュー担当者の期待は、平均反復数が4.38で、AI 53.8%の時間の100%の整合性を持っていました。
Hilbertベクター空間上の事実性、目新しさ、繰り返し、および関連性などのコンテンツ特性の幾何学的解釈は、空間体積(すべての特性の重要性)と垂直アライメント(個々の特性関連性)を組み合わせてLLMAAJを有効にしました。
これにより、テニスアクションのカバレッジを延長することにより、コンテンツの品質が向上しました。
米国オープン2024で展開された私たちの仕事は、スポーツやエンターテイメント内の他のライブイベントで使用されています。

要約(オリジナル)

We introduce a method of meta-prompting that jointly produces fluent text for complex tasks while optimizing the similarity of neural states between a human’s mental expectation and a Large Language Model’s (LLM) neural processing. A technique of agentic reinforcement learning is applied, in which an LLM as a Judge (LLMaaJ) teaches another LLM, through in-context learning, how to produce content by interpreting the intended and unintended generated text traits. To measure human mental beliefs around content production, users modify long form AI-generated text articles before publication at the US Open 2024 tennis Grand Slam. Now, an LLMaaJ can solve the Theory of Mind (ToM) alignment problem by anticipating and including human edits within the creation of text from an LLM. Throughout experimentation and by interpreting the results of a live production system, the expectations of human content reviewers had 100% of alignment with AI 53.8% of the time with an average iteration count of 4.38. The geometric interpretation of content traits such as factualness, novelty, repetitiveness, and relevancy over a Hilbert vector space combines spatial volume (all trait importance) with vertices alignment (individual trait relevance) enabled the LLMaaJ to optimize on Human ToM. This resulted in an increase in content quality by extending the coverage of tennis action. Our work that was deployed at the US Open 2024 has been used across other live events within sports and entertainment.

arxiv情報

著者 Aaron Baughman,Rahul Agarwal,Eduardo Morales,Gozde Akay
発行日 2025-05-13 23:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Automated Meta Prompt Engineering for Alignment with the Theory of Mind はコメントを受け付けていません

Improving the Reliability of LLMs: Combining CoT, RAG, Self-Consistency, and Self-Verification

要約

大規模な言語モデル(LLM)が自信を持っているが間違ったまたは無関係な情報を生成する幻覚は、複雑でオープンエンドのタスクへの適用の重要な制限のままです。
中間ステップを介してモデルをガイドすることにより、マルチステップ推論を改善するための有望な方法として、チェーンオブ思考(COT)プロンプトが浮上しています。
ただし、COTだけでは幻覚の問題に完全に対処していません。
この作業では、COTと検索の高等世代(RAG)を組み合わせること、および自己整合性と自己検証戦略を適用することで、幻覚を軽減し、事実上の正確性を改善する方法を調査します。
推論中に外部の知識ソースを組み込み、モデルが独自の出力を検証または修正できるようにすることにより、より正確で一貫した応答を生成することを目指しています。
COT、COT+RAG、自己整合性、および自己検証技術に対するベースラインLLMの比較評価を提示します。
私たちの結果は、各方法の有効性を強調し、流fluさと推論の深さを維持しながら幻覚を最小限に抑えるための最も堅牢なアプローチを特定します。

要約(オリジナル)

Hallucination, where large language models (LLMs) generate confident but incorrect or irrelevant information, remains a key limitation in their application to complex, open-ended tasks. Chain-of-thought (CoT) prompting has emerged as a promising method for improving multistep reasoning by guiding models through intermediate steps. However, CoT alone does not fully address the hallucination problem. In this work, we investigate how combining CoT with retrieval-augmented generation (RAG), as well as applying self-consistency and self-verification strategies, can reduce hallucinations and improve factual accuracy. By incorporating external knowledge sources during reasoning and enabling models to verify or revise their own outputs, we aim to generate more accurate and coherent responses. We present a comparative evaluation of baseline LLMs against CoT, CoT+RAG, self-consistency, and self-verification techniques. Our results highlight the effectiveness of each method and identify the most robust approach for minimizing hallucinations while preserving fluency and reasoning depth.

arxiv情報

著者 Adarsh Kumar,Hwiyoon Kim,Jawahar Sai Nathani,Neil Roy
発行日 2025-05-13 23:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Improving the Reliability of LLMs: Combining CoT, RAG, Self-Consistency, and Self-Verification はコメントを受け付けていません

Atomic Consistency Preference Optimization for Long-Form Question Answering

要約

大規模な言語モデル(LLM)は、頻繁にファクトイドの幻覚を生成します – もっともらしいが誤った答え。
一般的な緩和戦略はモデルアラインメントであり、これにより、キュレーションされた事実と非操作のペアに関するトレーニングによって事実上の正確さが向上します。
ただし、このアプローチは、多くの場合、より強力なモデル(GPT-4など)または事実上の正確性を評価するための外部知識ベースに依存しています。
これに対処するために、外部の監督なしで事実上の精度を向上させる自己監視の優先順位調整方法である原子一貫性選好最適化(ACPO)を提案します。
ACPOは、モデルアライメントの高品質および低品質のデータペアを特定するために、原子一貫性シグナル、つまり複数の確率的応答にわたる個々の事実の一致を活用します。
コストのかかるGPTコールの必要性を排除することにより、ACPOは、事実上の質問を改善するためのスケーラブルで効率的なアプローチを提供します。
自己監視にもかかわらず、経験的な結果は、ACPOが、長所データセットとバイオゲンデータセットで1.95ポイントで、強力な監視されたアライメントベースラインである事実能を上回ることを示しており、外部モデルや知識ベースに依存することなく事実上の信頼性を高める上でその有効性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) frequently produce factoid hallucinations – plausible yet incorrect answers. A common mitigation strategy is model alignment, which improves factual accuracy by training on curated factual and non-factual pairs. However, this approach often relies on a stronger model (e.g., GPT-4) or an external knowledge base to assess factual correctness, which may not always be accessible. To address this, we propose Atomic Consistency Preference Optimization (ACPO), a self-supervised preference-tuning method that enhances factual accuracy without external supervision. ACPO leverages atomic consistency signals, i.e., the agreement of individual facts across multiple stochastic responses, to identify high- and low-quality data pairs for model alignment. By eliminating the need for costly GPT calls, ACPO provides a scalable and efficient approach to improving factoid question-answering. Despite being self-supervised, empirical results demonstrate that ACPO outperforms FactAlign, a strong supervised alignment baseline, by 1.95 points on the LongFact and BioGen datasets, highlighting its effectiveness in enhancing factual reliability without relying on external models or knowledge bases.

arxiv情報

著者 Jingfeng Chen,Raghuveer Thirukovalluru,Junlin Wang,Kaiwei Luo,Bhuwan Dhingra
発行日 2025-05-14 00:39:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Atomic Consistency Preference Optimization for Long-Form Question Answering はコメントを受け付けていません