Considering Length Diversity in Retrieval-Augmented Summarization

要約

この研究では、以前の作業でカバーされていない長さの制約の下での模範的な概要の長さの影響を具体的に調べることにより、検索された高級要約を調査します。
サマリーの長さをより適切に制御するために、多様な長さを認識した最大限界関連性(DL-MMR)アルゴリズムを提案します。
このアルゴリズムは、検索された要約におけるクエリの関連性と多様なターゲット長さを組み合わせます。
MMRを使用した徹底的な例示的な関連性の比較を必要とする以前の方法とは異なり、DL-MMRは模範的なターゲットの長さも考慮し、模範を互いに比較することを避け、それにより模範的なプールの構築中の計算コストを削減し、メモリを保存します。
実験結果は、元のMMRアルゴリズムと比較して、長さの多様性を考慮するDL-MMRの有効性を示しました。
DL-MMRはさらに、同じレベルの情報レベルを維持しながら、781,513倍のメモリ保存と500,092倍の計算コスト削減における有効性を示しました。

要約(オリジナル)

This study investigates retrieval-augmented summarization by specifically examining the impact of exemplar summary lengths under length constraints, not covered by previous work. We propose a Diverse Length-aware Maximal Marginal Relevance (DL-MMR) algorithm to better control summary lengths. This algorithm combines the query relevance with diverse target lengths in retrieval-augmented summarization. Unlike previous methods that necessitate exhaustive exemplar exemplar relevance comparisons using MMR, DL-MMR considers the exemplar target length as well and avoids comparing exemplars to each other, thereby reducing computational cost and conserving memory during the construction of an exemplar pool. Experimental results showed the effectiveness of DL-MMR, which considers length diversity, compared to the original MMR algorithm. DL-MMR additionally showed the effectiveness in memory saving of 781,513 times and computational cost reduction of 500,092 times, while maintaining the same level of informativeness.

arxiv情報

著者 Juseon-Do,Jaesung Hwang,Jingun Kwon,Hidetaka Kamigaito,Manabu Okumura
発行日 2025-03-12 10:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | Considering Length Diversity in Retrieval-Augmented Summarization はコメントを受け付けていません

AI-native Memory 2.0: Second Me

要約

外部世界との人間の相互作用には、他の個人、ウェブサイト、アプリケーション、または将来、AIエージェントとのかに関わらず、個人的な記憶の交換が根本的に含まれます。
この相互作用のかなりの部分は冗長であり、ユーザーは異なるコンテキストで同じ情報を繰り返し提供する必要があります。
ブラウザで保存された資格情報、オートフィルメカニズム、統一された認証システムなどの既存のソリューションは、一般的に使用されるユーザーデータを保存および取得する仲介者として提供することにより、この冗長性を軽減することを目的としています。
大規模な言語モデル(LLMS)の出現は、AI-Nativeパラダイム:Second Meを通じてメモリ管理を再定義する機会を提供します。
セカンドMEは、ユーザー固有の知識を保持、整理、動的に利用するインテリジェントで永続的なメモリオフロードシステムとして機能します。
ユーザーインタラクションの仲介者として機能することにより、コンテキストを意識した応答を自律的に生成し、必要な情報をプレフィルで生成し、外部システムとのシームレスな通信を促進し、認知負荷と相互作用摩擦を大幅に削減できます。
従来のメモリストレージソリューションとは異なり、2番目のMEは、LLMベースのメモリパラメーター化を活用することにより、静的データ保持を超えて拡張されます。
これにより、構造化された組織、コンテキスト推論、および適応知識の検索が可能になり、メモリ管理に対するより体系的でインテリジェントなアプローチが促進されます。
Second MeのようなAI主導のパーソナルエージェントがデジタルエコシステムにますます統合されるようになるため、セカンドMEは、持続的で文脈的に認識され、自己光化するメモリシステムとの人間世界相互作用を強化するための重要なステップをさらに表しています。
Github:https://github.com/mindverse/second-meに完全にローカライズ可能な展開システムをオープンソースしました。

要約(オリジナル)

Human interaction with the external world fundamentally involves the exchange of personal memory, whether with other individuals, websites, applications, or, in the future, AI agents. A significant portion of this interaction is redundant, requiring users to repeatedly provide the same information across different contexts. Existing solutions, such as browser-stored credentials, autofill mechanisms, and unified authentication systems, have aimed to mitigate this redundancy by serving as intermediaries that store and retrieve commonly used user data. The advent of large language models (LLMs) presents an opportunity to redefine memory management through an AI-native paradigm: SECOND ME. SECOND ME acts as an intelligent, persistent memory offload system that retains, organizes, and dynamically utilizes user-specific knowledge. By serving as an intermediary in user interactions, it can autonomously generate context-aware responses, prefill required information, and facilitate seamless communication with external systems, significantly reducing cognitive load and interaction friction. Unlike traditional memory storage solutions, SECOND ME extends beyond static data retention by leveraging LLM-based memory parameterization. This enables structured organization, contextual reasoning, and adaptive knowledge retrieval, facilitating a more systematic and intelligent approach to memory management. As AI-driven personal agents like SECOND ME become increasingly integrated into digital ecosystems, SECOND ME further represents a critical step toward augmenting human-world interaction with persistent, contextually aware, and self-optimizing memory systems. We have open-sourced the fully localizable deployment system at GitHub: https://github.com/Mindverse/Second-Me.

arxiv情報

著者 Jiale Wei,Xiang Ying,Tao Gao,Fangyi Bao,Felix Tao,Jingbo Shang
発行日 2025-03-12 11:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | AI-native Memory 2.0: Second Me はコメントを受け付けていません

Unmask It! AI-Generated Product Review Detection in Dravidian Languages

要約

生成的AIの上昇は、AIに生成されたレビューの急増につながり、多くの場合、オンラインプラットフォームの信頼性に深刻な脅威をもたらします。
レビューは、製品とサービスに関する主要な情報源として機能します。
本物のレビューは、消費者の意思決定において重要な役割を果たします。
製造されたコンテンツの存在は、消費者を誤解させ、デジタル市場での潜在的な詐欺を信頼し、促進します。
この研究では、このドメインの研究が比較的経験していない2つの低リソース言語であるタミル語とマラヤーラム語でのAI生成された製品レビューの検出に焦点を当てています。
私たちは、従来の機械学習方法から、Indic-Bert、Indicsbert、Muril、XLM-Roberta、Malayalambertなどの高度な変圧器ベースのモデルまで、さまざまなアプローチに取り組みました。
私たちの調査結果は、AIが生成されたコンテンツを正確に識別する上で最先端の変圧器を活用することの有効性を強調し、低リソースの言語設定での偽のレビューの検出を強化する可能性を示しています。

要約(オリジナル)

The rise of Generative AI has led to a surge in AI-generated reviews, often posing a serious threat to the credibility of online platforms. Reviews serve as the primary source of information about products and services. Authentic reviews play a vital role in consumer decision-making. The presence of fabricated content misleads consumers, undermines trust and facilitates potential fraud in digital marketplaces. This study focuses on detecting AI-generated product reviews in Tamil and Malayalam, two low-resource languages where research in this domain is relatively under-explored. We worked on a range of approaches – from traditional machine learning methods to advanced transformer-based models such as Indic-BERT, IndicSBERT, MuRIL, XLM-RoBERTa and MalayalamBERT. Our findings highlight the effectiveness of leveraging the state-of-the-art transformers in accurately identifying AI-generated content, demonstrating the potential in enhancing the detection of fake reviews in low-resource language settings.

arxiv情報

著者 Somsubhra De,Advait Vats
発行日 2025-03-12 11:35:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Unmask It! AI-Generated Product Review Detection in Dravidian Languages はコメントを受け付けていません

SQLCritic: Correcting Text-to-SQL Generation via Clause-wise Critic

要約

テキスト間システムの最近の進歩により、自然言語クエリのSQLへの変換が改善されましたが、正確性と信頼性を確保することには課題が残っています。
自己修正技術は出力を改良しますが、多くの場合、新しいエラーを導入します。
実行フィードバックに焦点を当てた既存のメソッドは、主に構文の問題に対処し、クエリのロジックがユーザーの意図と一致しない場合、セマンティックエラーを残しています。
構造化された実行フィードバックと、詳細で解釈可能な批評を提供する訓練された批評家エージェントを組み合わせた新しいアプローチを提案します。
この方法は、構文エラーとセマンティックエラーの両方を効果的に識別および修正し、精度と解釈性を向上させます。
実験結果は、2つの主要なテキストからSQLのベンチマーク、クモと鳥の大幅な改善を示しており、アプローチの有効性を示しています。

要約(オリジナル)

Recent advancements in Text-to-SQL systems have improved the conversion of natural language queries into SQL, but challenges remain in ensuring accuracy and reliability. While self-correction techniques refine outputs, they often introduce new errors. Existing methods focused on execution feedback mainly address syntax issues, leaving semantic errors — where the query’s logic fails to align with the user’s intent — largely unaddressed. We propose a novel approach combining structured execution feedback with a trained critic agent that provides detailed, interpretable critiques. This method effectively identifies and corrects both syntactic and semantic errors, enhancing accuracy and interpretability. Experimental results show significant improvements on two major Text-to-SQL benchmarks, Spider and BIRD, demonstrating the effectiveness of our approach.

arxiv情報

著者 Jikai Chen,Leilei Gan
発行日 2025-03-12 11:41:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SQLCritic: Correcting Text-to-SQL Generation via Clause-wise Critic はコメントを受け付けていません

CiteFusion: An Ensemble Framework for Citation Intent Classification Harnessing Dual-Model Binary Couples and SHAP Analyses

要約

学術的引用の根底にある動機を理解することは、研究への影響を評価し、透明な学術コミュニケーションを促進するために重要です。
この研究では、ベンチマークデータセット、SCICITE、ACL-ARCのマルチクラス引用意図分類(CIC)タスクに対処するために設計されたアンサンブルフレームワークであるCiteFusionを紹介します。
このフレームワークは、タスクをバイナリ分類サブタスクに分解し、各引用意図に対して独立して微調整されたScibertおよびXLNetモデルの補完的なペアを使用します。
これらのベースモデルは、フィードフォワードニューラルネットワークメタ分類器を介して集約され、不均衡とデータスカースシナリオの堅牢なパフォーマンスを確保します。
解釈可能性を高めるために、SHAP(Shapley Additive説明)を採用して、ベースモデル間のトークンレベルの貢献と相互作用を分析し、分類ダイナミクスへの透明性を提供します。
さらに、セクションタイトルを入力文に組み込むことにより、構造コンテキストの意味的役割を調査し、分類の精度とモデルの信頼性に大きな影響を与えることを示します。
実験結果は、CiteFusionがSCICITEで89.60%、ACL-ARCで76.24%のMacro-F1スコアで最先端のパフォーマンスを達成することを示しています。
両方のデータセットからの元の意図は、相互運用性と再利用性を確保するために、オントロジー(CITO)オブジェクトのプロパティを引用するためにマッピングされます。
このマッピングは、2つのデータセットラベル間の重複を強調し、理解可能性と再利用性を高めます。
最後に、SCICITEで開発されたCiteFusionモデルを活用する引用意図を分類するWebベースのアプリケーションをリリースします。

要約(オリジナル)

Understanding the motivations underlying scholarly citations is critical for evaluating research impact and fostering transparent scholarly communication. This study introduces CiteFusion, an ensemble framework designed to address the multiclass Citation Intent Classification (CIC) task on benchmark datasets, SciCite and ACL-ARC. The framework decomposes the task into binary classification subtasks, utilizing complementary pairs of SciBERT and XLNet models fine-tuned independently for each citation intent. These base models are aggregated through a feedforward neural network meta-classifier, ensuring robust performance in imbalanced and data-scarce scenarios. To enhance interpretability, SHAP (SHapley Additive exPlanations) is employed to analyze token-level contributions and interactions among base models, providing transparency into classification dynamics. We further investigate the semantic role of structural context by incorporating section titles into input sentences, demonstrating their significant impact on classification accuracy and model reliability. Experimental results show that CiteFusion achieves state-of-the-art performance, with Macro-F1 scores of 89.60% on SciCite and 76.24% on ACL-ARC. The original intents from both datasets are mapped to Citation Typing Ontology (CiTO) object properties to ensure interoperability and reusability. This mapping highlights overlaps between the two datasets labels, enhancing their understandability and reusability. Finally, we release a web-based application that classifies citation intents leveraging CiteFusion models developed on SciCite.

arxiv情報

著者 Lorenzo Paolini,Sahar Vahdati,Angelo Di Iorio,Robert Wardenga,Ivan Heibi,Silvio Peroni
発行日 2025-03-12 11:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CiteFusion: An Ensemble Framework for Citation Intent Classification Harnessing Dual-Model Binary Couples and SHAP Analyses はコメントを受け付けていません

xVLM2Vec: Adapting LVLM-based embedding models to multilinguality using Self-Knowledge Distillation

要約

現在の文献では、ほとんどの埋め込みモデルは、エンコーダーのみのトランスアーキテクチャに基づいており、特定の入力の密な意味のある表現を抽出します。これは、テキスト、画像などです。
大規模な言語モデルの導入により、言語モデリングの最近の進歩により、これらの大規模で広範囲に訓練されたモデルから埋め込みを抽出する可能性が調査されています。
ただし、現在の研究は、英語のテキスト埋め込みに焦点を当てています。これは、これらのモデルが訓練されている主要言語でもあります。
さらに、マルチモーダルと多言語の入力を考慮するモデルはほとんどありません。
これに照らして、英語データで訓練された大規模なビジョン言語モデルの適応方法論を提案し、多言語埋め込みとマルチモーダル埋め込みを抽出する際のパフォーマンスを向上させます。
最後に、多言語およびマルチモーダル埋め込みモデルの有効性を評価するためのベンチマークを設計および導入します。

要約(オリジナル)

In the current literature, most embedding models are based on the encoder-only transformer architecture to extract a dense and meaningful representation of the given input, which can be a text, an image, and more. With the recent advances in language modeling thanks to the introduction of Large Language Models, the possibility of extracting embeddings from these large and extensively trained models has been explored. However, current studies focus on textual embeddings in English, which is also the main language on which these models have been trained. Furthermore, there are very few models that consider multimodal and multilingual input. In light of this, we propose an adaptation methodology for Large Vision-Language Models trained on English language data to improve their performance in extracting multilingual and multimodal embeddings. Finally, we design and introduce a benchmark to evaluate the effectiveness of multilingual and multimodal embedding models.

arxiv情報

著者 Elio Musacchio,Lucia Siciliani,Pierpaolo Basile,Giovanni Semeraro
発行日 2025-03-12 12:04:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | xVLM2Vec: Adapting LVLM-based embedding models to multilinguality using Self-Knowledge Distillation はコメントを受け付けていません

A Survey on Enhancing Causal Reasoning Ability of Large Language Models

要約

大規模な言語モデル(LLM)は最近、言語タスクおよびそれ以降で顕著なパフォーマンスを示しています。
ただし、固有の因果推論能力が限られているため、LLMは、ヘルスケアや経済分析などの堅牢な因果推論能力を必要とするタスクの処理において依然として課題に直面しています。
その結果、増え続ける研究により、LLMSの因果的推論能力の向上に焦点を当てています。
活況を呈している研究にもかかわらず、この分野の課題、進歩、将来の方向を十分に検討するための調査がありません。
この重要なギャップを埋めるために、この論文のLLMSの因果推論能力を強化する方法に関する文献を体系的にレビューします。
このトピックの背景と動機の導入から始めて、この分野での重要な課題の要約が続きます。
その後、既存のメソッドを体系的に分類し、メソッドのクラス内およびクラス間の詳細な比較とともに、新しい分類を提案します。
さらに、LLMSの因果推論能力を評価するための既存のベンチマークと評価メトリックを要約します。
最後に、この新興分野の将来の研究の方向性を概説し、この地域の研究者と実践者に洞察とインスピレーションを提供します。

要約(オリジナル)

Large language models (LLMs) have recently shown remarkable performance in language tasks and beyond. However, due to their limited inherent causal reasoning ability, LLMs still face challenges in handling tasks that require robust causal reasoning ability, such as health-care and economic analysis. As a result, a growing body of research has focused on enhancing the causal reasoning ability of LLMs. Despite the booming research, there lacks a survey to well review the challenges, progress and future directions in this area. To bridge this significant gap, we systematically review literature on how to strengthen LLMs’ causal reasoning ability in this paper. We start from the introduction of background and motivations of this topic, followed by the summarisation of key challenges in this area. Thereafter, we propose a novel taxonomy to systematically categorise existing methods, together with detailed comparisons within and between classes of methods. Furthermore, we summarise existing benchmarks and evaluation metrics for assessing LLMs’ causal reasoning ability. Finally, we outline future research directions for this emerging field, offering insights and inspiration to researchers and practitioners in the area.

arxiv情報

著者 Xin Li,Zhuo Cai,Shoujin Wang,Kun Yu,Fang Chen
発行日 2025-03-12 12:20:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Survey on Enhancing Causal Reasoning Ability of Large Language Models はコメントを受け付けていません

Investigating User Perspectives on Differentially Private Text Privatization

要約

最近の文献では、$ \ textit {差別的に私的な自然言語処理} $(DP NLP)でかなりの増加が見られました。
これには、DPテキストの民営化が含まれます。ここでは、潜在的に機密の入力テキストがDPの下で変換され、理想的には機密情報$ \ TextIT {および} $をマスクする民営化された出力テキストを実現します。
DPテキストの民営化におけるオープンな課題に対処するための継続的な作業にもかかわらず、このテクノロジーのユーザー認識に対処する作業が不足しています。これは、実際の採用に対する最終的な障壁として機能する重要な側面です。
この作業では、世界中の721のレイパーソンを使用した調査研究を実施し、$ \ textit {sinario} $、$ \ textit {data sensitivity} $、$ \ textit {メカニズムタイプ} $、および$ \ textit {データ収集の理由} $のユーザー好みに影響を与える方法を調査します。
これらすべての要因がプライバシーの決定に影響を与えるのに役割を果たしている一方で、ユーザーはプライベート出力テキストのユーティリティと一貫性に非常に敏感であることがわかります。
私たちの調査結果は、DP NLPの研究で考慮しなければならない社会技術的要因を強調し、今後のさらなるユーザーベースの調査への扉を開きます。

要約(オリジナル)

Recent literature has seen a considerable uptick in $\textit{Differentially Private Natural Language Processing}$ (DP NLP). This includes DP text privatization, where potentially sensitive input texts are transformed under DP to achieve privatized output texts that ideally mask sensitive information $\textit{and}$ maintain original semantics. Despite continued work to address the open challenges in DP text privatization, there remains a scarcity of work addressing user perceptions of this technology, a crucial aspect which serves as the final barrier to practical adoption. In this work, we conduct a survey study with 721 laypersons around the globe, investigating how the factors of $\textit{scenario}$, $\textit{data sensitivity}$, $\textit{mechanism type}$, and $\textit{reason for data collection}$ impact user preferences for text privatization. We learn that while all these factors play a role in influencing privacy decisions, users are highly sensitive to the utility and coherence of the private output texts. Our findings highlight the socio-technical factors that must be considered in the study of DP NLP, opening the door to further user-based investigations going forward.

arxiv情報

著者 Stephen Meisenbacher,Alexandra Klymenko,Alexander Karpp,Florian Matthes
発行日 2025-03-12 12:33:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Investigating User Perspectives on Differentially Private Text Privatization はコメントを受け付けていません

An Evaluation of LLMs for Detecting Harmful Computing Terms

要約

技術的なコンテキストで有害および非包括的な用語を検出することは、コンピューティングに包括的な環境を促進するために重要です。
この研究では、それぞれが特定のユースケースと組み合わせる技術用語のキュレーションデータベースを評価することにより、モデルアーキテクチャが有害な言語検出に与える影響を調査します。
Bert-Base-Uncased、Roberta Large-Mnli、Gemini Flash 1.5および2.0、GPT-4、Claude AI Sonnet 3.5、T5-Large、およびBart-Large-Mnliなど、エンコーダー、デコーダー、およびエンコーダーデコーダー言語モデルの範囲をテストしました。
各モデルには、64の用語で有害および非包括的な言語を識別するための標準化されたプロンプトが提示されました。
結果は、デコーダーモデル、特にGemini Flash 2.0とClaude AIが微妙なコンテキスト分析で優れていることを明らかにし、Bertのようなエンコーダーモデルは強力なパターン認識を示しますが、分類の確実性に苦労しています。
自動化された検出ツールを改善するためのこれらの調査結果の意味と、技術ドメインでの包括的コミュニケーションを促進する際のモデル固有の強みと制限を強調します。

要約(オリジナル)

Detecting harmful and non-inclusive terminology in technical contexts is critical for fostering inclusive environments in computing. This study explores the impact of model architecture on harmful language detection by evaluating a curated database of technical terms, each paired with specific use cases. We tested a range of encoder, decoder, and encoder-decoder language models, including BERT-base-uncased, RoBERTa large-mnli, Gemini Flash 1.5 and 2.0, GPT-4, Claude AI Sonnet 3.5, T5-large, and BART-large-mnli. Each model was presented with a standardized prompt to identify harmful and non-inclusive language across 64 terms. Results reveal that decoder models, particularly Gemini Flash 2.0 and Claude AI, excel in nuanced contextual analysis, while encoder models like BERT exhibit strong pattern recognition but struggle with classification certainty. We discuss the implications of these findings for improving automated detection tools and highlight model-specific strengths and limitations in fostering inclusive communication in technical domains.

arxiv情報

著者 Joshua Jacas,Hana Winchester,Alicia Boyd,Brittany Johnson
発行日 2025-03-12 12:36:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.ET | An Evaluation of LLMs for Detecting Harmful Computing Terms はコメントを受け付けていません

Safer or Luckier? LLMs as Safety Evaluators Are Not Robust to Artifacts

要約

大規模な言語モデル(LLM)は、生成されたコンテンツの安全性を評価するために自動評価者としてますます採用されていますが、この役割におけるそれらの信頼性は不確実なままです。
この研究では、重要な安全性ドメイン全体の11のLLMジャッジモデルの多様なセットを評価し、3つの重要な側面を調べます。繰り返し判断のタスクにおける自己整合性、人間の判断との整合性、および謝罪や冗長なフレージングなどのアーティファクトを入力する可能性。
私たちの調査結果は、LLM審査員のバイアスが、コンテンツソースがより安全である最終的な評決を大幅に歪め、比較評価の妥当性を損なうことができることを明らかにしています。
特に、謝罪の言語アーティファクトだけで、評価者の好みを最大98 \%でゆがめることができます。
期待に反して、より大きなモデルは一貫してより大きな堅牢性を示すものではありませんが、より小さなモデルは特定のアーティファクトに対してより高い抵抗を示すことがあります。
LLM評価者の堅牢性の問題を緩和するために、複数のモデルからの決定を集約するju審ベースの評価を調査します。
このアプローチは堅牢性を向上させ、人間の判断との整合性を高めますが、アーティファクトの感度は最高のju審員構成でも持続します。
これらの結果は、信頼できる安全性評価を確保するために、多様化されたアーティファクト耐性の方法論の緊急の必要性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) are increasingly employed as automated evaluators to assess the safety of generated content, yet their reliability in this role remains uncertain. This study evaluates a diverse set of 11 LLM judge models across critical safety domains, examining three key aspects: self-consistency in repeated judging tasks, alignment with human judgments, and susceptibility to input artifacts such as apologetic or verbose phrasing. Our findings reveal that biases in LLM judges can significantly distort the final verdict on which content source is safer, undermining the validity of comparative evaluations. Notably, apologetic language artifacts alone can skew evaluator preferences by up to 98\%. Contrary to expectations, larger models do not consistently exhibit greater robustness, while smaller models sometimes show higher resistance to specific artifacts. To mitigate LLM evaluator robustness issues, we investigate jury-based evaluations aggregating decisions from multiple models. Although this approach both improves robustness and enhances alignment to human judgements, artifact sensitivity persists even with the best jury configurations. These results highlight the urgent need for diversified, artifact-resistant methodologies to ensure reliable safety assessments.

arxiv情報

著者 Hongyu Chen,Seraphina Goldfarb-Tarrant
発行日 2025-03-12 12:49:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Safer or Luckier? LLMs as Safety Evaluators Are Not Robust to Artifacts はコメントを受け付けていません