ConExion: Concept Extraction with Large Language Models

要約

この論文では、事前に訓練された大手言語モデル(LLMS)を使用したドキュメントからの概念抽出のアプローチを提示します。
ドキュメントで説明されている重要な情報を要約するキーフレーズを抽出する従来の方法と比較して、私たちのアプローチは、重要なドメインだけでなく、特定のドメインに関連するすべての現在の概念を抽出するというより困難なタスクに取り組んでいます。
広く使用されている2つのベンチマークデータセットの包括的な評価を通じて、私たちの方法は、最先端の手法と比較してF1スコアを改善することを実証します。
さらに、監視されていない概念抽出のためにこれらのモデル内でプロンプトを使用する可能性を調査します。
抽出された概念は、オントロジーのドメインカバレッジ評価をサポートし、オントロジー学習を促進することを目的としており、概念抽出タスクにおけるLLMの有効性を強調しています。
ソースコードとデータセットは、https://github.com/ise-fizkarlsruhe/concept_extractionで公開されています。

要約(オリジナル)

In this paper, an approach for concept extraction from documents using pre-trained large language models (LLMs) is presented. Compared with conventional methods that extract keyphrases summarizing the important information discussed in a document, our approach tackles a more challenging task of extracting all present concepts related to the specific domain, not just the important ones. Through comprehensive evaluations of two widely used benchmark datasets, we demonstrate that our method improves the F1 score compared to state-of-the-art techniques. Additionally, we explore the potential of using prompts within these models for unsupervised concept extraction. The extracted concepts are intended to support domain coverage evaluation of ontologies and facilitate ontology learning, highlighting the effectiveness of LLMs in concept extraction tasks. Our source code and datasets are publicly available at https://github.com/ISE-FIZKarlsruhe/concept_extraction.

arxiv情報

著者 Ebrahim Norouzi,Sven Hertling,Harald Sack
発行日 2025-04-17 13:05:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | ConExion: Concept Extraction with Large Language Models はコメントを受け付けていません

Are Retrials All You Need? Enhancing Large Language Model Reasoning Without Verbalized Feedback

要約

大規模な言語モデル(LLMS)の最近の進歩により、汎用の自律剤の開発が触媒され、さまざまなドメインにわたる複雑な推論タスクの顕著なパフォーマンスが示されています。
このサージは、迅速な推論フレームワークの多数の進化に拍車をかけています。
最近の焦点は、自己評価と言葉によるフィードバックを通じて出力を改良する反復推論戦略にありました。
ただし、これらの戦略には、モデルが間違いを認識して修正できるようにするために、追加の計算の複雑さが必要であり、コストが大幅に増加します。
この作業では、LLMSが誤った回答を特定して問題解決の試みを再試行できるようにすることにより、恥ずかしくてシンプルでありながら強力なメカニズムである「フィードバックなしでは、フィードバックなしでの再試行」の概念を紹介します。
従来の反復改良方法とは異なり、私たちの方法では、明示的な自己反省または言葉によるフィードバックを必要とせず、改良プロセスを簡素化します。
私たちの調査結果は、より単純な再試行ベースのアプローチが、より洗練された推論フレームワークよりも優れていることが多く、複雑な方法の利点が常に計算コストを正当化するとは限らないことを示唆していることを示しています。
より複雑な推論戦略が本質的により良いパフォーマンスにつながるという一般的な仮定に挑戦することにより、私たちの仕事は、よりシンプルでより効率的なアプローチが最適な結果をどのように達成できるかについての新しい洞察を提供します。
それで、あなたが必要とするすべてのレトリアルはありますか?

要約(オリジナル)

Recent advancements in large language models (LLMs) have catalyzed the development of general-purpose autonomous agents, demonstrating remarkable performance in complex reasoning tasks across various domains. This surge has spurred the evolution of a plethora of prompt-based reasoning frameworks. A recent focus has been on iterative reasoning strategies that refine outputs through self-evaluation and verbalized feedback. However, these strategies require additional computational complexity to enable models to recognize and correct their mistakes, leading to a significant increase in their cost. In this work, we introduce the concept of “retrials without feedback”, an embarrassingly simple yet powerful mechanism for enhancing reasoning frameworks by allowing LLMs to retry problem-solving attempts upon identifying incorrect answers. Unlike conventional iterative refinement methods, our method does not require explicit self-reflection or verbalized feedback, simplifying the refinement process. Our findings indicate that simpler retrial-based approaches often outperform more sophisticated reasoning frameworks, suggesting that the benefits of complex methods may not always justify their computational costs. By challenging the prevailing assumption that more intricate reasoning strategies inherently lead to better performance, our work offers new insights into how simpler, more efficient approaches can achieve optimal results. So, are retrials all you need?

arxiv情報

著者 Nearchos Potamitis,Akhil Arora
発行日 2025-04-17 13:52:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Are Retrials All You Need? Enhancing Large Language Model Reasoning Without Verbalized Feedback はコメントを受け付けていません

Estimating Optimal Context Length for Hybrid Retrieval-augmented Multi-document Summarization

要約

言語モデルのロングコンテキスト推論能力の最近の進歩により、大規模なマルチドキュメントの要約における興味深いアプリケーションにつながりました。
ただし、以前の作業では、これらの長いコンテストモデルがクレームされたコンテキストウィンドウで効果的ではないことが示されています。
この目的のために、検索された高級システムは効率的かつ効果的な代替手段を提供します。
ただし、そのパフォーマンスは、検索コンテキストの長さの選択に非常に敏感です。
この作業では、検索されたシステムと最近の言語モデルでサポートされている長いコンテキストウィンドウを組み合わせたハイブリッドメソッドを提示します。
私たちの方法では、最初に、レトリバー、サマラライザー、およびデータセットの関数として最適な検索長を推定します。
データセットのランダムにサンプリングされたサブセットでは、LLMSのパネルを使用して銀の参照のプールを生成します。
これらの銀の参照を使用して、特定のRAGシステム構成の最適なコンテキスト長を推定します。
マルチドキュメント要約タスクに関する結果は、モデルクラスとサイズにわたるメソッドの有効性を示しています。
RulerやHelmetなどの強力な長いコンテキストベンチマークからの長さの推定値と比較します。
また、分析は、非常に長いコンテキストLMSの推定方法の有効性と、LMSの新しいクラスへの一般化を強調しています。

要約(オリジナル)

Recent advances in long-context reasoning abilities of language models led to interesting applications in large-scale multi-document summarization. However, prior work has shown that these long-context models are not effective at their claimed context windows. To this end, retrieval-augmented systems provide an efficient and effective alternative. However, their performance can be highly sensitive to the choice of retrieval context length. In this work, we present a hybrid method that combines retrieval-augmented systems with long-context windows supported by recent language models. Our method first estimates the optimal retrieval length as a function of the retriever, summarizer, and dataset. On a randomly sampled subset of the dataset, we use a panel of LLMs to generate a pool of silver references. We use these silver references to estimate the optimal context length for a given RAG system configuration. Our results on the multi-document summarization task showcase the effectiveness of our method across model classes and sizes. We compare against length estimates from strong long-context benchmarks such as RULER and HELMET. Our analysis also highlights the effectiveness of our estimation method for very long-context LMs and its generalization to new classes of LMs.

arxiv情報

著者 Adithya Pratapa,Teruko Mitamura
発行日 2025-04-17 14:24:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Estimating Optimal Context Length for Hybrid Retrieval-augmented Multi-document Summarization はコメントを受け付けていません

Sparks of Science: Hypothesis Generation Using Structured Paper Data

要約

斬新で創造的な科学的仮説を生成することは、人工的な一般情報を達成するための基礎です。
大規模な言語と推論モデルは、科学的に情報に基づいた仮説の体系的な創造、選択、および検証を支援する可能性があります。
しかし、現在の基礎モデルは、斬新で実行可能な科学的アイデアを作成するのに苦労しています。
理由の1つは、科学的仮説生成(SHG)を自然言語生成(NLG)タスクとしてフレーム化する専用のデータセットがないことです。
このホワイトペーパーでは、約5500の構造化された問題ヒポテシスペアの最初のデータセットであるHypogenを紹介します。ビットフリップスパークスキーマで構成された一流のコンピューターサイエンス会議から抽出されました。ビットは従来の仮定です。
Hypogenは、ビットからフリップまでの知的プロセスを反映する明示的なチェーンのコンポーネントを独自に統合します。
条件付き言語モデリングとしてのフレーミング仮説の生成は、モデルがビットフリップスパークで微調整され、季節ごとに微調整されていることを実証します(そして、推論ではビットのみを提供します)が、仮説の全体的な品質の改善につながることを実証します。
当社の評価では、全体的な品質評価のために、自動化されたメトリックとLLMジャッジランキングを採用しています。
Hypogenデータセットで微調整することにより、生成された仮説の斬新さ、実現可能性、全体的な品質を改善することを示します。
仮説データセットは、huggingface.co/datasets/universetbd/hypogen-dr1で公開されています。

要約(オリジナル)

Generating novel and creative scientific hypotheses is a cornerstone in achieving Artificial General Intelligence. Large language and reasoning models have the potential to aid in the systematic creation, selection, and validation of scientifically informed hypotheses. However, current foundation models often struggle to produce scientific ideas that are both novel and feasible. One reason is the lack of a dedicated dataset that frames Scientific Hypothesis Generation (SHG) as a Natural Language Generation (NLG) task. In this paper, we introduce HypoGen, the first dataset of approximately 5500 structured problem-hypothesis pairs extracted from top-tier computer science conferences structured with a Bit-Flip-Spark schema, where the Bit is the conventional assumption, the Spark is the key insight or conceptual leap, and the Flip is the resulting counterproposal. HypoGen uniquely integrates an explicit Chain-of-Reasoning component that reflects the intellectual process from Bit to Flip. We demonstrate that framing hypothesis generation as conditional language modelling, with the model fine-tuned on Bit-Flip-Spark and the Chain-of-Reasoning (and where, at inference, we only provide the Bit), leads to improvements in the overall quality of the hypotheses. Our evaluation employs automated metrics and LLM judge rankings for overall quality assessment. We show that by fine-tuning on our HypoGen dataset we improve the novelty, feasibility, and overall quality of the generated hypotheses. The HypoGen dataset is publicly available at huggingface.co/datasets/UniverseTBD/hypogen-dr1.

arxiv情報

著者 Charles O’Neill,Tirthankar Ghosal,Roberta Răileanu,Mike Walmsley,Thang Bui,Kevin Schawinski,Ioana Ciucă
発行日 2025-04-17 14:29:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Sparks of Science: Hypothesis Generation Using Structured Paper Data はコメントを受け付けていません

Unipa-GPT: Large Language Models for university-oriented QA in Italian

要約

このペーパーでは、パレルモ大学で学生/修士号コースを選択するのを支援するために開発された大規模な言語モデルに依存しているチャットボットであるUnipa-GPTのアーキテクチャとトレーニングを示しています。
Unipa-GPTはGPT-3.5-Turboに依存しており、ヨーロッパの研究者の夜(鋭い夜)の文脈で提示されました。
実験では、検索拡張生成(RAG)アプローチとシステムを開発するための微調整の両方を採用しました。
Unipa-GPTのアーキテクチャ全体が提示されています。RAGと微調整されたシステムの両方を比較し、パフォーマンスに関する簡単な議論が報告されています。
他の大規模な言語モデルとのさらなる比較および鋭い夜の実験結果が示されています。
CorporaとコードはGithubで利用できます

要約(オリジナル)

This paper illustrates the architecture and training of Unipa-GPT, a chatbot relying on a Large Language Model, developed for assisting students in choosing a bachelor/master degree course at the University of Palermo. Unipa-GPT relies on gpt-3.5-turbo, it was presented in the context of the European Researchers’ Night (SHARPER night). In our experiments we adopted both the Retrieval Augmented Generation (RAG) approach and fine-tuning to develop the system. The whole architecture of Unipa-GPT is presented, both the RAG and the fine-tuned systems are compared, and a brief discussion on their performance is reported. Further comparison with other Large Language Models and the experimental results during the SHARPER night are illustrated. Corpora and code are available on GitHub

arxiv情報

著者 Irene Siragusa,Roberto Pirrone
発行日 2025-04-17 14:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Unipa-GPT: Large Language Models for university-oriented QA in Italian はコメントを受け付けていません

MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory

要約

現在の大規模な言語モデル(LLM)は、多くの知識関連のタスクでうまく機能しますが、暗黙のストレージメカニズムとしてパラメーターに依存することにより制限されます。
その結果、彼らはまれな出来事を暗記し、事実が時間とともに変化するにつれて記憶を更新することに苦労しています。
さらに、パラメトリックメモリの解釈不可能な性質により、幻覚を防ぐことが困難になります。
メモリに特化したパラメーターでLLMを編集および増強することは、部分的な解決策のみです。
このペーパーでは、構造化された明示的な読み取りとワイトメモリモジュールを統合することにより、LLMを強化する新しい方法であるMEMLLMを紹介します。
MEMLLMは、メモリとの動的な相互作用を可能にし、保存された知識を使用するLLMの能力を改善することにより、前述の課題に取り組みます。
私たちの実験は、MEMLLMが一般的な言語モデリングと特に知識集約的なタスクにおけるLLMのパフォーマンスと解釈性を高めることを示しています。
Memllmは、LLMをより根拠のあるものにし、記憶の増強を通じて事実にするための重要なステップであると考えています。
プロジェクトリポジトリは、https://github.com/amodaresi/memllmで公開されています

要約(オリジナル)

While current large language models (LLMs) perform well on many knowledge-related tasks, they are limited by relying on their parameters as an implicit storage mechanism. As a result, they struggle with memorizing rare events and with updating their memory as facts change over time. In addition, the uninterpretable nature of parametric memory makes it challenging to prevent hallucination. Model editing and augmenting LLMs with parameters specialized for memory are only partial solutions. In this paper, we introduce MemLLM, a novel method of enhancing LLMs by integrating a structured and explicit read-and-write memory module. MemLLM tackles the aforementioned challenges by enabling dynamic interaction with the memory and improving the LLM’s capabilities in using stored knowledge. Our experiments indicate that MemLLM enhances the LLM’s performance and interpretability, in language modeling in general and knowledge-intensive tasks in particular. We see MemLLM as an important step towards making LLMs more grounded and factual through memory augmentation. The project repository is publicly available at https://github.com/amodaresi/MemLLM

arxiv情報

著者 Ali Modarressi,Abdullatif Köksal,Ayyoob Imani,Mohsen Fayyaz,Hinrich Schütze
発行日 2025-04-17 15:10:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory はコメントを受け付けていません

How Large Language Models Are Changing MOOC Essay Answers: A Comparison of Pre- and Post-LLM Responses

要約

2022年後半にChatGptがリリースされたことで、学術および教育コミュニティにおける活動と懸念が急増しました。
少なくとも大まかな検査に合格する人間のようなテキストを生成するツールの能力は、「頻繁に十分に」情報検索とコンピューター支援学習の黄金時代です。
一方、ある人は、ツールが前例のないレベルの学問的不正と不正行為につながるのではないかと心配しています。
この作業では、AI倫理に関する無料の大学レベルのMOOCからの学生エッセイ応答の複数年のデータセットを分析することにより、オンライン教育に対する大規模な言語モデル(LLM)の出現の効果の一部を定量化します。
データセットには、ChatGPTのリリースの前後に提出されたエッセイが含まれています。
ChatGptの発売は、学生のエッセイの長さとスタイルの両方の大幅な変化と一致し、アカデミック出版などの他のコンテキストでの観察を反映していることがわかりました。
また、関連する公の言説に基づいて予想されるように、AIおよびLLMに関連する重要なコンテンツ語の有病率の変化も観察しますが、必ずしも(動的)トピックモデリングを通じて特定された学生エッセイで議論された一般的なテーマまたはトピックではありません。

要約(オリジナル)

The release of ChatGPT in late 2022 caused a flurry of activity and concern in the academic and educational communities. Some see the tool’s ability to generate human-like text that passes at least cursory inspections for factual accuracy “often enough” a golden age of information retrieval and computer-assisted learning. Some, on the other hand, worry the tool may lead to unprecedented levels of academic dishonesty and cheating. In this work, we quantify some of the effects of the emergence of Large Language Models (LLMs) on online education by analyzing a multi-year dataset of student essay responses from a free university-level MOOC on AI ethics. Our dataset includes essays submitted both before and after ChatGPT’s release. We find that the launch of ChatGPT coincided with significant changes in both the length and style of student essays, mirroring observations in other contexts such as academic publishing. We also observe — as expected based on related public discourse — changes in prevalence of key content words related to AI and LLMs, but not necessarily the general themes or topics discussed in the student essays as identified through (dynamic) topic modeling.

arxiv情報

著者 Leo Leppänen,Lili Aunimo,Arto Hellas,Jukka K. Nurminen,Linda Mannila
発行日 2025-04-17 15:51:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, I.2.7 | How Large Language Models Are Changing MOOC Essay Answers: A Comparison of Pre- and Post-LLM Responses はコメントを受け付けていません

Arabizi vs LLMs: Can the Genie Understand the Language of Aladdin?

要約

急速な技術の進歩のこの時代に、新しい言語現象が出現するにつれてコミュニケーションが進化し続けています。
これらの中には、アラブのコミュニティの話された方言を表すためにラテン語と数字を取り入れたアラビア語のハイブリッド形式のアラビツィがいます。
Arabiziはソーシャルメディアで広く使用されており、人々が非公式でダイナミックな方法でコミュニケーションをとることができますが、正式な構造の欠如と深く組み込まれた文化的ニュアンスのために、機械翻訳に大きな課題をもたらします。
このケーススタディは、概要の目的でアラビツィを翻訳する必要性の高まりから生じます。
これは、これまでめったに研究されていない複数のアラビア語の方言に焦点を当てて、アラビツィをデコードして翻訳するさまざまなLLMの能力を評価します。
この研究プロジェクトは、人間の評価者と自動メトリックの組み合わせを使用して、アラビツィを現代の標準的なアラビア語と英語の両方に変換する際のモデルのパフォーマンスを調査します。
調査された重要な質問には、どの方言が最も効果的に翻訳されているか、そして英語への翻訳がそれらをアラビア語に超えるかどうかが含まれます。

要約(オリジナル)

In this era of rapid technological advancements, communication continues to evolve as new linguistic phenomena emerge. Among these is Arabizi, a hybrid form of Arabic that incorporates Latin characters and numbers to represent the spoken dialects of Arab communities. Arabizi is widely used on social media and allows people to communicate in an informal and dynamic way, but it poses significant challenges for machine translation due to its lack of formal structure and deeply embedded cultural nuances. This case study arises from a growing need to translate Arabizi for gisting purposes. It evaluates the capacity of different LLMs to decode and translate Arabizi, focusing on multiple Arabic dialects that have rarely been studied up until now. Using a combination of human evaluators and automatic metrics, this research project investigates the model’s performance in translating Arabizi into both Modern Standard Arabic and English. Key questions explored include which dialects are translated most effectively and whether translations into English surpass those into Arabic.

arxiv情報

著者 Perla Al Almaoui,Pierrette Bouillon,Simon Hengchen
発行日 2025-04-17 16:07:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Arabizi vs LLMs: Can the Genie Understand the Language of Aladdin? はコメントを受け付けていません

Tackling Social Bias against the Poor: A Dataset and Taxonomy on Aporophobia

要約

貧困の根絶は、国連の持続可能な開発目標における最初の目標です。
しかし、貧困の中で生きる人々に対する社会的偏見であるアポロフォビアは、貧困緩和政策の設計、承認、および実施の主要な障害を構成します。
この研究は、ソーシャルメディアで貧しい人々に対する有害な信念と差別的行動を特定して追跡するために、アポロ恐怖症の概念を運用するための最初のステップを提示します。
非営利団体や政府組織と緊密に協力して、データ収集と調査を実施しています。
次に、(1)アポロ恐怖症の直接的な表現の存在のために、5つの世界地域からの英語のツイートのコーパス、および(2)他の人のアポロビック見解や行動を参照または批判する声明を手動で注釈し、貧困層に対するバイアスと差別に関連するソーシャルメディアの言説を包括的に特徴付けます。
注釈付きデータに基づいて、ソーシャルメディアでのスピーチを通じて表明されたアポロビクビックな態度と行動のカテゴリの分類法を考案します。
最後に、いくつかの分類器を訓練し、ソーシャルネットワークでのアポロ恐怖症の自動検出のための主な課題を特定します。
この作品は、大規模なソーシャルメディアでのアポロ恐怖症の見解を特定、追跡、および緩和するための道を開きます。

要約(オリジナル)

Eradicating poverty is the first goal in the United Nations Sustainable Development Goals. However, aporophobia — the societal bias against people living in poverty — constitutes a major obstacle to designing, approving and implementing poverty-mitigation policies. This work presents an initial step towards operationalizing the concept of aporophobia to identify and track harmful beliefs and discriminative actions against poor people on social media. In close collaboration with non-profits and governmental organizations, we conduct data collection and exploration. Then we manually annotate a corpus of English tweets from five world regions for the presence of (1) direct expressions of aporophobia, and (2) statements referring to or criticizing aporophobic views or actions of others, to comprehensively characterize the social media discourse related to bias and discrimination against the poor. Based on the annotated data, we devise a taxonomy of categories of aporophobic attitudes and actions expressed through speech on social media. Finally, we train several classifiers and identify the main challenges for automatic detection of aporophobia in social networks. This work paves the way towards identifying, tracking, and mitigating aporophobic views on social media at scale.

arxiv情報

著者 Georgina Curto,Svetlana Kiritchenko,Muhammad Hammad Fahim Siddiqui,Isar Nejadgholi,Kathleen C. Fraser
発行日 2025-04-17 16:53:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Tackling Social Bias against the Poor: A Dataset and Taxonomy on Aporophobia はコメントを受け付けていません

Energy-Based Reward Models for Robust Language Model Alignment

要約

報酬モデル(RMS)は、大規模な言語モデル(LLM)を人間の好みに合わせるために不可欠です。
しかし、彼らはしばしば、複雑な人間の好みをキャプチャし、目に見えないデータへの一般化に苦労しています。
これらの課題に対処するために、RMの堅牢性と一般化を強化する軽量の事後精製フレームワークであるエネルギーベースの報酬モデル(EBRM)を紹介します。
EBRMは報酬分布を明示的にモデル化し、人間の好みに不確実性を捉え、ノイズの多い注釈の影響を軽減します。
これは、競合するデータフィルタリング、ラベルノイズを意識したコントラストトレーニング、およびハイブリッド初期化を通じてこれを達成します。
特に、EBRMは再訓練せずにRMSを強化し、異なるモデルやタスクで計算上効率的で適応可能にします。
RMベンチマークでの経験的評価は、堅牢性と一般化の両方の大幅な改善を示し、標準のRMSと比較して安全性が批判的なアライメントタスクの最大5.97%の改善を達成しました。
さらに、補強学習実験は、洗練された報酬がアライメント品質を向上させ、報酬のハッキングを効果的に遅らせることを確認しています。
これらの結果は、既存のRMSおよびアライメントパイプラインのスケーラブルで効果的な強化としてのアプローチを示しています。
コードはEBRMで利用できます。

要約(オリジナル)

Reward models (RMs) are essential for aligning Large Language Models (LLMs) with human preferences. However, they often struggle with capturing complex human preferences and generalizing to unseen data. To address these challenges, we introduce Energy-Based Reward Model (EBRM), a lightweight post-hoc refinement framework that enhances RM robustness and generalization. EBRM models the reward distribution explicitly, capturing uncertainty in human preferences and mitigating the impact of noisy or misaligned annotations. It achieves this through conflict-aware data filtering, label-noise-aware contrastive training, and hybrid initialization. Notably, EBRM enhances RMs without retraining, making it computationally efficient and adaptable across different models and tasks. Empirical evaluations on RM benchmarks demonstrate significant improvements in both robustness and generalization, achieving up to a 5.97% improvement in safety-critical alignment tasks compared to standard RMs. Furthermore, reinforcement learning experiments confirm that our refined rewards enhance alignment quality, effectively delaying reward hacking. These results demonstrate our approach as a scalable and effective enhancement for existing RMs and alignment pipelines. The code is available at EBRM.

arxiv情報

著者 Anamika Lochab,Ruqi Zhang
発行日 2025-04-17 17:47:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Energy-Based Reward Models for Robust Language Model Alignment はコメントを受け付けていません