pFedGPA: Diffusion-based Generative Parameter Aggregation for Personalized Federated Learning

要約

Federated Learning(FL)は、データがローカルのままであり、モデルパラメーターのみがクライアントとセントラルサーバーの間で共有されるモデルトレーニングに対する分散型アプローチを提供します。
フェデレーション平均(FedAVG)などの従来の方法は、通常、不均一なデータ分布で訓練されるこれらのパラメーターを直線的に集計し、パラメーター空間の複雑で高次元の性質を見落とす可能性があります。
これにより、集約モデルのパフォーマンスが低下する可能性があります。
パーソナライズされたFLアプローチは、不均一なデータの問題をある程度緩和することができますが、線形凝集の制限は未解決のままです。
この問題を軽減するために、拡散モデルの生成アプローチを調査し、パーソナライズされたFLの新しい生成パラメーター集約フレームワークを提案します\ texttt {pfedgpa}。
このフレームワークでは、サーバーに拡散モデルを展開して、多様なパラメーター分布を統合し、各クライアントのパーソナライズされたパラメーターのセットを効率的に生成するパラメーター反転法を提案します。
この反転法は、アップロードされたパラメーターを潜在コードに変換し、その後、最終的なパーソナライズされたパラメーターを作成するためにサンプリングを除去することで集約されます。
クライアントのモデルパラメーターが高容量拡散モデルを使用して特定のデータ分布に依存することにより、\ texttt {pfedgpa}は、個々のクライアントのパラメーターの複雑さからすべてのクライアントのモデルパラメーターの全体的な分布の複雑さを効果的に分離できます。
分布。
実験結果は、複数のデータセットで提案された方法の優れた性能を一貫して実証し、ベースラインアプローチを超えています。

要約(オリジナル)

Federated Learning (FL) offers a decentralized approach to model training, where data remains local and only model parameters are shared between the clients and the central server. Traditional methods, such as Federated Averaging (FedAvg), linearly aggregate these parameters which are usually trained on heterogeneous data distributions, potentially overlooking the complex, high-dimensional nature of the parameter space. This can result in degraded performance of the aggregated model. While personalized FL approaches can mitigate the heterogeneous data issue to some extent, the limitation of linear aggregation remains unresolved. To alleviate this issue, we investigate the generative approach of diffusion model and propose a novel generative parameter aggregation framework for personalized FL, \texttt{pFedGPA}. In this framework, we deploy a diffusion model on the server to integrate the diverse parameter distributions and propose a parameter inversion method to efficiently generate a set of personalized parameters for each client. This inversion method transforms the uploaded parameters into a latent code, which is then aggregated through denoising sampling to produce the final personalized parameters. By encoding the dependence of a client’s model parameters on the specific data distribution using the high-capacity diffusion model, \texttt{pFedGPA} can effectively decouple the complexity of the overall distribution of all clients’ model parameters from the complexity of each individual client’s parameter distribution. Our experimental results consistently demonstrate the superior performance of the proposed method across multiple datasets, surpassing baseline approaches.

arxiv情報

著者 Jiahao Lai,Jiaqi Li,Jian Xu,Yanru Wu,Boshi Tang,Siqi Chen,Yongfeng Huang,Wenbo Ding,Yang Li
発行日 2025-02-11 17:14:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | pFedGPA: Diffusion-based Generative Parameter Aggregation for Personalized Federated Learning はコメントを受け付けていません

DPO Meets PPO: Reinforced Token Optimization for RLHF

要約

人間のフィードバック(RLHF)フレームワークからの古典的な強化学習では、近位政策最適化(PPO)が採用され、まばらな文レベルの報酬から学ぶことが採用されています。
大規模な言語モデルの整合におけるPPOの大成功にもかかわらず、そのオープンソースの実装は依然として主に最適です。
これらの問題に対処するために、RLHFの問題をマルコフ決定プロセス(MDP)としてモデル化するフレームワークを紹介し、細粒のトークンごとの情報をキャプチャできるようにします。
このフレームワークの下で、補強トークン最適化(\ texttt {rto})を強化するアルゴリズムを導入します。これは、優先データからトークンごとの報酬機能を学習し、この学習したトークンごとの報酬信号に基づいてポリシー最適化を実行します。
理論的には、\ texttt {rto}は、最適に近いポリシーをサンプル効率的に見つける能力があることが証明されています。
その実用的な実装のために、\ texttt {rto}は、直接優先最適化(DPO)とPPOを革新的に統合します。
もともとはまばらな文の報酬に由来していたDPOは、驚くべきことに、応答品質のトークンごとの特性評価を提供します。これは、その後のPPOトレーニング段階にシームレスに組み込まれています。
広範な実験では、\ texttt {rto}がPPOおよびその他の直接選好学習アルゴリズムよりも優れたパフォーマンスを発揮することが示されています。
特に、RTOは、Alpacaeval 2ベンチマークでPPOを7.5ポイント、アリーナハードで4.1ポイント上回る。
私たちのコードとモデルは、\ href {https://github.com/zkshan2002/rto} {https://github.com/zkshan2002/rto}で入手できます。

要約(オリジナル)

In the classical Reinforcement Learning from Human Feedback (RLHF) framework, Proximal Policy Optimization (PPO) is employed to learn from sparse, sentence-level rewards — a challenging scenario in traditional deep reinforcement learning. Despite the great successes of PPO in the alignment of large language models, its open-source implementation is still largely sub-optimal. To address these issues, we introduce a framework that models RLHF problems as a Markov decision process (MDP), enabling the capture of fine-grained token-wise information. Under this framework, we introduce an algorithm Reinforced Token Optimization (\texttt{RTO}), which learns the token-wise reward function from preference data and performs policy optimization based on this learned token-wise reward signal. Theoretically, \texttt{RTO} is proven to have the capability of finding the near-optimal policy sample-efficiently. For its practical implementation, \texttt{RTO} innovatively integrates Direct Preference Optimization (DPO) and PPO. DPO, originally derived from sparse sentence rewards, surprisingly provides us with a token-wise characterization of response quality, which is seamlessly incorporated into our subsequent PPO training stage. Extensive experiments demonstrate that \texttt{RTO} performs better than PPO and other direct preference learning algorithms. In particular, RTO outperforms PPO by 7.5 points on the AlpacaEval 2 benchmark and by 4.1 points on Arena-Hard. Our code and models are available at \href{https://github.com/zkshan2002/RTO}{https://github.com/zkshan2002/RTO}.

arxiv情報

著者 Han Zhong,Zikang Shan,Guhao Feng,Wei Xiong,Xinle Cheng,Li Zhao,Di He,Jiang Bian,Liwei Wang
発行日 2025-02-11 17:23:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | DPO Meets PPO: Reinforced Token Optimization for RLHF はコメントを受け付けていません

Large Continual Instruction Assistant

要約

継続的な指導チューニング(CIT)は、データによる人間の意図データに従うように大規模なモデルに継続的に指示するために採用されています。
既存のグラデーションアップデートは、CITプロセス中に以前のデータセットのパフォーマンスを大幅に破壊することが観察されています。
代わりに、指数移動平均(EMA)は、以前のパラメーターを追跡する能力を所有しており、忘却の減少に役立ちます。
それにもかかわらず、その安定したバランスの重量は、絶えず変化するデータセットに対処できず、可塑性と安定性の間のバランスが崩れています。
この論文では、課題に対処するための一般的な継続的な指導チューニングフレームワークを提案します。
トレードオフの前提条件とEMAの更新から始めて、可塑性と安定性の理想的な状態を提案します。
損失関数のテイラーの拡張に基づいて、最適なバランス重量は勾配と学習パラメーターによって自動的に決定できることがわかります。
したがって、知識の混乱を避けるために、安定した可塑性バランス係数を提案します。
命令のセマンティックな類似性に基づいて、トレーニングパラメーターを再訓練または拡張するかどうかを判断し、テストインスタンスに最適なパラメーターを割り当てることができます。
複数の継続的な命令チューニングベンチマークにわたる広範な実験は、このアプローチが浸透防止能力を高めるだけでなく、全体的な継続的なチューニングパフォーマンスを大幅に改善することを示しています。
たとえば、LLAVA-7Bに基づいて、忘却は5.42から1.93に減少します。
私たちのコードはまもなく公開されます。

要約(オリジナル)

Continual Instruction Tuning (CIT) is adopted to continually instruct Large Models to follow human intent data by data. It is observed that existing gradient update would heavily destroy the performance on previous datasets during CIT process. Instead, Exponential Moving Average (EMA), owns the ability to trace previous parameters, which can aid in decreasing forgetting. Nonetheless, its stable balance weight fails to deal with the ever-changing datasets, leading to the out-of-balance between plasticity and stability. In this paper, we propose a general continual instruction tuning framework to address the challenge. Starting from the trade-off prerequisite and EMA update, we propose the plasticity and stability ideal condition. Based on Taylor expansion in the loss function, we find the optimal balance weight can be automatically determined by the gradients and learned parameters. Therefore, we propose a stable-plasticity balanced coefficient to avoid knowledge confusion. Based on the semantic similarity of the instructions, we can determine whether to retrain or expand the training parameters and allocate the most suitable parameters for the testing instances. Extensive experiments across multiple continual instruction tuning benchmarks demonstrate that our approach not only enhances anti-forgetting capabilities but also significantly improves overall continual tuning performance. For example, based on LLaVA-7B, the forgetting is reduced from 5.42 to 1.93. Our code will be made publicly available soon.

arxiv情報

著者 Jingyang Qiao,Zhizhong Zhang,Xin Tan,Yanyun Qu,Shouhong Ding,Yuan Xie
発行日 2025-02-11 17:31:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Large Continual Instruction Assistant はコメントを受け付けていません

TMLC-Net: Transferable Meta Label Correction for Noisy Label Learning

要約

実際のデータセットにおける騒々しいラベルの有病率は、深い学習モデルの効果的な展開に大きな障害をもたらします。
メタ学習戦略は、この課題に対処するための有望なアプローチとして浮上していますが、既存の方法は、限られた移転可能性とタスク固有の設計に苦しむことがよくあります。
このペーパーでは、これらの制限を克服するために設計されたノイズの多いラベルを修正するための新しい移転可能なメタ学習者であるTMLC-NETを紹介します。
TMLC-NETは、広範な再訓練や微調整を必要とせずに、多様なデータセットとモデルアーキテクチャに容易に適用できる汎用ラベル修正戦略を学習します。
当社のアプローチは、3つのコアコンポーネントを統合します。(1)トレーニングダイナミクスをキャプチャおよび正規化して分布シフトを処理する正規化されたノイズ知覚。
(2)再発性ニューラルネットワークを使用したサンプル統計の時間的進化をモデル化する時系列エンコーディング。
(3)学習表現に基づいて修正されたラベル分布を予測するサブクラスデコード。
さまざまなノイズタイプとレベルを持つベンチマークデータセットで広範な実験を実施し、TMLC-NETがノイズラベルを付ける精度と堅牢性の両方の点で最新の方法を常に上回ることを示しています。
さらに、TMLC-NETの転送可能性を分析し、新しいデータセットとノイズ条件への適応性を示し、騒々しい環境での堅牢な深い学習のための広く適用可能なソリューションとしての可能性を確立します。

要約(オリジナル)

The prevalence of noisy labels in real-world datasets poses a significant impediment to the effective deployment of deep learning models. While meta-learning strategies have emerged as a promising approach for addressing this challenge, existing methods often suffer from limited transferability and task-specific designs. This paper introduces TMLC-Net, a novel Transferable Meta-Learner for Correcting Noisy Labels, designed to overcome these limitations. TMLC-Net learns a general-purpose label correction strategy that can be readily applied across diverse datasets and model architectures without requiring extensive retraining or fine-tuning. Our approach integrates three core components: (1) Normalized Noise Perception, which captures and normalizes training dynamics to handle distribution shifts; (2) Time-Series Encoding, which models the temporal evolution of sample statistics using a recurrent neural network; and (3) Subclass Decoding, which predicts a corrected label distribution based on the learned representations. We conduct extensive experiments on benchmark datasets with various noise types and levels, demonstrating that TMLC-Net consistently outperforms state-of-the-art methods in terms of both accuracy and robustness to label noise. Furthermore, we analyze the transferability of TMLC-Net, showcasing its adaptability to new datasets and noise conditions, and establishing its potential as a broadly applicable solution for robust deep learning in noisy environments.

arxiv情報

著者 Mengyang Li
発行日 2025-02-11 17:33:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | TMLC-Net: Transferable Meta Label Correction for Noisy Label Learning はコメントを受け付けていません

Novelty Detection in Reinforcement Learning with World Models

要約

世界モデルを使用した補強学習(RL)は、最近の大幅な成功を発見しています。
ただし、世界の仕組みやプロパティの突然の変化が発生すると、エージェントのパフォーマンスと信頼性が劇的に低下する可能性があります。
視覚的特性の突然の変化または状態の移行を斬新と呼びます。
生成された世界モデルフレームワーク内でノベルティ検出を実装することは、展開時にエージェントを保護するための重要なタスクです。
この論文では、世界モデルの幻覚状態と真の観察された状態の不整合を異常スコアとして利用することにより、世界モデルRLエージェントに斬新な検出を組み込むための簡単な境界アプローチを提案します。
世界モデルのエージェントによって学習した遷移の分布におけるノベルティを検出するための効果的なアプローチを提供します。
最後に、従来の機械学習のノベルティ検出方法と、現在受け入れられているRL焦点の斬新な検出アルゴリズムと比較して、新しい環境での仕事の利点を示しています。

要約(オリジナル)

Reinforcement learning (RL) using world models has found significant recent successes. However, when a sudden change to world mechanics or properties occurs then agent performance and reliability can dramatically decline. We refer to the sudden change in visual properties or state transitions as novelties. Implementing novelty detection within generated world model frameworks is a crucial task for protecting the agent when deployed. In this paper, we propose straightforward bounding approaches to incorporate novelty detection into world model RL agents, by utilizing the misalignment of the world model’s hallucinated states and the true observed states as an anomaly score. We provide effective approaches to detecting novelties in a distribution of transitions learned by an agent in a world model. Finally, we show the advantage of our work in a novel environment compared to traditional machine learning novelty detection methods as well as currently accepted RL focused novelty detection algorithms.

arxiv情報

著者 Geigh Zollicoffer,Kenneth Eaton,Jonathan Balloch,Julia Kim,Wei Zhou,Robert Wright,Mark O. Riedl
発行日 2025-02-11 17:38:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY | Novelty Detection in Reinforcement Learning with World Models はコメントを受け付けていません

Hallucination Detection in Foundation Models for Decision-Making: A Flexible Definition and Review of the State of the Art

要約

自律システムはすぐに、製造、農業、ヘルスケア、エンターテイメント、その他の産業にまたがるユビキタスになります。
これらのシステムのほとんどは、手工学または学習ベースの意思決定、計画、および制御のためのモジュール式サブコンポーネントで開発されています。
これらのアプローチは、特別に設計された状況ではうまく機能しますが、テスト時に間違いなく発生する分散型シナリオでは特に不十分に機能します。
印象的な大規模なデータセットで複数のタスクで訓練された基礎モデルの台頭により、研究者は、これらのモデルが既存のプランナーが欠落しているという「常識」推論を提供し、アルゴリズムの開発と展開の間のギャップを埋めると信じるようになりました。
研究者は、意思決定タスクに基礎モデルを展開することで有望な結果を示していますが、これらのモデルは幻覚を起こし、合理的に聞こえるかもしれないが実際には貧弱な決定を生成することが知られています。
私たちは、モデルの決定の確実性を定量化し、幻覚がいつであるかを検出できるシステムを後退させて同時に設計する必要があると主張します。
この作業では、意思決定タスクの基礎モデルの現在のユースケースについて説明し、幻覚の一般的な定義を例で提供し、意思決定の問題に焦点を当て、幻覚検出と緩和に対する既存のアプローチについて説明し、ガイドラインの提示を行い、
このエキサイティングな分野でのさらなる研究。

要約(オリジナル)

Autonomous systems are soon to be ubiquitous, spanning manufacturing, agriculture, healthcare, entertainment, and other industries. Most of these systems are developed with modular sub-components for decision-making, planning, and control that may be hand-engineered or learning-based. While these approaches perform well under the situations they were specifically designed for, they can perform especially poorly in out-of-distribution scenarios that will undoubtedly arise at test-time. The rise of foundation models trained on multiple tasks with impressively large datasets has led researchers to believe that these models may provide ‘common sense’ reasoning that existing planners are missing, bridging the gap between algorithm development and deployment. While researchers have shown promising results in deploying foundation models to decision-making tasks, these models are known to hallucinate and generate decisions that may sound reasonable, but are in fact poor. We argue there is a need to step back and simultaneously design systems that can quantify the certainty of a model’s decision, and detect when it may be hallucinating. In this work, we discuss the current use cases of foundation models for decision-making tasks, provide a general definition for hallucinations with examples, discuss existing approaches to hallucination detection and mitigation with a focus on decision problems, present guidelines, and explore areas for further research in this exciting field.

arxiv情報

著者 Neeloy Chakraborty,Melkior Ornik,Katherine Driggs-Campbell
発行日 2025-02-11 17:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO | Hallucination Detection in Foundation Models for Decision-Making: A Flexible Definition and Review of the State of the Art はコメントを受け付けていません

Verifying LLM-Generated Code in the Context of Software Verification with Ada/SPARK

要約

大規模な言語モデル(LLM)は、顕著なコード生成機能を実証していますが、生成されたコードの正しさは本質的に信頼できません。
このペーパーでは、LLMが生成したコードの信頼性を確保するために、正式なソフトウェア検証、特にADAのSpark Frameworkを使用する可能性を調査します。
Marmaraganは、既存のプログラムのSpark Annotationsを生成するためにLLMを活用するツールであり、コードの正式な検証を可能にします。
このツールは、キュレーションされた一連のスパークプログラムにベンチマークされており、注釈が選択的に削除されて特定の機能をテストします。
ベンチマークでのGPT-4Oを使用したMarmaraganのパフォーマンスは有望であり、ベンチマークケースの50.7%で正しい注釈が生成されました。
この結果は、LLMの力を正式なソフトウェア検証の信頼性と組み合わせることに関する将来の作業の基盤を確立します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable code generation capabilities, but the correctness of the generated code cannot be inherently trusted. This paper explores the feasibility of using formal software verification, specifically the SPARK framework for Ada, to ensure the reliability of LLM-generated code. We present Marmaragan, a tool that leverages an LLM in order to generate SPARK annotations for existing programs, enabling formal verification of the code. The tool is benchmarked on a curated set of SPARK programs, with annotations selectively removed to test specific capabilities. The performance of Marmaragan with GPT-4o on the benchmark is promising, with correct annotations having been generated for 50.7% of the benchmark cases. The results establish a foundation for future work on combining the power of LLMs with the reliability of formal software verification.

arxiv情報

著者 Marcos Cramer,Lucian McIntyre
発行日 2025-02-11 17:42:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Verifying LLM-Generated Code in the Context of Software Verification with Ada/SPARK はコメントを受け付けていません

TopoTune : A Framework for Generalized Combinatorial Complex Neural Networks

要約

グラフニューラルネットワーク(GNNS)は、グラフドメインの対称性を保持する方法で、リレーショナルデータセット、処理ノード、およびエッジ機能から学習することに優れています。
ただし、生物学的ネットワークやソーシャルネットワークなどの多くの複雑なシステムは、高次トポロジードメインによってより自然に表される多量の複雑な相互作用を投入します。
トポロジーディープラーニング(TDL)の新興分野は、これらの高次構造に対応して活用することを目的としています。
かなり一般的なTDLモデルである組み合わせ複合ニューラルネットワーク(CCNNS)は、GNNよりも表現力豊かでパフォーマンスが優れていることが示されています。
ただし、GNNエコシステムとは異なる方法で、TDLには、新しいアーキテクチャを簡単に定義し、そのアクセシビリティと適用性を制限するための原則と標準化されたフレームワークがありません。
この問題に対処するために、Generalized CCNNS(GCCNS)を導入します。これは、TDLモデルの新しいシンプルでありながら強力なファミリであり、任意の(グラフ)ニューラルネットワークをTDLの対応物に体系的に変換できるようにします。
GCCNSはCCNNを一般化および包含することを証明しますが、GCCNSの多様なクラスでの広範な実験は、これらのアーキテクチャがCCNNSと一貫して一致またはアウトパフォーマンスし、多くの場合モデルの複雑さが少ないことを示しています。
TDLを加速および民主化するために、前例のない柔軟性と容易さでGCCNを定義、構築、およびトレーニングするための軽量ソフトウェアであるTopotuneを紹介します。

要約(オリジナル)

Graph Neural Networks (GNNs) excel in learning from relational datasets, processing node and edge features in a way that preserves the symmetries of the graph domain. However, many complex systems — such as biological or social networks–involve multiway complex interactions that are more naturally represented by higher-order topological domains. The emerging field of Topological Deep Learning (TDL) aims to accommodate and leverage these higher-order structures. Combinatorial Complex Neural Networks (CCNNs), fairly general TDL models, have been shown to be more expressive and better performing than GNNs. However, differently from the GNN ecosystem, TDL lacks a principled and standardized framework for easily defining new architectures, restricting its accessibility and applicability. To address this issue, we introduce Generalized CCNNs (GCCNs), a novel simple yet powerful family of TDL models that can be used to systematically transform any (graph) neural network into its TDL counterpart. We prove that GCCNs generalize and subsume CCNNs, while extensive experiments on a diverse class of GCCNs show that these architectures consistently match or outperform CCNNs, often with less model complexity. In an effort to accelerate and democratize TDL, we introduce TopoTune, a lightweight software for defining, building, and training GCCNs with unprecedented flexibility and ease.

arxiv情報

著者 Mathilde Papillon,Guillermo Bernárdez,Claudio Battiloro,Nina Miolane
発行日 2025-02-11 17:49:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | TopoTune : A Framework for Generalized Combinatorial Complex Neural Networks はコメントを受け付けていません

What makes math problems hard for reinforcement learning: a case study

要約

組み合わせグループ理論からの長年の推測を使用して、複数の観点から、不釣り合いに高い報酬を運ぶまれなインスタンスを見つけるという課題を探ります。
Andrews-Curtisの推測によって定義されたコンテキストで学んだ教訓に基づいて、アルゴリズムの強化と、幅広いクラスの検索問題に影響を与えるトポロジー硬度測定を提案します。
私たちの研究の一環として、いくつかの未解決の数学的質問にも対処します。
特に、Akbulut-Kirbyシリーズ(1981)の2つのプレゼンテーションを除くすべてのすべての長さの削減を実証し、3つの無限サブファミリーを含むMiller-Schuppシリーズ(1991)のさまざまな潜在的な反論を解決します。

要約(オリジナル)

Using a long-standing conjecture from combinatorial group theory, we explore, from multiple perspectives, the challenges of finding rare instances carrying disproportionately high rewards. Based on lessons learned in the context defined by the Andrews-Curtis conjecture, we propose algorithmic enhancements and a topological hardness measure with implications for a broad class of search problems. As part of our study, we also address several open mathematical questions. Notably, we demonstrate the length reducibility of all but two presentations in the Akbulut-Kirby series (1981), and resolve various potential counterexamples in the Miller-Schupp series (1991), including three infinite subfamilies.

arxiv情報

著者 Ali Shehper,Anibal M. Medina-Mardones,Lucas Fagan,Bartłomiej Lewandowski,Angus Gruen,Yang Qiu,Piotr Kucharski,Zhenghan Wang,Sergei Gukov
発行日 2025-02-11 18:01:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.CO, math.GR, math.GT | What makes math problems hard for reinforcement learning: a case study はコメントを受け付けていません

WHODUNIT: Evaluation benchmark for culprit detection in mystery stories

要約

物語のコンテキスト内で、大規模な言語モデル(LLM)の演ductive的推論能力を評価するために、新しいデータセットであるWhodunitを提示します。
オープンドメインのミステリーノベルと短編小説から構築されたデータセットは、LLMSに挑戦して、ストーリーを読んで理解した後に加害者を特定するように挑戦します。
モデルの堅牢性を評価するために、オリジナルの名前、名前のスワップ、代替など、人気のある談話からの有名な現実および/または架空のエンティティを含む、さまざまなキャラクターレベルの名前の増強を適用します。
さらに、さまざまなプロンプトスタイルを使用して、演ductiveな推論の正確性に対するプロンプトの影響を調査します。
最先端のモデル、特にGPT-4O、GPT-4-Turbo、およびGPT-4O-MINIを使用して評価研究を実施し、信頼性を確保するために多数の反応選択を伴う複数の試験で評価されます。
結果は、LLMが変更されていないテキストで確実に機能するが、特定の名前の置換、特に広く認識されているもので精度が低下することを示しています。
このデータセットはここで公開されています。

要約(オリジナル)

We present a novel data set, WhoDunIt, to assess the deductive reasoning capabilities of large language models (LLM) within narrative contexts. Constructed from open domain mystery novels and short stories, the dataset challenges LLMs to identify the perpetrator after reading and comprehending the story. To evaluate model robustness, we apply a range of character-level name augmentations, including original names, name swaps, and substitutions with well-known real and/or fictional entities from popular discourse. We further use various prompting styles to investigate the influence of prompting on deductive reasoning accuracy. We conduct evaluation study with state-of-the-art models, specifically GPT-4o, GPT-4-turbo, and GPT-4o-mini, evaluated through multiple trials with majority response selection to ensure reliability. The results demonstrate that while LLMs perform reliably on unaltered texts, accuracy diminishes with certain name substitutions, particularly those with wide recognition. This dataset is publicly available here.

arxiv情報

著者 Kshitij Gupta
発行日 2025-02-11 18:14:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | WHODUNIT: Evaluation benchmark for culprit detection in mystery stories はコメントを受け付けていません