Bayes-Optimal Fair Classification with Multiple Sensitive Features

要約

通常、ベイズ最適なフェア分類器に関する既存の理論的作業は、通常、単一の(バイナリ)敏感な機能を考慮します。
実際には、個人は多くの場合、複数の敏感な機能によって定義されます。
この論文では、平均差と平均比を含む一般的な近似公平性測定の下で、複数の機密機能のベイズ最適フェア分類器を特徴づけています。
人口統計パリティ、平等な機会、予測の平等、精度パリティなど、既存のグループ公平性の概念のこれらの近似尺度は、ラベルとデリケートな機能の両方で定義された特定のグループの選択レートの線形変換であることを示します。
次に、複数の機密機能のベイズ最適フェア分類子になると、これらのグループメンバーシップ確率の加重合計に依存するインスタンス依存のしきい値ルールになることを特徴づけます。
私たちのフレームワークは、属性と属性ブランドの両方の設定に適用され、均等化されたオッズのような複合公平性の概念に対応できます。
これに基づいて、処理と後処理によるベイズ最適な公正分類のための2つの実用的なアルゴリズムを提案します。
私たちの方法は、既存の方法に好意的に比較されることを経験的に示します。

要約(オリジナル)

Existing theoretical work on Bayes-optimal fair classifiers usually considers a single (binary) sensitive feature. In practice, individuals are often defined by multiple sensitive features. In this paper, we characterize the Bayes-optimal fair classifier for multiple sensitive features under general approximate fairness measures, including mean difference and mean ratio. We show that these approximate measures for existing group fairness notions, including Demographic Parity, Equal Opportunity, Predictive Equality, and Accuracy Parity, are linear transformations of selection rates for specific groups defined by both labels and sensitive features. We then characterize that Bayes-optimal fair classifiers for multiple sensitive features become instance-dependent thresholding rules that rely on a weighted sum of these group membership probabilities. Our framework applies to both attribute-aware and attribute-blind settings and can accommodate composite fairness notions like Equalized Odds. Building on this, we propose two practical algorithms for Bayes-optimal fair classification via in-processing and post-processing. We show empirically that our methods compare favorably to existing methods.

arxiv情報

著者 Yi Yang,Yinghui Huang,Xiangyu Chang
発行日 2025-05-01 16:12:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Bayes-Optimal Fair Classification with Multiple Sensitive Features はコメントを受け付けていません

OmniSage: Large Scale, Multi-Entity Heterogeneous Graph Representation Learning

要約

エンティティを代表する潜在的なベクトルを学習するタスクである表現学習は、Webアプリケーションの検索および推奨システムを改善する上で重要なタスクです。
エンティティ間の関係のためのグラフベースのアプローチ、ユーザーアクティビティの時間的進化をキャプチャするためのシーケンスベースの方法、テキストと視覚コンテンツを活用するためのコンテンツベースのモデルなど、さまざまな表現学習方法が開発されています。
ただし、これらの多様な手法を統合して複数のアプリケーションをサポートする統合フレームワークの開発は、依然として重要な課題です。
このペーパーでは、Pinterestのさまざまなアプリケーションの普遍的な表現を学習する大規模な表現フレームワークであるOmnisageを紹介します。
Omnisageは、グラフデータ、ユーザーシーケンスデータ、およびコンテンツ信号を効果的に処理するために複数の対照学習タスクを使用することにより、グラフニューラルネットワークをコンテンツベースのモデルとユーザーシーケンスモデルと統合します。
Omnisageのトレーニングと推論をサポートするために、数十億ノードでPinterestグラフをサポートできる効率的なインフラストラクチャを開発しました。
Omnisageによって生成された普遍的な表現は、Pinterestでのユーザーエクスペリエンスが大幅に向上し、5つのアプリケーションでサイト全体のレピン(SAVE)が約2.5%増加しました。
このペーパーでは、統一表現学習方法の影響を強調しており、出版時までにOmnisageコードをオープンします。

要約(オリジナル)

Representation learning, a task of learning latent vectors to represent entities, is a key task in improving search and recommender systems in web applications. Various representation learning methods have been developed, including graph-based approaches for relationships among entities, sequence-based methods for capturing the temporal evolution of user activities, and content-based models for leveraging text and visual content. However, the development of a unifying framework that integrates these diverse techniques to support multiple applications remains a significant challenge. This paper presents OmniSage, a large-scale representation framework that learns universal representations for a variety of applications at Pinterest. OmniSage integrates graph neural networks with content-based models and user sequence models by employing multiple contrastive learning tasks to effectively process graph data, user sequence data, and content signals. To support the training and inference of OmniSage, we developed an efficient infrastructure capable of supporting Pinterest graphs with billions of nodes. The universal representations generated by OmniSage have significantly enhanced user experiences on Pinterest, leading to an approximate 2.5% increase in sitewide repins (saves) across five applications. This paper highlights the impact of unifying representation learning methods, and we will open source the OmniSage code by the time of publication.

arxiv情報

著者 Anirudhan Badrinath,Alex Yang,Kousik Rajesh,Prabhat Agarwal,Jaewon Yang,Haoyu Chen,Jiajing Xu,Charles Rosenberg
発行日 2025-05-01 16:17:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG | OmniSage: Large Scale, Multi-Entity Heterogeneous Graph Representation Learning はコメントを受け付けていません

Conditional Diffusion-Based Retrieval of Atmospheric CO2 from Earth Observing Spectroscopy

要約

反射された太陽スペクトルの観測からの温室効果ガス(GHG)特性の衛星ベースの推定値は、複雑な陸生システムを理解および監視するために不可欠であり、それらの世界的に近いカバレッジにより炭素循環への影響が不可欠です。
検索として知られているこれらの観測からGHG濃度推定を行うことは、非線形ベイジアン逆問題であり、最適推定(OE)と呼ばれる計算上の高価なアルゴリズムを使用して動作的に解決され、非ガウス後部のガウス近似を提供します。
これは、ソルバーアルゴリズムの収束の問題につながり、取得された量の非現実的に自信のある不確実性の推定値につながります。
今後の衛星ミッションは、GHGオブザーバーの現在の星座よりも多くのデータを桁違いに提供します。
堅牢な不確実性の定量化を伴う高速で正確な検索アルゴリズムの開発が重要です。
そうすることは、政策決定に不可欠な炭素源とシンクのほぼ継続的なリアルタイムのグローバル監視の目標に向かって移動することの大きな気候の影響を与えることになります。
この目標を達成するために、NASAの軌道観測所2分光計のために、ガウスまたは非ガウスの後部を柔軟に回収するための拡散ベースのアプローチを提案し、現在の運用上の最先端の大幅な計算速度を提供します。

要約(オリジナル)

Satellite-based estimates of greenhouse gas (GHG) properties from observations of reflected solar spectra are integral for understanding and monitoring complex terrestrial systems and their impact on the carbon cycle due to their near global coverage. Known as retrieval, making GHG concentration estimations from these observations is a non-linear Bayesian inverse problem, which is operationally solved using a computationally expensive algorithm called Optimal Estimation (OE), providing a Gaussian approximation to a non-Gaussian posterior. This leads to issues in solver algorithm convergence, and to unrealistically confident uncertainty estimates for the retrieved quantities. Upcoming satellite missions will provide orders of magnitude more data than the current constellation of GHG observers. Development of fast and accurate retrieval algorithms with robust uncertainty quantification is critical. Doing so stands to provide substantial climate impact of moving towards the goal of near continuous real-time global monitoring of carbon sources and sinks which is essential for policy making. To achieve this goal, we propose a diffusion-based approach to flexibly retrieve a Gaussian or non-Gaussian posterior, for NASA’s Orbiting Carbon Observatory-2 spectrometer, while providing a substantial computational speed-up over the current operational state-of-the-art.

arxiv情報

著者 William R. Keely,Otto Lamminpää,Steffen Mauceri,Sean M. R. Crowell,Christopher W. O’Dell,Gregory R. McGarragh
発行日 2025-05-01 16:24:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, cs.LG | Conditional Diffusion-Based Retrieval of Atmospheric CO2 from Earth Observing Spectroscopy はコメントを受け付けていません

Pychop: Emulating Low-Precision Arithmetic in Numerical Methods and Neural Networks

要約

計算科学における低精度の算術に対する需要の高まりに動機付けられているため、数値分析と機械学習のための支配的なプログラミング言語と広く見なされているPythonの低精度エミュレーションを活用します。
低精度トレーニングは、モデルの忠実度を維持しながら、より効率的な計算とメモリとエネルギーの消費を減らすことにより、深い学習に革命をもたらしました。
低精度計算の数値実験と探索をより適切に可能にするために、Pychopライブラリを開発しました。Pychopライブラリは、Pythonのカスタマイズ可能なフローティングポイント形式と包括的な丸めモードセットをサポートし、ユーザーが多数のアプリケーションで迅速で低精度エミュレーションから利益を得ることができます。
Pychopはまた、PytorchとJaxの両方のインターフェイスを導入し、ニューラルネットワークトレーニングのためにGPUで効率的な低精度エミュレーションを可能にし、比類のない柔軟性を備えた推論を可能にします。
この論文では、PyChopの設計、実装、検証、および実用的なアプリケーションの包括的な説明を提供し、効率的な混合精度アルゴリズムを進めるための基礎ツールとして確立します。
さらに、公開されたデータセットを使用した画像分類とオブジェクト検出の低精度エミュレーションに関する経験的結果を示し、低精度の使用の感度を示し、その影響に対する貴重な洞察を提供します。
Pychopは、数値精度の効果に関する詳細な調査を可能にし、新しいハードウェアアクセラレータの開発を促進し、既存の深い学習ワークフローにシームレスに統合します。
ソフトウェアと実験コードは、https://github.com/inexascale/pychopで公開されています。

要約(オリジナル)

Motivated by the growing demand for low-precision arithmetic in computational science, we exploit lower-precision emulation in Python — widely regarded as the dominant programming language for numerical analysis and machine learning. Low-precision training has revolutionized deep learning by enabling more efficient computation and reduced memory and energy consumption while maintaining model fidelity. To better enable numerical experimentation with and exploration of low precision computation, we developed the Pychop library, which supports customizable floating-point formats and a comprehensive set of rounding modes in Python, allowing users to benefit from fast, low-precision emulation in numerous applications. Pychop also introduces interfaces for both PyTorch and JAX, enabling efficient low-precision emulation on GPUs for neural network training and inference with unparalleled flexibility. In this paper, we offer a comprehensive exposition of the design, implementation, validation, and practical application of Pychop, establishing it as a foundational tool for advancing efficient mixed-precision algorithms. Furthermore, we present empirical results on low-precision emulation for image classification and object detection using published datasets, illustrating the sensitivity of the use of low precision and offering valuable insights into its impact. Pychop enables in-depth investigations into the effects of numerical precision, facilitates the development of novel hardware accelerators, and integrates seamlessly into existing deep learning workflows. Software and experimental code are publicly available at https://github.com/inEXASCALE/pychop.

arxiv情報

著者 Erin Carson,Xinye Chen
発行日 2025-05-01 16:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA | Pychop: Emulating Low-Precision Arithmetic in Numerical Methods and Neural Networks はコメントを受け付けていません

Hypencoder: Hypernetworks for Information Retrieval

要約

既存の情報検索システムは、クエリドキュメントの関連性を評価するためのベクトル内製品への依存によって主に制約されており、自然に生成できる関連スコアの表現力を制限します。
新しいパラダイムを提案します。
クエリをベクトルとして表す代わりに、学習したクエリ固有の関連性関数として機能する小さなニューラルネットワークを使用します。
この小さなニューラルネットワークは、ドキュメント表現を入力として取得し(この作業では単一のベクトルを使用します)、スカラー関連スコアを生成します。
小さなニューラルネットワークを生成するには、クエリエンコーダーとして、他のネットワークの重みを生成するネットワークであるハイパーネットワークを使用します。
このカテゴリのエンコーダーモデルハイセンコダーに名前を付けます。
ドメイン内検索タスクの実験では、緊張症が強い密な検索モデルを大幅に上回り、再ランキングモデルと検索モデルを1桁のパラメーターで上回ることさえ示しています。
Hypencodersの機能の程度を評価するために、トングのチップや命令に従う検索タスクを含む一連のハード検索タスクで評価します。
難しいタスクでは、標準の検索タスクと比較して、パフォーマンスギャップが大幅に広がることがわかります。
さらに、メソッドの実用性を実証するために、おおよその検索アルゴリズムを実装し、モデルが60ミリ秒未満で88mのドキュメントのコーパスから取得できることを示します。

要約(オリジナル)

Existing information retrieval systems are largely constrained by their reliance on vector inner products to assess query-document relevance, which naturally limits the expressiveness of the relevance score they can produce. We propose a new paradigm; instead of representing a query as a vector, we use a small neural network that acts as a learned query-specific relevance function. This small neural network takes a document representation as input (in this work we use a single vector) and produces a scalar relevance score. To produce the small neural network we use a hypernetwork, a network that produces the weights of other networks, as our query encoder. We name this category of encoder models Hypencoders. Experiments on in-domain search tasks show that Hypencoders significantly outperform strong dense retrieval models and even surpass reranking models and retrieval models with an order of magnitude more parameters. To assess the extent of Hypencoders’ capabilities, we evaluate on a set of hard retrieval tasks including tip-of-the-tongue and instruction-following retrieval tasks. On harder tasks, we find that the performance gap widens substantially compared to standard retrieval tasks. Furthermore, to demonstrate the practicality of our method, we implement an approximate search algorithm and show that our model is able to retrieve from a corpus of 8.8M documents in under 60 milliseconds.

arxiv情報

著者 Julian Killingback,Hansi Zeng,Hamed Zamani
発行日 2025-05-01 16:43:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG | Hypencoder: Hypernetworks for Information Retrieval はコメントを受け付けていません

Kernel Ridge Regression for Efficient Learning of High-Capacity Hopfield Networks

要約

Hebbian Learningを使用したHopfieldネットワークは、限られたストレージ容量に苦しんでいます。
線形ロジスティック回帰(LLR)などの教師された方法はいくらかの改善を提供しますが、カーネルロジスティック回帰(KLR)などのカーネルメソッドは容量とノイズの堅牢性を大幅に向上させます。
ただし、KLRには計算上の高価な反復学習が必要です。
大容量のホップフィールドネットワークを学習するための効率的なカーネルベースの代替品として、カーネルリッジ回帰(KRR)を提案します。
KRRはカーネルトリックを利用し、回帰を介して双極状態を予測し、デュアル変数を学習するための非適格で閉じたソリューションを決定的に提供します。
KRRを評価し、そのパフォーマンスをヘビアン、LLR、およびKLRと比較します。
我々の結果は、KRRがKLRに匹敵する最先端のストレージ容量($ \ beta $ = 1.5に達する)とノイズの堅牢性を達成することを示しています。
重要なことに、KRRはトレーニング時間を大幅に短縮し、特により高いストレージ負荷で、LLRよりも程度速く、KLRよりも大幅に速くなります。
これにより、KRRは高性能の連想記憶を構築するための強力で非常に効率的な方法として確立され、KLRに匹敵するパフォーマンスを実質的なトレーニング速度の利点で提供します。
この作業は、Hopfield Network LearningのコンテキストでのKRRとKLRの最初の経験的比較を提供します。

要約(オリジナル)

Hopfield networks using Hebbian learning suffer from limited storage capacity. While supervised methods like Linear Logistic Regression (LLR) offer some improvement, kernel methods like Kernel Logistic Regression (KLR) significantly enhance capacity and noise robustness. However, KLR requires computationally expensive iterative learning. We propose Kernel Ridge Regression (KRR) as an efficient kernel-based alternative for learning high-capacity Hopfield networks. KRR utilizes the kernel trick and predicts bipolar states via regression, crucially offering a non-iterative, closed-form solution for learning dual variables. We evaluate KRR and compare its performance against Hebbian, LLR, and KLR. Our results demonstrate that KRR achieves state-of-the-art storage capacity (reaching $\beta$=1.5) and noise robustness, comparable to KLR. Crucially, KRR drastically reduces training time, being orders of magnitude faster than LLR and significantly faster than KLR, especially at higher storage loads. This establishes KRR as a potent and highly efficient method for building high-performance associative memories, providing comparable performance to KLR with substantial training speed advantages. This work provides the first empirical comparison between KRR and KLR in the context of Hopfield network learning.

arxiv情報

著者 Akira Tamamori
発行日 2025-05-01 16:44:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE | Kernel Ridge Regression for Efficient Learning of High-Capacity Hopfield Networks はコメントを受け付けていません

On the Importance of Gaussianizing Representations

要約

正規分布は、情報理論の中心的な役割を果たします – 同時に、最良の信号と最悪の騒音分布であり、あらゆる分布の最大の表現能力を持ち、共同分布の無相関性と独立性の同等性を提供します。
深いニューラルネットワークの層全体での活性化の平均と分散を考慮して、効果的なトレーニングの促進に大きな影響を及ぼしましたが、これらの活性化がどのように取るべきか、どのように達成されるかについて、まさに処方箋を持っていることはめったにありません。
正規分布の情報理論特性に動機付けられ、この質問に対処し、同時に正規性正規化を提示します。電力変換を使用して、トレーニング中に添加剤ガウスノイズを使用して、神経ネットワークの特徴表現の正常性を促進する新しい正規化層です。
私たちの実験は、広く使用されているモデルとデータセットの組み合わせの配列での一般化パフォーマンスに関して、正常性の正規化の有効性を包括的に実証しています。モデル幅、深さ、トレーニングミニバッチサイズなどのさまざまな一般的な変動の強力なパフォーマンス、既存の正常化レイヤーが従来使用されている場合の使用の適合性、およびランダムペルタルのランダムを改善するためのモデルとしての使用。

要約(オリジナル)

The normal distribution plays a central role in information theory – it is at the same time the best-case signal and worst-case noise distribution, has the greatest representational capacity of any distribution, and offers an equivalence between uncorrelatedness and independence for joint distributions. Accounting for the mean and variance of activations throughout the layers of deep neural networks has had a significant effect on facilitating their effective training, but seldom has a prescription for precisely what distribution these activations should take, and how this might be achieved, been offered. Motivated by the information-theoretic properties of the normal distribution, we address this question and concurrently present normality normalization: a novel normalization layer which encourages normality in the feature representations of neural networks using the power transform and employs additive Gaussian noise during training. Our experiments comprehensively demonstrate the effectiveness of normality normalization, in regards to its generalization performance on an array of widely used model and dataset combinations, its strong performance across various common factors of variation such as model width, depth, and training minibatch size, its suitability for usage wherever existing normalization layers are conventionally used, and as a means to improving model robustness to random perturbations.

arxiv情報

著者 Daniel Eftekhari,Vardan Papyan
発行日 2025-05-01 17:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | On the Importance of Gaussianizing Representations はコメントを受け付けていません

Action-Minimization Meets Generative Modeling: Efficient Transition Path Sampling with the Onsager-Machlup Functional

要約

エネルギー環境上の2つのポイントを接続する可能性のあるパスを見つけることを伴うトランジションパスサンプリング(TPS)は、実際の原子システムの複雑さのために依然として課題です。
現在の機械学習アプローチでは、高価でタスク固有の、データのないトレーニング手順を使用し、高品質のデータセットや大規模な事前訓練モデルなど、最近の原子的機械学習における最近の進歩から利益を得る能力を制限します。
この作業では、候補パスを、事前に訓練された生成モデルの学習スコア関数によって誘導される確率的ダイナミクスからサンプリングされた軌跡として解釈することによりTPSに対処します。
これらのダイナミクスの下では、高尤度の遷移パスを見つけることは、OnSager-Machlup(OM)アクション機能を最小限に抑えることと同等になります。
これにより、以前の作業で訓練されたオーダーメイドのタスク固有のTPSモデルとは対照的に、TPSの事前に訓練された生成モデルをゼロショット方法で再利用できます。
さまざまな分子システムに関するアプローチを実証し、多様で物理的に現実的な遷移経路を取得し、事前に訓練されたモデルの元のトレーニングデータセットを超えて一般化します。
私たちの方法は、新しい生成モデルに簡単に組み込むことができ、モデルがデータの可用性を向上させて拡大し、改善し続けるにつれて実質的に関連性があります。

要約(オリジナル)

Transition path sampling (TPS), which involves finding probable paths connecting two points on an energy landscape, remains a challenge due to the complexity of real-world atomistic systems. Current machine learning approaches use expensive, task-specific, and data-free training procedures, limiting their ability to benefit from recent advances in atomistic machine learning, such as high-quality datasets and large-scale pre-trained models. In this work, we address TPS by interpreting candidate paths as trajectories sampled from stochastic dynamics induced by the learned score function of pre-trained generative models, specifically denoising diffusion and flow matching. Under these dynamics, finding high-likelihood transition paths becomes equivalent to minimizing the Onsager-Machlup (OM) action functional. This enables us to repurpose pre-trained generative models for TPS in a zero-shot manner, in contrast with bespoke, task-specific TPS models trained in previous work. We demonstrate our approach on varied molecular systems, obtaining diverse, physically realistic transition pathways and generalizing beyond the pre-trained model’s original training dataset. Our method can be easily incorporated into new generative models, making it practically relevant as models continue to scale and improve with increased data availability.

arxiv情報

著者 Sanjeev Raja,Martin Šípka,Michael Psenka,Tobias Kreiman,Michal Pavelka,Aditi S. Krishnapriyan
発行日 2025-05-01 17:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.chem-ph, q-bio.BM | Action-Minimization Meets Generative Modeling: Efficient Transition Path Sampling with the Onsager-Machlup Functional はコメントを受け付けていません

Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks

要約

シーケンシャルな意思決定タスクの大規模言語モデル(LLM)エージェントを改善するための多くの方法は、タスク固有のナレッジエンジニアリングに依存しています。
これらのアプローチを使用して、エージェントのパフォーマンスは、投資された知識エンジニアリングの品質または量とともに向上します。
代わりに、LLMエージェントが、同様のタスクでの成功した体験からコンテキスト内で学習することにより、パフォーマンスを自動的に改善する方法を調査します。
タスク固有の知識エンジニアリングに依存するのではなく、自己生成の例のデータベースの構築と改良に焦点を当てています。
トレーニングタスク全体で成功した軌道を素朴に蓄積しても、3つのベンチマークのテストパフォーマンスを高めることができます:Alfworld(73%から89%)、Wordcraft(55%から64%)、およびIntercode-SQL(75%から79%) – パフォーマンスに合わせて、最初のエージェントが2つの試行ごとに3つの試行を許可する場合に達成します。
次に、2つの拡張機能を紹介します。(1)人口ベースのトレーニングを通じてデータベースレベルの選択を介して、パフォーマンスの高い例のコレクションを特定し、(2)経験的ユーティリティに基づいて個々の軌跡を保持する模範レベルの選択。
これらの拡張機能はパフォーマンスをさらに向上させ、Alfworldで91%を達成します。これは、タスク固有のコンポーネントとプロンプトを使用するより複雑なアプローチを一致させます。
我々の結果は、自動軌跡データベース構造が労働集約型の知識エンジニアリングの魅力的な代替品を提供することを示しています。

要約(オリジナル)

Many methods for improving Large Language Model (LLM) agents for sequential decision-making tasks depend on task-specific knowledge engineering–such as prompt tuning, curated in-context examples, or customized observation and action spaces. Using these approaches, agent performance improves with the quality or amount of knowledge engineering invested. Instead, we investigate how LLM agents can automatically improve their performance by learning in-context from their own successful experiences on similar tasks. Rather than relying on task-specific knowledge engineering, we focus on constructing and refining a database of self-generated examples. We demonstrate that even a naive accumulation of successful trajectories across training tasks boosts test performance on three benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%), and InterCode-SQL (75% to 79%)–matching the performance the initial agent achieves if allowed two to three attempts per task. We then introduce two extensions: (1) database-level selection through population-based training to identify high-performing example collections, and (2) exemplar-level selection that retains individual trajectories based on their empirical utility as in-context examples. These extensions further enhance performance, achieving 91% on ALFWorld–matching more complex approaches that employ task-specific components and prompts. Our results demonstrate that automatic trajectory database construction offers a compelling alternative to labor-intensive knowledge engineering.

arxiv情報

著者 Vishnu Sarukkai,Zhiqiang Xie,Kayvon Fatahalian
発行日 2025-05-01 00:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks はコメントを受け付けていません

‘Reasoning’ with Rhetoric: On the Style-Evidence Tradeoff in LLM-Generated Counter-Arguments

要約

大規模な言語モデル(LLMS)は、エビデンスに基づいたスタイルの反論を生成する上で重要な役割を果たしますが、実際のアプリケーションでの有効性は露出度が低くなっています。
以前の研究では、説得力のある議論にとって重要な証拠とスタイルのバランスをしばしば無視しています。
これに対処するために、Counterfireにおける様式化されたエビデンスに基づいた反論生成の有効性を評価しました。これは、RedditのShangeMyViewコミュニティへの反論を修正することによって生成された38,000の反論の新しいデータセットであり、異なる談話スタイルに従います。
GPT-3.5、Palm-2、Koala-13bなどの基本的および微調整されたモデルからの一般的および様式化された反論を評価し、修辞的な質と説得力に焦点を当てた新しいモデル(GPT-4O、Claude Haiku、llama-3.1)を評価しました。
私たちの調査結果は、人間が元の出力よりも様式化された反論を好むことを明らかにしています。GPT-3.5ターボはうまく機能していますが、まだ修辞的な質や説得力の人間の基準に達していません。
さらに、私たちの作品は、証拠統合と議論の質の間のトレードオフに関する洞察を提供する人間の好みのラベルを使用して、スタイルコントロールを研究するための新しい議論のトリプレットデータセットを作成しました。

要約(オリジナル)

Large language models (LLMs) play a key role in generating evidence-based and stylistic counter-arguments, yet their effectiveness in real-world applications has been underexplored. Previous research often neglects the balance between evidentiality and style, which are crucial for persuasive arguments. To address this, we evaluated the effectiveness of stylized evidence-based counter-argument generation in Counterfire, a new dataset of 38,000 counter-arguments generated by revising counter-arguments to Reddit’s ChangeMyView community to follow different discursive styles. We evaluated generic and stylized counter-arguments from basic and fine-tuned models such as GPT-3.5, PaLM-2, and Koala-13B, as well as newer models (GPT-4o, Claude Haiku, LLaMA-3.1) focusing on rhetorical quality and persuasiveness. Our findings reveal that humans prefer stylized counter-arguments over the original outputs, with GPT-3.5 Turbo performing well, though still not reaching human standards of rhetorical quality nor persuasiveness. Additionally, our work created a novel argument triplets dataset for studying style control, with human preference labels that provide insights into the tradeoffs between evidence integration and argument quality.

arxiv情報

著者 Preetika Verma,Kokil Jaidka,Svetlana Churina
発行日 2025-05-01 01:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ‘Reasoning’ with Rhetoric: On the Style-Evidence Tradeoff in LLM-Generated Counter-Arguments はコメントを受け付けていません