Logical forms complement probability in understanding language model (and human) performance

要約

自然言語での計画のために大規模な言語モデル(LLM)を使用することに関心が高まっているため、その行動を理解することは重要な研究問題になります。
この作業は、自然言語で論理的推論を実行するLLMSの能力の体系的な調査を実施しています。
命題およびモーダルロジックにおける仮説的および分離的な三段論法の制御されたデータセットを導入し、LLMパフォーマンスを理解するためのテストベッドとして使用します。
私たちの結果は、LLMの行動を予測する際の新しい洞察につながります。入力の確率に加えて(Gonen et al。、2023; McCoy et al。、2024)、論理形式は重要な要因と見なされるべきです。
さらに、両方から行動データを収集および比較することにより、人間とLLMの論理的推論パフォーマンスの間の類似性と矛盾を示します。

要約(オリジナル)

With the increasing interest in using large language models (LLMs) for planning in natural language, understanding their behaviors becomes an important research question. This work conducts a systematic investigation of LLMs’ ability to perform logical reasoning in natural language. We introduce a controlled dataset of hypothetical and disjunctive syllogisms in propositional and modal logic and use it as the testbed for understanding LLM performance. Our results lead to novel insights in predicting LLM behaviors: in addition to the probability of input (Gonen et al., 2023; McCoy et al., 2024), logical forms should be considered as important factors. In addition, we show similarities and discrepancies between the logical reasoning performances of humans and LLMs by collecting and comparing behavioral data from both.

arxiv情報

著者 Yixuan Wang,Freda Shi
発行日 2025-02-17 18:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LO | Logical forms complement probability in understanding language model (and human) performance はコメントを受け付けていません

Idiosyncrasies in Large Language Models

要約

この作業では、大規模な言語モデル(LLMS)で特異性を発表して研究します。これは、モデルを区別するために使用できる出力のユニークなパターンです。
そのためには、単純な分類タスクを検討します。特定のテキスト出力を与えられた場合、目的はテキストを生成するソースLLMを予測することです。
LLMのさまざまなグループにわたってこの合成タスクを評価し、LLMで生成されたテキストに既存のテキスト埋め込みモデルを微調整するだけで、優れた分類精度が得られることがわかります。
特に、ChATGPT、Claude、Grok、Gemini、およびDeepSeekを含む5方向分類問題で、保有された検証データの97.1%の精度を達成します。
私たちのさらなる調査は、これらの特異性が単語レベルの分布に根ざしていることを明らかにしています。
これらのパターンは、テキストが外部LLMによって書き換え、翻訳、または要約されている場合でも持続し、セマンティックコンテンツにもエンコードされていることを示唆しています。
さらに、LLMを審査員として活用して、各モデルの特異性の詳細で自由回答形式の説明を生成します。
最後に、特に合成データのトレーニングとモデルの類似性を推測するための調査結果のより広範な意味について説明します。
コードはhttps://github.com/locuslab/llm-idiosyncrasiesで入手できます。

要約(オリジナル)

In this work, we unveil and study idiosyncrasies in Large Language Models (LLMs) — unique patterns in their outputs that can be used to distinguish the models. To do so, we consider a simple classification task: given a particular text output, the objective is to predict the source LLM that generates the text. We evaluate this synthetic task across various groups of LLMs and find that simply fine-tuning existing text embedding models on LLM-generated texts yields excellent classification accuracy. Notably, we achieve 97.1% accuracy on held-out validation data in the five-way classification problem involving ChatGPT, Claude, Grok, Gemini, and DeepSeek. Our further investigation reveals that these idiosyncrasies are rooted in word-level distributions. These patterns persist even when the texts are rewritten, translated, or summarized by an external LLM, suggesting that they are also encoded in the semantic content. Additionally, we leverage LLM as judges to generate detailed, open-ended descriptions of each model’s idiosyncrasies. Finally, we discuss the broader implications of our findings, particularly for training on synthetic data and inferring model similarity. Code is available at https://github.com/locuslab/llm-idiosyncrasies.

arxiv情報

著者 Mingjie Sun,Yida Yin,Zhiqiu Xu,J. Zico Kolter,Zhuang Liu
発行日 2025-02-17 18:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Idiosyncrasies in Large Language Models はコメントを受け付けていません

Theoretical Barriers in Bellman-Based Reinforcement Learning

要約

高次元空間向けに設計された補強学習アルゴリズムは、しばしば、州のサンプルされた状態のサブセットでベルマン方程式を強制し、一般化に依存して州空間全体で知識を伝播します。
この論文では、この一般的なアプローチの基本的な制限を特定し、形式化します。
具体的には、このアプローチが悪用できないという単純な構造で反例問題を構築します。
私たちの調査結果は、そのようなアルゴリズムが問題に関する重要な情報を無視し、非効率につながることを明らかにしています。
さらに、この否定的な結果を文献から別のアプローチに拡張します。後知恵経験は、状態間の到達可能性を学習します。

要約(オリジナル)

Reinforcement Learning algorithms designed for high-dimensional spaces often enforce the Bellman equation on a sampled subset of states, relying on generalization to propagate knowledge across the state space. In this paper, we identify and formalize a fundamental limitation of this common approach. Specifically, we construct counterexample problems with a simple structure that this approach fails to exploit. Our findings reveal that such algorithms can neglect critical information about the problems, leading to inefficiencies. Furthermore, we extend this negative result to another approach from the literature: Hindsight Experience Replay learning state-to-state reachability.

arxiv情報

著者 Brieuc Pinon,Raphaël Jungers,Jean-Charles Delvenne
発行日 2025-02-17 16:18:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Theoretical Barriers in Bellman-Based Reinforcement Learning はコメントを受け付けていません

Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat

要約

使用する大規模な言語モデル(LLM)を決定することは、複雑な課題です。
ペアワイズランキングは、LLMの人間の好みを評価するための新しい方法として浮上しています。
このアプローチには、事前定義された基準に基づいてモデル出力のペアを評価する人間が必要です。
これらの比較を収集することにより、ELOなどの方法を使用してランキングを構築できます。
ただし、LLM評価のコンテキストで構築されたこれらのアルゴリズムを適用すると、いくつかの課題が生じます。
この論文では、LLMSの直接的な比較のためのランキングシステムの有効性を調査します。
効果的なランキングのための一連の基本原則を正式に定義し、LLMSのコンテキストでいくつかのランキングアルゴリズムの堅牢性について一連の広範な評価を実施します。
分析は、ランキングの精度と効率に影響を与える要因に関する重要な洞察を明らかにし、特定の評価コンテキストとリソースの制約に基づいて最も適切な方法を選択するためのガイドラインを提供します。

要約(オリジナル)

Deciding which large language model (LLM) to use is a complex challenge. Pairwise ranking has emerged as a new method for evaluating human preferences for LLMs. This approach entails humans evaluating pairs of model outputs based on a predefined criterion. By collecting these comparisons, a ranking can be constructed using methods such as Elo. However, applying these algorithms as constructed in the context of LLM evaluation introduces several challenges. In this paper, we explore the effectiveness of ranking systems for head-to-head comparisons of LLMs. We formally define a set of fundamental principles for effective ranking and conduct a series of extensive evaluations on the robustness of several ranking algorithms in the context of LLMs. Our analysis uncovers key insights into the factors that affect ranking accuracy and efficiency, offering guidelines for selecting the most appropriate methods based on specific evaluation contexts and resource constraints.

arxiv情報

著者 Roland Daynauth,Christopher Clarke,Krisztian Flautner,Lingjia Tang,Jason Mars
発行日 2025-02-17 16:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat はコメントを受け付けていません

Machine Learning Should Maximize Welfare, Not (Only) Accuracy

要約

機械学習における数十年にわたる研究により、正確な予測を行うための強力なツールが与えられました。
しかし、社会的環境や人間のインプットで使用される場合、より良い精度は、より良い社会的結果にすぐに変換されません。
従来の学習フレームワークが社会的好みを表現するように設計されていないことを考えると、これは驚くことではないかもしれません。
このポジションペーパーでは、機械学習は現在欠落しており、社会福祉の適切な概念である取り込みから多くの利益を得ることができると主張しています。
福祉経済学の分野は、社会的利益を最大化する方法で限られたリソースを自己利益のエージェントにどのように割り当てるべきですか?
この視点は、社会的文脈における機械学習の多くの現代的なアプリケーションに適用され、その採用を擁護すると主張します。
予測を処分するのではなく、社会福祉を促進するためにこの機械学習を活用することを目指しています。
このアイデアを実証し、精度の最大化(福祉への認識を持つ)から福祉の最大化(正確な予測を介して)に徐々に移行する概念的なフレームワークを提案します。
私たちのフレームワークが効果的である可能性のあるアプリケーションとユースケースを詳しく説明し、技術的な課題と実用的な機会を特定し、追求する価値のある将来の道を強調します。

要約(オリジナル)

Decades of research in machine learning have given us powerful tools for making accurate predictions. But when used in social settings and on human inputs, better accuracy does not immediately translate to better social outcomes. This may not be surprising given that conventional learning frameworks are not designed to express societal preferences — let alone promote them. This position paper argues that machine learning is currently missing, and can gain much from incorporating, a proper notion of social welfare. The field of welfare economics asks: how should we allocate limited resources to self-interested agents in a way that maximizes social benefit? We argue that this perspective applies to many modern applications of machine learning in social contexts, and advocate for its adoption. Rather than disposing of prediction, we aim to leverage this forte of machine learning for promoting social welfare. We demonstrate this idea by proposing a conceptual framework that gradually transitions from accuracy maximization (with awareness to welfare) to welfare maximization (via accurate prediction). We detail applications and use-cases for which our framework can be effective, identify technical challenges and practical opportunities, and highlight future avenues worth pursuing.

arxiv情報

著者 Nir Rosenfeld,Haifeng Xu
発行日 2025-02-17 16:22:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | Machine Learning Should Maximize Welfare, Not (Only) Accuracy はコメントを受け付けていません

Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning

要約

影響機能はモデルトレーニングに関する重要な洞察を提供しますが、既存の方法は大きな計算コストと限られた一般化に悩まされています。
特に、最近の作品は、言語モデルを使用してデータの影響を計算するために、さまざまなメトリックとアルゴリズムを提案しています。言語モデルは、大規模なモデルやデータセットでは十分にスケーリングしません。
これは、計算に必要な高価な前方および後方パス、大規模なモデルを格納するための実質的なメモリ要件、および新しいデータへの影響推定値の一般化が不十分なためです。
このホワイトペーパーでは、影響値を推定するために、インフルエンキャネットワークと呼ばれる小さなニューラルネットワークの使用を調査し、最大99%のコスト削減を達成します。
私たちの評価は、フル言語モデルのサイズのわずか0.0027%モデルで影響値を推定できることを示しています(7Bおよび8Bバージョンを使用しています)。
影響値を推定するアルゴリズム(NN-CIFT:効率的な指導の微調整のためのニューラルネットワークと呼ばれる)を、一般的な命令微調整のためのサブセット選択の下流タスクに適用します。
私たちの研究では、4つの最先端の影響関数を含め、NN-Ciftと元の影響関数の間に大きなスピードアップにもかかわらず、パフォーマンスの妥協はありません。
Nn-Ciftの詳細なハイパーパラメーター分析を提供します。
この方法のコードは、https://github.com/agarwalishika/nn-ciftにあります。

要約(オリジナル)

Influence functions provide crucial insights into model training, but existing methods suffer from large computational costs and limited generalization. Particularly, recent works have proposed various metrics and algorithms to calculate the influence of data using language models, which do not scale well with large models and datasets. This is because of the expensive forward and backward passes required for computation, substantial memory requirements to store large models, and poor generalization of influence estimates to new data. In this paper, we explore the use of small neural networks — which we refer to as the InfluenceNetwork — to estimate influence values, achieving up to 99% cost reduction. Our evaluation demonstrates that influence values can be estimated with models just 0.0027% the size of full language models (we use 7B and 8B versions). We apply our algorithm of estimating influence values (called NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) to the downstream task of subset selection for general instruction fine-tuning. In our study, we include four state-of-the-art influence functions and show no compromise in performance, despite large speedups, between NN-CIFT and the original influence functions. We provide an in-depth hyperparameter analyses of NN-CIFT. The code for our method can be found here: https://github.com/agarwalishika/NN-CIFT.

arxiv情報

著者 Ishika Agarwal,Dilek Hakkani-Tür
発行日 2025-02-17 16:26:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning はコメントを受け付けていません

Revisiting Multi-Permutation Equivariance through the Lens of Irreducible Representations

要約

このペーパーでは、順列および関連グループの表現のための等量線形層の特性評価について説明します。
パラメーター共有を使用してこれらの問題に対処する従来のアプローチとは異なり、還元可能な表現とSchurの補題に基づいた代替方法論を検討します。
この方法論を使用して、ディープセット、2-Inグラフ等量ネットワーク、ディープウェイトスペース(DWS)ネットワークなどの既存のモデルの代替導出を取得します。
DWSネットワークの派生は、以前の結果の派生よりも大幅に単純です。
次に、アプローチを拡張していない対称セットへのアプローチを拡張します。ここでは、グループのリース製品に等しいことが必要です。
以前の作品は、この問題をかなり制限的な設定で取り上げてきました。この環境では、ほぼすべてのリース等量層がシャム人です。
対照的に、この場合は層の完全な特性評価を与え、いくつかの設定には膨大な数の非浅瀬層があることを示します。
また、これらの追加の非シアム層が、グラフの異常検出、重量空間アライメント、ワッサースタイン距離の学習などのタスクのパフォーマンスを改善できることを経験的に示しています。
私たちのコードは、\ href {https://github.com/yonatansverdlov/irreducible-presentations-of-deep-weight-spaces} {github}で入手できます。

要約(オリジナル)

This paper explores the characterization of equivariant linear layers for representations of permutations and related groups. Unlike traditional approaches, which address these problems using parameter-sharing, we consider an alternative methodology based on irreducible representations and Schur’s lemma. Using this methodology, we obtain an alternative derivation for existing models like DeepSets, 2-IGN graph equivariant networks, and Deep Weight Space (DWS) networks. The derivation for DWS networks is significantly simpler than that of previous results. Next, we extend our approach to unaligned symmetric sets, where equivariance to the wreath product of groups is required. Previous works have addressed this problem in a rather restrictive setting, in which almost all wreath equivariant layers are Siamese. In contrast, we give a full characterization of layers in this case and show that there is a vast number of additional non-Siamese layers in some settings. We also show empirically that these additional non-Siamese layers can improve performance in tasks like graph anomaly detection, weight space alignment, and learning Wasserstein distances. Our code is available at \href{https://github.com/yonatansverdlov/Irreducible-Representations-of-Deep-Weight-Spaces}{GitHub}.

arxiv情報

著者 Yonatan Sverdlov,Ido Springer,Nadav Dym
発行日 2025-02-17 16:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Revisiting Multi-Permutation Equivariance through the Lens of Irreducible Representations はコメントを受け付けていません

Presumed Cultural Identity: How Names Shape LLM Responses

要約

名前は人間のアイデンティティに深く結びついています。
それらは、個性、文化遺産、個人的な歴史のマーカーとして機能することができます。
ただし、アイデンティティのコアインジケーターとして名前を使用すると、複雑なアイデンティティが過度に単純化される可能性があります。
LLMと対話する場合、ユーザー名はパーソナライズの重要な情報ポイントです。
名前は、CVレビューなどのタスクコンテキストの一部として、またはパーソナライズのためにユーザー情報を保存する組み込みメモリ機能として、直接ユーザー入力(チャットボットによる要求)を介してチャットボットの会話を入力できます。
一般的な提案を求めるクエリが提示された場合、LLMSによって生成された応答で文化的推定を測定することにより、名前に関連するバイアスを研究します。
私たちの分析は、複数の文化にわたってLLM世代に存在する名前に関連する文化的アイデンティティに関する強い仮定を示しています。
私たちの仕事は、意味のあるカスタマイズを維持しながらステレオタイプの強化を避ける、より微妙なパーソナライゼーションシステムを設計することに影響を与えます。

要約(オリジナル)

Names are deeply tied to human identity. They can serve as markers of individuality, cultural heritage, and personal history. However, using names as a core indicator of identity can lead to over-simplification of complex identities. When interacting with LLMs, user names are an important point of information for personalisation. Names can enter chatbot conversations through direct user input (requested by chatbots), as part of task contexts such as CV reviews, or as built-in memory features that store user information for personalisation. We study biases associated with names by measuring cultural presumptions in the responses generated by LLMs when presented with common suggestion-seeking queries, which might involve making assumptions about the user. Our analyses demonstrate strong assumptions about cultural identity associated with names present in LLM generations across multiple cultures. Our work has implications for designing more nuanced personalisation systems that avoid reinforcing stereotypes while maintaining meaningful customisation.

arxiv情報

著者 Siddhesh Pawar,Arnav Arora,Lucie-Aimée Kaffee,Isabelle Augenstein
発行日 2025-02-17 16:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | Presumed Cultural Identity: How Names Shape LLM Responses はコメントを受け付けていません

On the Expressive Power of Sparse Geometric MPNNs

要約

化学およびその他の科学のアプリケーションに動機付けられて、ノードが3次元位置に対応する幾何学的グラフのメッセージ通過ニューラルネットワークの表現力を研究します。
最近の研究では、そのようなモデルが非異形の幾何学的グラフの一般的なペアを分離できることが示されていますが、まれで複雑なインスタンスを分離できない可能性があります。
ただし、これらの結果は、各ノードが他のすべてのノードの完全な知識を持っている完全に接続されたグラフを想定しています。
対照的に、多くの場合、アプリケーションでは、すべてのノードは少数の最近隣人の知識のみを持っています。
このホワイトペーパーでは、基礎となるグラフが接続されている限り、メッセージ通過ネットワークを回転するネットワークを使用してメッセージ通過ネットワークによって分離できることを示しています。
不変の中間機能のみが許可されている場合、一般的にグローバルに剛性のあるグラフに対して一般的な分離が保証されます。
私たちの理論的保証を達成し、合成および化学ベンチマークの代替アーキテクチャと比較するシンプルなアーキテクチャであるEgennetを紹介します。
私たちのコードは、https://github.com/yonatansverdlov/e-gennetで入手できます。

要約(オリジナル)

Motivated by applications in chemistry and other sciences, we study the expressive power of message-passing neural networks for geometric graphs, whose node features correspond to 3-dimensional positions. Recent work has shown that such models can separate generic pairs of non-isomorphic geometric graphs, though they may fail to separate some rare and complicated instances. However, these results assume a fully connected graph, where each node possesses complete knowledge of all other nodes. In contrast, often, in application, every node only possesses knowledge of a small number of nearest neighbors. This paper shows that generic pairs of non-isomorphic geometric graphs can be separated by message-passing networks with rotation equivariant features as long as the underlying graph is connected. When only invariant intermediate features are allowed, generic separation is guaranteed for generically globally rigid graphs. We introduce a simple architecture, EGENNET, which achieves our theoretical guarantees and compares favorably with alternative architecture on synthetic and chemical benchmarks. Our code is available at https://github.com/yonatansverdlov/E-GenNet.

arxiv情報

著者 Yonatan Sverdlov,Nadav Dym
発行日 2025-02-17 16:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | On the Expressive Power of Sparse Geometric MPNNs はコメントを受け付けていません

Demographic Attributes Prediction from Speech Using WavLM Embeddings

要約

このペーパーでは、WAVLM機能に基づいた一般的な分類器を紹介し、年齢、性別、母国語、教育、国などの人口統計学的特性をスピーチから推測します。
人口統計機能の予測は、言語学習、アクセシビリティ、デジタルフォレンジックなどのアプリケーションで重要な役割を果たし、よりパーソナライズされた包括的なテクノロジーを可能にします。
埋め込み抽出のための前提条件のモデルを活用して、提案されたフレームワークは、人口統計属性に関連する重要な音響および言語のFEAから、年齢予測では4.94の平均絶対誤差(MAE)、さまざまなデータセット全体の性別分類の99.81%を超える精度を達成します。
当社のシステムは、MAEで相対的な30%まで既存のモデルを改善し、タスク全体で相対的な10%とF1スコアを改善し、多様な範囲のデータセットと大規模な前提型モデルを活用して、堅牢性と一般化可能性を確保します。
この研究は、スピーカーの多様性に関する新しい洞察を提供し、音声ベースの人口統計プロファイリングにおける将来の研究のための強力な基盤を提供します。

要約(オリジナル)

This paper introduces a general classifier based on WavLM features, to infer demographic characteristics, such as age, gender, native language, education, and country, from speech. Demographic feature prediction plays a crucial role in applications like language learning, accessibility, and digital forensics, enabling more personalized and inclusive technologies. Leveraging pretrained models for embedding extraction, the proposed framework identifies key acoustic and linguistic fea-tures associated with demographic attributes, achieving a Mean Absolute Error (MAE) of 4.94 for age prediction and over 99.81% accuracy for gender classification across various datasets. Our system improves upon existing models by up to relative 30% in MAE and up to relative 10% in accuracy and F1 scores across tasks, leveraging a diverse range of datasets and large pretrained models to ensure robustness and generalizability. This study offers new insights into speaker diversity and provides a strong foundation for future research in speech-based demographic profiling.

arxiv情報

著者 Yuchen Yang,Thomas Thebaud,Najim Dehak
発行日 2025-02-17 16:43:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Demographic Attributes Prediction from Speech Using WavLM Embeddings はコメントを受け付けていません