MaLei at the PLABA Track of TREC 2024: RoBERTa for Term Replacement — LLaMA3.1 and GPT-4o for Complete Abstract Adaptation

要約

このレポートは、Biomedical Abstracts(PLABA)2024(昨年以前の名前がありました)の共有タスクの平易な言語適応のためのマレイチーム(マンチェスターとライデン)のシステム説明です。
://ir.nist.gov/evalbase/conf/trec-2024)。
このレポートには、PLABA-2024の2つのサブタスクに対応する2つのセクションが含まれています。
タスク1(用語の交換)では、微調整されたRebertaベースモデルを適用して、生物医学の要約の困難な用語、専門用語、頭字語を識別および分類し、F1スコアを報告しました(タスク1Aおよび1B)。
タスク2(完全な抽象適応)では、LLAMMA3.1-70B-instructとGPT-4Oをワンショットプロンプトとともに抽象適応を完了し、BLEU、SARI、BERTSCORE、レンズ、およびサルサのスコアを報告しました。
タスク1Aおよび1BでのPLABA-2024からの公式評価から、2つのサブタスクでそれぞれ3位と2位にランクされた、はるかに小さい微調整されたRoberta-Baseモデルは、評価された9の2つのタスクで平均F1スコアで3位にランクされました。
システム。
llama-3.1-70b-instructedモデルは、タスク2の最高の完全性スコアを達成しました。https://github.com/hecta-uom/plaba2024でソースコード、微調整モデル、および関連リソースを共有します

要約(オリジナル)

This report is the system description of the MaLei team (Manchester and Leiden) for the shared task Plain Language Adaptation of Biomedical Abstracts (PLABA) 2024 (we had an earlier name BeeManc following last year), affiliated with TREC2024 (33rd Text REtrieval Conference https://ir.nist.gov/evalbase/conf/trec-2024). This report contains two sections corresponding to the two sub-tasks in PLABA-2024. In task one (term replacement), we applied fine-tuned ReBERTa-Base models to identify and classify the difficult terms, jargon, and acronyms in the biomedical abstracts and reported the F1 score (Task 1A and 1B). In task two (complete abstract adaptation), we leveraged Llamma3.1-70B-Instruct and GPT-4o with the one-shot prompts to complete the abstract adaptation and reported the scores in BLEU, SARI, BERTScore, LENS, and SALSA. From the official Evaluation from PLABA-2024 on Task 1A and 1B, our much smaller fine-tuned RoBERTa-Base model ranked 3rd and 2nd respectively on the two sub-tasks, and the 1st on averaged F1 scores across the two tasks from 9 evaluated systems. Our LLaMA-3.1-70B-instructed model achieved the highest Completeness score for Task 2. We share our source codes, fine-tuned models, and related resources at https://github.com/HECTA-UoM/PLABA2024

arxiv情報

著者 Zhidong Ling,Zihao Li,Pablo Romero,Lifeng Han,Goran Nenadic
発行日 2025-02-17 18:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MaLei at the PLABA Track of TREC 2024: RoBERTa for Term Replacement — LLaMA3.1 and GPT-4o for Complete Abstract Adaptation はコメントを受け付けていません

Logical forms complement probability in understanding language model (and human) performance

要約

自然言語での計画のために大規模な言語モデル(LLM)を使用することに関心が高まっているため、その行動を理解することは重要な研究問題になります。
この作業は、自然言語で論理的推論を実行するLLMSの能力の体系的な調査を実施しています。
命題およびモーダルロジックにおける仮説的および分離的な三段論法の制御されたデータセットを導入し、LLMパフォーマンスを理解するためのテストベッドとして使用します。
私たちの結果は、LLMの行動を予測する際の新しい洞察につながります。入力の確率に加えて(Gonen et al。、2023; McCoy et al。、2024)、論理形式は重要な要因と見なされるべきです。
さらに、両方から行動データを収集および比較することにより、人間とLLMの論理的推論パフォーマンスの間の類似性と矛盾を示します。

要約(オリジナル)

With the increasing interest in using large language models (LLMs) for planning in natural language, understanding their behaviors becomes an important research question. This work conducts a systematic investigation of LLMs’ ability to perform logical reasoning in natural language. We introduce a controlled dataset of hypothetical and disjunctive syllogisms in propositional and modal logic and use it as the testbed for understanding LLM performance. Our results lead to novel insights in predicting LLM behaviors: in addition to the probability of input (Gonen et al., 2023; McCoy et al., 2024), logical forms should be considered as important factors. In addition, we show similarities and discrepancies between the logical reasoning performances of humans and LLMs by collecting and comparing behavioral data from both.

arxiv情報

著者 Yixuan Wang,Freda Shi
発行日 2025-02-17 18:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LO | Logical forms complement probability in understanding language model (and human) performance はコメントを受け付けていません

Idiosyncrasies in Large Language Models

要約

この作業では、大規模な言語モデル(LLMS)で特異性を発表して研究します。これは、モデルを区別するために使用できる出力のユニークなパターンです。
そのためには、単純な分類タスクを検討します。特定のテキスト出力を与えられた場合、目的はテキストを生成するソースLLMを予測することです。
LLMのさまざまなグループにわたってこの合成タスクを評価し、LLMで生成されたテキストに既存のテキスト埋め込みモデルを微調整するだけで、優れた分類精度が得られることがわかります。
特に、ChATGPT、Claude、Grok、Gemini、およびDeepSeekを含む5方向分類問題で、保有された検証データの97.1%の精度を達成します。
私たちのさらなる調査は、これらの特異性が単語レベルの分布に根ざしていることを明らかにしています。
これらのパターンは、テキストが外部LLMによって書き換え、翻訳、または要約されている場合でも持続し、セマンティックコンテンツにもエンコードされていることを示唆しています。
さらに、LLMを審査員として活用して、各モデルの特異性の詳細で自由回答形式の説明を生成します。
最後に、特に合成データのトレーニングとモデルの類似性を推測するための調査結果のより広範な意味について説明します。
コードはhttps://github.com/locuslab/llm-idiosyncrasiesで入手できます。

要約(オリジナル)

In this work, we unveil and study idiosyncrasies in Large Language Models (LLMs) — unique patterns in their outputs that can be used to distinguish the models. To do so, we consider a simple classification task: given a particular text output, the objective is to predict the source LLM that generates the text. We evaluate this synthetic task across various groups of LLMs and find that simply fine-tuning existing text embedding models on LLM-generated texts yields excellent classification accuracy. Notably, we achieve 97.1% accuracy on held-out validation data in the five-way classification problem involving ChatGPT, Claude, Grok, Gemini, and DeepSeek. Our further investigation reveals that these idiosyncrasies are rooted in word-level distributions. These patterns persist even when the texts are rewritten, translated, or summarized by an external LLM, suggesting that they are also encoded in the semantic content. Additionally, we leverage LLM as judges to generate detailed, open-ended descriptions of each model’s idiosyncrasies. Finally, we discuss the broader implications of our findings, particularly for training on synthetic data and inferring model similarity. Code is available at https://github.com/locuslab/llm-idiosyncrasies.

arxiv情報

著者 Mingjie Sun,Yida Yin,Zhiqiu Xu,J. Zico Kolter,Zhuang Liu
発行日 2025-02-17 18:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Idiosyncrasies in Large Language Models はコメントを受け付けていません

Theoretical Barriers in Bellman-Based Reinforcement Learning

要約

高次元空間向けに設計された補強学習アルゴリズムは、しばしば、州のサンプルされた状態のサブセットでベルマン方程式を強制し、一般化に依存して州空間全体で知識を伝播します。
この論文では、この一般的なアプローチの基本的な制限を特定し、形式化します。
具体的には、このアプローチが悪用できないという単純な構造で反例問題を構築します。
私たちの調査結果は、そのようなアルゴリズムが問題に関する重要な情報を無視し、非効率につながることを明らかにしています。
さらに、この否定的な結果を文献から別のアプローチに拡張します。後知恵経験は、状態間の到達可能性を学習します。

要約(オリジナル)

Reinforcement Learning algorithms designed for high-dimensional spaces often enforce the Bellman equation on a sampled subset of states, relying on generalization to propagate knowledge across the state space. In this paper, we identify and formalize a fundamental limitation of this common approach. Specifically, we construct counterexample problems with a simple structure that this approach fails to exploit. Our findings reveal that such algorithms can neglect critical information about the problems, leading to inefficiencies. Furthermore, we extend this negative result to another approach from the literature: Hindsight Experience Replay learning state-to-state reachability.

arxiv情報

著者 Brieuc Pinon,Raphaël Jungers,Jean-Charles Delvenne
発行日 2025-02-17 16:18:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Theoretical Barriers in Bellman-Based Reinforcement Learning はコメントを受け付けていません

Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat

要約

使用する大規模な言語モデル(LLM)を決定することは、複雑な課題です。
ペアワイズランキングは、LLMの人間の好みを評価するための新しい方法として浮上しています。
このアプローチには、事前定義された基準に基づいてモデル出力のペアを評価する人間が必要です。
これらの比較を収集することにより、ELOなどの方法を使用してランキングを構築できます。
ただし、LLM評価のコンテキストで構築されたこれらのアルゴリズムを適用すると、いくつかの課題が生じます。
この論文では、LLMSの直接的な比較のためのランキングシステムの有効性を調査します。
効果的なランキングのための一連の基本原則を正式に定義し、LLMSのコンテキストでいくつかのランキングアルゴリズムの堅牢性について一連の広範な評価を実施します。
分析は、ランキングの精度と効率に影響を与える要因に関する重要な洞察を明らかにし、特定の評価コンテキストとリソースの制約に基づいて最も適切な方法を選択するためのガイドラインを提供します。

要約(オリジナル)

Deciding which large language model (LLM) to use is a complex challenge. Pairwise ranking has emerged as a new method for evaluating human preferences for LLMs. This approach entails humans evaluating pairs of model outputs based on a predefined criterion. By collecting these comparisons, a ranking can be constructed using methods such as Elo. However, applying these algorithms as constructed in the context of LLM evaluation introduces several challenges. In this paper, we explore the effectiveness of ranking systems for head-to-head comparisons of LLMs. We formally define a set of fundamental principles for effective ranking and conduct a series of extensive evaluations on the robustness of several ranking algorithms in the context of LLMs. Our analysis uncovers key insights into the factors that affect ranking accuracy and efficiency, offering guidelines for selecting the most appropriate methods based on specific evaluation contexts and resource constraints.

arxiv情報

著者 Roland Daynauth,Christopher Clarke,Krisztian Flautner,Lingjia Tang,Jason Mars
発行日 2025-02-17 16:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat はコメントを受け付けていません

Machine Learning Should Maximize Welfare, Not (Only) Accuracy

要約

機械学習における数十年にわたる研究により、正確な予測を行うための強力なツールが与えられました。
しかし、社会的環境や人間のインプットで使用される場合、より良い精度は、より良い社会的結果にすぐに変換されません。
従来の学習フレームワークが社会的好みを表現するように設計されていないことを考えると、これは驚くことではないかもしれません。
このポジションペーパーでは、機械学習は現在欠落しており、社会福祉の適切な概念である取り込みから多くの利益を得ることができると主張しています。
福祉経済学の分野は、社会的利益を最大化する方法で限られたリソースを自己利益のエージェントにどのように割り当てるべきですか?
この視点は、社会的文脈における機械学習の多くの現代的なアプリケーションに適用され、その採用を擁護すると主張します。
予測を処分するのではなく、社会福祉を促進するためにこの機械学習を活用することを目指しています。
このアイデアを実証し、精度の最大化(福祉への認識を持つ)から福祉の最大化(正確な予測を介して)に徐々に移行する概念的なフレームワークを提案します。
私たちのフレームワークが効果的である可能性のあるアプリケーションとユースケースを詳しく説明し、技術的な課題と実用的な機会を特定し、追求する価値のある将来の道を強調します。

要約(オリジナル)

Decades of research in machine learning have given us powerful tools for making accurate predictions. But when used in social settings and on human inputs, better accuracy does not immediately translate to better social outcomes. This may not be surprising given that conventional learning frameworks are not designed to express societal preferences — let alone promote them. This position paper argues that machine learning is currently missing, and can gain much from incorporating, a proper notion of social welfare. The field of welfare economics asks: how should we allocate limited resources to self-interested agents in a way that maximizes social benefit? We argue that this perspective applies to many modern applications of machine learning in social contexts, and advocate for its adoption. Rather than disposing of prediction, we aim to leverage this forte of machine learning for promoting social welfare. We demonstrate this idea by proposing a conceptual framework that gradually transitions from accuracy maximization (with awareness to welfare) to welfare maximization (via accurate prediction). We detail applications and use-cases for which our framework can be effective, identify technical challenges and practical opportunities, and highlight future avenues worth pursuing.

arxiv情報

著者 Nir Rosenfeld,Haifeng Xu
発行日 2025-02-17 16:22:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | Machine Learning Should Maximize Welfare, Not (Only) Accuracy はコメントを受け付けていません

Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning

要約

影響機能はモデルトレーニングに関する重要な洞察を提供しますが、既存の方法は大きな計算コストと限られた一般化に悩まされています。
特に、最近の作品は、言語モデルを使用してデータの影響を計算するために、さまざまなメトリックとアルゴリズムを提案しています。言語モデルは、大規模なモデルやデータセットでは十分にスケーリングしません。
これは、計算に必要な高価な前方および後方パス、大規模なモデルを格納するための実質的なメモリ要件、および新しいデータへの影響推定値の一般化が不十分なためです。
このホワイトペーパーでは、影響値を推定するために、インフルエンキャネットワークと呼ばれる小さなニューラルネットワークの使用を調査し、最大99%のコスト削減を達成します。
私たちの評価は、フル言語モデルのサイズのわずか0.0027%モデルで影響値を推定できることを示しています(7Bおよび8Bバージョンを使用しています)。
影響値を推定するアルゴリズム(NN-CIFT:効率的な指導の微調整のためのニューラルネットワークと呼ばれる)を、一般的な命令微調整のためのサブセット選択の下流タスクに適用します。
私たちの研究では、4つの最先端の影響関数を含め、NN-Ciftと元の影響関数の間に大きなスピードアップにもかかわらず、パフォーマンスの妥協はありません。
Nn-Ciftの詳細なハイパーパラメーター分析を提供します。
この方法のコードは、https://github.com/agarwalishika/nn-ciftにあります。

要約(オリジナル)

Influence functions provide crucial insights into model training, but existing methods suffer from large computational costs and limited generalization. Particularly, recent works have proposed various metrics and algorithms to calculate the influence of data using language models, which do not scale well with large models and datasets. This is because of the expensive forward and backward passes required for computation, substantial memory requirements to store large models, and poor generalization of influence estimates to new data. In this paper, we explore the use of small neural networks — which we refer to as the InfluenceNetwork — to estimate influence values, achieving up to 99% cost reduction. Our evaluation demonstrates that influence values can be estimated with models just 0.0027% the size of full language models (we use 7B and 8B versions). We apply our algorithm of estimating influence values (called NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) to the downstream task of subset selection for general instruction fine-tuning. In our study, we include four state-of-the-art influence functions and show no compromise in performance, despite large speedups, between NN-CIFT and the original influence functions. We provide an in-depth hyperparameter analyses of NN-CIFT. The code for our method can be found here: https://github.com/agarwalishika/NN-CIFT.

arxiv情報

著者 Ishika Agarwal,Dilek Hakkani-Tür
発行日 2025-02-17 16:26:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning はコメントを受け付けていません

Revisiting Multi-Permutation Equivariance through the Lens of Irreducible Representations

要約

このペーパーでは、順列および関連グループの表現のための等量線形層の特性評価について説明します。
パラメーター共有を使用してこれらの問題に対処する従来のアプローチとは異なり、還元可能な表現とSchurの補題に基づいた代替方法論を検討します。
この方法論を使用して、ディープセット、2-Inグラフ等量ネットワーク、ディープウェイトスペース(DWS)ネットワークなどの既存のモデルの代替導出を取得します。
DWSネットワークの派生は、以前の結果の派生よりも大幅に単純です。
次に、アプローチを拡張していない対称セットへのアプローチを拡張します。ここでは、グループのリース製品に等しいことが必要です。
以前の作品は、この問題をかなり制限的な設定で取り上げてきました。この環境では、ほぼすべてのリース等量層がシャム人です。
対照的に、この場合は層の完全な特性評価を与え、いくつかの設定には膨大な数の非浅瀬層があることを示します。
また、これらの追加の非シアム層が、グラフの異常検出、重量空間アライメント、ワッサースタイン距離の学習などのタスクのパフォーマンスを改善できることを経験的に示しています。
私たちのコードは、\ href {https://github.com/yonatansverdlov/irreducible-presentations-of-deep-weight-spaces} {github}で入手できます。

要約(オリジナル)

This paper explores the characterization of equivariant linear layers for representations of permutations and related groups. Unlike traditional approaches, which address these problems using parameter-sharing, we consider an alternative methodology based on irreducible representations and Schur’s lemma. Using this methodology, we obtain an alternative derivation for existing models like DeepSets, 2-IGN graph equivariant networks, and Deep Weight Space (DWS) networks. The derivation for DWS networks is significantly simpler than that of previous results. Next, we extend our approach to unaligned symmetric sets, where equivariance to the wreath product of groups is required. Previous works have addressed this problem in a rather restrictive setting, in which almost all wreath equivariant layers are Siamese. In contrast, we give a full characterization of layers in this case and show that there is a vast number of additional non-Siamese layers in some settings. We also show empirically that these additional non-Siamese layers can improve performance in tasks like graph anomaly detection, weight space alignment, and learning Wasserstein distances. Our code is available at \href{https://github.com/yonatansverdlov/Irreducible-Representations-of-Deep-Weight-Spaces}{GitHub}.

arxiv情報

著者 Yonatan Sverdlov,Ido Springer,Nadav Dym
発行日 2025-02-17 16:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Revisiting Multi-Permutation Equivariance through the Lens of Irreducible Representations はコメントを受け付けていません

Presumed Cultural Identity: How Names Shape LLM Responses

要約

名前は人間のアイデンティティに深く結びついています。
それらは、個性、文化遺産、個人的な歴史のマーカーとして機能することができます。
ただし、アイデンティティのコアインジケーターとして名前を使用すると、複雑なアイデンティティが過度に単純化される可能性があります。
LLMと対話する場合、ユーザー名はパーソナライズの重要な情報ポイントです。
名前は、CVレビューなどのタスクコンテキストの一部として、またはパーソナライズのためにユーザー情報を保存する組み込みメモリ機能として、直接ユーザー入力(チャットボットによる要求)を介してチャットボットの会話を入力できます。
一般的な提案を求めるクエリが提示された場合、LLMSによって生成された応答で文化的推定を測定することにより、名前に関連するバイアスを研究します。
私たちの分析は、複数の文化にわたってLLM世代に存在する名前に関連する文化的アイデンティティに関する強い仮定を示しています。
私たちの仕事は、意味のあるカスタマイズを維持しながらステレオタイプの強化を避ける、より微妙なパーソナライゼーションシステムを設計することに影響を与えます。

要約(オリジナル)

Names are deeply tied to human identity. They can serve as markers of individuality, cultural heritage, and personal history. However, using names as a core indicator of identity can lead to over-simplification of complex identities. When interacting with LLMs, user names are an important point of information for personalisation. Names can enter chatbot conversations through direct user input (requested by chatbots), as part of task contexts such as CV reviews, or as built-in memory features that store user information for personalisation. We study biases associated with names by measuring cultural presumptions in the responses generated by LLMs when presented with common suggestion-seeking queries, which might involve making assumptions about the user. Our analyses demonstrate strong assumptions about cultural identity associated with names present in LLM generations across multiple cultures. Our work has implications for designing more nuanced personalisation systems that avoid reinforcing stereotypes while maintaining meaningful customisation.

arxiv情報

著者 Siddhesh Pawar,Arnav Arora,Lucie-Aimée Kaffee,Isabelle Augenstein
発行日 2025-02-17 16:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | Presumed Cultural Identity: How Names Shape LLM Responses はコメントを受け付けていません

On the Expressive Power of Sparse Geometric MPNNs

要約

化学およびその他の科学のアプリケーションに動機付けられて、ノードが3次元位置に対応する幾何学的グラフのメッセージ通過ニューラルネットワークの表現力を研究します。
最近の研究では、そのようなモデルが非異形の幾何学的グラフの一般的なペアを分離できることが示されていますが、まれで複雑なインスタンスを分離できない可能性があります。
ただし、これらの結果は、各ノードが他のすべてのノードの完全な知識を持っている完全に接続されたグラフを想定しています。
対照的に、多くの場合、アプリケーションでは、すべてのノードは少数の最近隣人の知識のみを持っています。
このホワイトペーパーでは、基礎となるグラフが接続されている限り、メッセージ通過ネットワークを回転するネットワークを使用してメッセージ通過ネットワークによって分離できることを示しています。
不変の中間機能のみが許可されている場合、一般的にグローバルに剛性のあるグラフに対して一般的な分離が保証されます。
私たちの理論的保証を達成し、合成および化学ベンチマークの代替アーキテクチャと比較するシンプルなアーキテクチャであるEgennetを紹介します。
私たちのコードは、https://github.com/yonatansverdlov/e-gennetで入手できます。

要約(オリジナル)

Motivated by applications in chemistry and other sciences, we study the expressive power of message-passing neural networks for geometric graphs, whose node features correspond to 3-dimensional positions. Recent work has shown that such models can separate generic pairs of non-isomorphic geometric graphs, though they may fail to separate some rare and complicated instances. However, these results assume a fully connected graph, where each node possesses complete knowledge of all other nodes. In contrast, often, in application, every node only possesses knowledge of a small number of nearest neighbors. This paper shows that generic pairs of non-isomorphic geometric graphs can be separated by message-passing networks with rotation equivariant features as long as the underlying graph is connected. When only invariant intermediate features are allowed, generic separation is guaranteed for generically globally rigid graphs. We introduce a simple architecture, EGENNET, which achieves our theoretical guarantees and compares favorably with alternative architecture on synthetic and chemical benchmarks. Our code is available at https://github.com/yonatansverdlov/E-GenNet.

arxiv情報

著者 Yonatan Sverdlov,Nadav Dym
発行日 2025-02-17 16:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | On the Expressive Power of Sparse Geometric MPNNs はコメントを受け付けていません