LoRA-Null: Low-Rank Adaptation via Null Space for Large Language Models

要約

低ランク適応(LORA)は、大規模な言語モデル(LLM)の主要なパラメーター効率の高い微調整方法です。
しかし、微調整されたLLMSは、事前に訓練された世界知識の壊滅的な忘却の問題に遭遇します。
ヌル空間の理論的洞察に触発されたこの問題に対処するために、ロラヌル、つまり、抑制された知識活性化のヌル空間から初期化されたアダプターを構築するヌル空間を介した低ランクの適応を提案します。
具体的には、LLMレイヤーを通過した後、いくつかのデータサンプルをランダムに収集し、アクティベーションをキャプチャします。
入力アクティベーションで特異値分解を実行して、ヌル空間を取得します。
アダプターの初期化として、事前に訓練された重みの投影をヌル空間に使用します。
実験結果は、この初期化アプローチが微調整中のLLMの元の事前に訓練された世界知識を効果的に保存できることを示しています。
さらに、微調整中にダウンプロジェクションマトリックスの値をフリーズすると、事前に訓練された世界知識をさらに良く保存します。
Lora-Nullは、ラマシリーズ(Llama2、Llama3、llama3.1、およびllama3.2)での広範な実験で検証されているように、タスク、数学、および命令に続いて、強力な微調整パフォーマンスを維持しながら、事前に訓練された世界の知識を効果的に保存します。
また、LORA-NULLが事前に訓練された知識を保持する能力の理論的保証を提供します。
コードはhttps://github.com/hungerpway/lora-nullにあります。

要約(オリジナル)

Low-Rank Adaptation (LoRA) is the leading parameter-efficient fine-tuning method for Large Language Models (LLMs). However, the fine-tuned LLMs encounter the issue of catastrophic forgetting of the pre-trained world knowledge. To address this issue, inspired by theoretical insights of null space, we propose LoRA-Null, i.e., Low-Rank Adaptation via null space, which builds adapters initialized from the null space of the pre-trained knowledge activation. Concretely, we randomly collect a few data samples and capture their activations after passing through the LLM layer. We perform Singular Value Decomposition on the input activations to obtain their null space. We use the projection of the pre-trained weights onto the null space as the initialization for adapters. Experimental results demonstrate that this initialization approach can effectively preserve the original pre-trained world knowledge of the LLMs during fine-tuning. Additionally, if we freeze the values of the down-projection matrices during fine-tuning, it achieves even better preservation of the pre-trained world knowledge. LoRA-Null effectively preserves pre-trained world knowledge while maintaining strong fine-tuning performance, as validated by extensive experiments on LLaMA series (LLaMA2, LLaMA3, LLaMA3.1, and LLaMA3.2) across Code, Math, and Instruction Following tasks. We also provide a theoretical guarantee for the capacity of LoRA-Null to retain pre-trained knowledge. Code is in https://github.com/HungerPWAY/LoRA-Null.

arxiv情報

著者 Pengwei Tang,Yong Liu,Dongjie Zhang,Xing Wu,Debing Zhang
発行日 2025-03-04 14:21:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LoRA-Null: Low-Rank Adaptation via Null Space for Large Language Models はコメントを受け付けていません

Multidimensional Consistency Improves Reasoning in Language Models

要約

大規模な言語モデル(LLM)は、いくつかの複雑な推論タスクに対処できることを証明していますが、入力変動に非常に敏感であり、異なるソリューションパスと最終回答につながる可能性があることも知っています。
したがって、入力のバリエーション全体での回答の一貫性は、より強い信頼性の兆候とみなすことができます。
この洞察を活用して、{\ em multididimensional推論の一貫性}フレームワークを紹介します。ここで、数学の問題に焦点を当てて、モデルが最終回答へのソリューションパスを多様化するために体系的にプッシュされ、それにより複数の入力変動にわたる回答の一貫性についてテストします。
(i)プロンプト、(ii)問題の言い回し、および(iii)使用された言語でのショットの順序のバリエーションを誘導します。
さまざまなサイズの広範なオープンソースの最先端のLLMでの広範な実験は、推論の一貫性が変動の次元によって異なることを示しており、次元間の一貫性を集約することにより、私たちのフレームワークは、単一言語のデータセットGSM8Kと多言語の両方のデータセットMGSMの数学的推論パフォーマンスを一貫して強化することを示しています。

要約(オリジナル)

While Large language models (LLMs) have proved able to address some complex reasoning tasks, we also know that they are highly sensitive to input variation, which can lead to different solution paths and final answers. Answer consistency across input variations can thus be taken as a sign of stronger confidence. Leveraging this insight, we introduce a framework, {\em Multidimensional Reasoning Consistency} where, focusing on math problems, models are systematically pushed to diversify solution paths towards a final answer, thereby testing them for answer consistency across multiple input variations. We induce variations in (i) order of shots in prompt, (ii) problem phrasing, and (iii) languages used. Extensive experiments on a large range of open-source state-of-the-art LLMs of various sizes show that reasoning consistency differs by variation dimension, and that by aggregating consistency across dimensions, our framework consistently enhances mathematical reasoning performance on both monolingual dataset GSM8K and multilingual dataset MGSM, especially for smaller models.

arxiv情報

著者 Huiyuan Lai,Xiao Zhang,Malvina Nissim
発行日 2025-03-04 14:41:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multidimensional Consistency Improves Reasoning in Language Models はコメントを受け付けていません

Are some books better than others?

要約

学者、賞委員会、および素人は、書かれた作品のメリットについて頻繁に議論します。
文学の専門家とジャーナリストは、著書のレビューで認められている視点がどれほど違います。
ここでは、実際の本の内容と特異な読者の傾向によって、本のレビューがどのように強く決定されるかを定量化します。
624,320の数値およびテキストの本のレビューの分析では、専門的に出版された本の内容は、ランダムな読者の読書の楽しみを予測していないことがわかります。
人気のあるフィクションとノンフィクションの本のオンラインレビューは、本に関するものよりもレビュアーに関する最大10倍の情報を伝えています。
好ましいジャンルの本の場合、読者は格付けが低い可能性が低くなる可能性が低いかもしれませんが、それでも相対的な評価に収束するのに苦労しています。
本の評価は、カジュアルな読者よりも経験豊富なレビュー作家全体で一般化されていることがわかります。
本で特定の問題を議論するとき、あるレビューテキストは、同じ本の別のレビューで提起された問題の予測可能性が低かった。
極端な視点は、文学の質を研究し、文学賞を授与し、推奨システムを設計する際に正当な立場であると結論付けています。

要約(オリジナル)

Scholars, awards committees, and laypeople frequently discuss the merit of written works. Literary professionals and journalists differ in how much perspectivism they concede in their book reviews. Here, we quantify how strongly book reviews are determined by the actual book contents vs. idiosyncratic reader tendencies. In our analysis of 624,320 numerical and textual book reviews, we find that the contents of professionally published books are not predictive of a random reader’s reading enjoyment. Online reviews of popular fiction and non-fiction books carry up to ten times more information about the reviewer than about the book. For books of a preferred genre, readers might be less likely to give low ratings, but still struggle to converge in their relative assessments. We find that book evaluations generalize more across experienced review writers than casual readers. When discussing specific issues with a book, one review text had poor predictability of issues brought up in another review of the same book. We conclude that extreme perspectivism is a justifiable position when researching literary quality, bestowing literary awards, and designing recommendation systems.

arxiv情報

著者 Hannes Rosenbusch,Luke Korthals
発行日 2025-03-04 14:43:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL, cs.IR | Are some books better than others? はコメントを受け付けていません

ADePT: Adaptive Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning

要約

プロンプトチューニング(PT)により、入力トークンエンメッドに加えられる少量のソフト仮想トークンを最適化することにより、事前に訓練された大型言語モデル(PLM)を下流タスクに適応させることができます。
最近、分解されたプロンプトチューニング(Dept)は、ソフトプロンプトをより短いソフトプロンプトと低ランクマトリックスのペアに分解することにより、優れた適応機能を実証しました。
低ランクマトリックスのペアの積は、それらを相殺するために入力トークン埋め込みに追加されます。
さらに、Deptは、より短いソフトプロンプトのため、PTと比較してより速い推論を実現します。
ただし、このホワイトペーパーでは、Deptの位置ベースのトークン埋め込みオフセットが、多様なモデル入力全体に一般化する能力を制限し、多くのトークン埋め込みにわたって共有された埋め込みオフセットが最適化されることがわかります。
これらの問題に取り組むために、短いソフトプロンプトと浅いトークン共有フィードフォワードニューラルネットワークで構成される適応分解プロンプトチューニング(ADEPT)を導入します。
Adeptは、トークン共有フィードフォワードニューラルネットワークを利用して、各トークンの埋め込みオフセットを学習し、モデル入力とトークン埋め込みオフセットのより良い最適化によって異なる適応埋め込みオフセットを可能にします。
これにより、ADEPTは、バニラPTおよびそのバリアントと比較して、より多くの推論時間や追加のトレーニング可能なパラメーターを必要とせずに優れた適応パフォーマンスを実現できます。
23の自然言語処理タスクと4つの異なるスケールの4つの典型的なPLMにわたる包括的な実験では、Adeptは他の主要なパラメーター効率の高い微調整方法を一貫して上回り、特定のシナリオで完全な微調整を上回ります。
また、Adeptに対する理論的分析も提供します。
コードはhttps://github.com/hungerpway/adeptで入手できます。

要約(オリジナル)

Prompt Tuning (PT) enables the adaptation of Pre-trained Large Language Models (PLMs) to downstream tasks by optimizing a small amount of soft virtual tokens, which are prepended to the input token embeddings. Recently, Decomposed Prompt Tuning (DePT) has demonstrated superior adaptation capabilities by decomposing the soft prompt into a shorter soft prompt and a pair of low-rank matrices. The product of the pair of low-rank matrices is added to the input token embeddings to offset them. Additionally, DePT achieves faster inference compared to PT due to the shorter soft prompt. However, in this paper, we find that the position-based token embedding offsets of DePT restrict its ability to generalize across diverse model inputs, and that the shared embedding offsets across many token embeddings result in sub-optimization. To tackle these issues, we introduce Adaptive Decomposed Prompt Tuning (ADePT), which is composed of a short soft prompt and a shallow token-shared feed-forward neural network. ADePT utilizes the token-shared feed-forward neural network to learn the embedding offsets for each token, enabling adaptive embedding offsets that vary according to the model input and better optimization of token embedding offsets. This enables ADePT to achieve superior adaptation performance without requiring more inference time or additional trainable parameters compared to vanilla PT and its variants. In comprehensive experiments across 23 natural language processing tasks and 4 typical PLMs of different scales, ADePT consistently surpasses the other leading parameter-efficient fine-tuning methods, and even outperforms the full fine-tuning in certain scenarios. We also provide a theoretical analysis towards ADePT. Code is available at https://github.com/HungerPWAY/ADePT.

arxiv情報

著者 Pengwei Tang,Xiaolin Hu,Yong Liu
発行日 2025-03-04 15:03:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ADePT: Adaptive Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning はコメントを受け付けていません

Multilingualism, Transnationality, and K-pop in the Online #StopAsianHate Movement

要約

#StopasianHate(SAH)運動は、AsianとAsian Americansを標的にした暴力に対する広範な社会運動であり、2021年にCovid-19に関連する人種差別と反アジアの憎悪に関する世界的な会話を引き起こしています。
しかし、オンラインSAH運動に関する研究は英語を話す参加者に焦点を当てているため、米国外のムーブメントの広がりはほとんど知られていません。
さらに、SAHの長期的な研究はなかったため、時間の経過とともに成功裏に維持されている程度はよく理解されていません。
オンラインSAHムーブメントの非英語および国境を越えた構成要素の最初の研究を構成する、世界中の220万人のユーザーから60の異なる言語にまたがる650万人の「#stopasianhate」ツイートの分析を提示します。
トピックモデリング、ユーザーモデリング、およびハンドアノテーションの組み合わせを使用して、運動に参加する支配的なディスカッションとユーザーを特定して特徴付け、英語と非英語のトピックとユーザーの比較を描きます。
英語のツイートの急増が米国での暴力犯罪によって駆動されるが、英語以外のツイートのスパイクは、アジア諸国の象​​徴的な代表者に対する反アジアの感情の多国籍事件によって駆動されるイベントのトピックを推進するイベントの明確な違いを発見します。
また、グローバルなK-PopファンはSAH運動を迅速に採用し、実際、他のどのユーザーグループよりも長くそれを維持していることがわかりました。
私たちの仕事は、SAH運動の変化と進化を理解することに貢献し、より一般的には、大規模な多言語オンラインアクティビズムにおける上向きのスケールシフトと国民の注目を集めることに貢献しています。

要約(オリジナル)

The #StopAsianHate (SAH) movement is a broad social movement against violence targeting Asians and Asian Americans, beginning in 2021 in response to racial discrimination related to COVID-19 and sparking worldwide conversation about anti-Asian hate. However, research on the online SAH movement has focused on English-speaking participants so the spread of the movement outside of the United States is largely unknown. In addition, there have been no long-term studies of SAH so the extent to which it has been successfully sustained over time is not well understood. We present an analysis of 6.5 million ‘#StopAsianHate’ tweets from 2.2 million users all over the globe and spanning 60 different languages, constituting the first study of the non-English and transnational component of the online SAH movement. Using a combination of topic modeling, user modeling, and hand annotation, we identify and characterize the dominant discussions and users participating in the movement and draw comparisons of English versus non-English topics and users. We discover clear differences in events driving topics, where spikes in English tweets are driven by violent crimes in the US but spikes in non-English tweets are driven by transnational incidents of anti-Asian sentiment towards symbolic representatives of Asian nations. We also find that global K-pop fans were quick to adopt the SAH movement and, in fact, sustained it for longer than any other user group. Our work contributes to understanding the transnationality and evolution of the SAH movement, and more generally to exploring upward scale shift and public attention in large-scale multilingual online activism.

arxiv情報

著者 Tessa Masis,Zhangqi Duan,Weiai Wayne Xu,Ethan Zuckerman,Jane Yeahin Pyo,Brendan O’Connor
発行日 2025-03-04 15:21:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Multilingualism, Transnationality, and K-pop in the Online #StopAsianHate Movement はコメントを受け付けていません

Evaluating Knowledge Generation and Self-Refinement Strategies for LLM-based Column Type Annotation

要約

リレーショナルテーブルでの列のセマンティクスを理解することは、豊富なデータ検索を提供するために、データ湖をインデックス化するための重要な前処理ステップです。
そのような理解を確立するためのアプローチは、特定の語彙からの用語でテーブル列に注釈を付けることが目標である列タイプの注釈(CTA)です。
このペーパーでは、LLMベースの列タイプの注釈のさまざまな知識生成と自己修復戦略を実験的に比較します。
戦略には、LLMを使用して項定義を生成し、用語定義のエラーベースの改良、自己修正、および例と用語定義を使用した微調整が含まれます。
これらの戦略を2つの次元に沿って評価します:F1パフォーマンスとして測定された有効性とトークンの使用とコストの観点から測定された効率。
私たちの実験は、最良のパフォーマンス戦略がモデル/データセットの組み合わせに依存することを示しています。
トレーニングデータを使用してラベル定義を生成することは、OpenAIモデルを使用して3つのデータセットのうち2つのコンテキスト学習のデモンストレーションと同じデータを使用してアウトパフォーマンスすることがわかります。
この実験では、LLMSを使用するためにラベル定義を改良すると、12のセットアップ中10枚で平均3.9%F1の増加が、非洗練された定義のパフォーマンスと比較して、F1が3.9%増加することが示されています。
微調整されたモデルと自己修復用語の定義を組み合わせることで、全体的にパフォーマンスが最も高くなり、ゼロショットを上回ると、F1スコアが少なくとも3%微調整されたモデルを促します。
コスト分析では、同様のF1スコアに達している間、プロンプトによる自己修復は、少量のテーブルを注釈付けする必要があるユースケースの方がコスト効率が高くなりますが、微調整は大量のテーブルに対してより効率的です。

要約(オリジナル)

Understanding the semantics of columns in relational tables is an important pre-processing step for indexing data lakes in order to provide rich data search. An approach to establishing such understanding is column type annotation (CTA) where the goal is to annotate table columns with terms from a given vocabulary. This paper experimentally compares different knowledge generation and self-refinement strategies for LLM-based column type annotation. The strategies include using LLMs to generate term definitions, error-based refinement of term definitions, self-correction, and fine-tuning using examples and term definitions. We evaluate these strategies along two dimensions: effectiveness measured as F1 performance and efficiency measured in terms of token usage and cost. Our experiments show that the best performing strategy depends on the model/dataset combination. We find that using training data to generate label definitions outperforms using the same data as demonstrations for in-context learning for two out of three datasets using OpenAI models. The experiments further show that using the LLMs to refine label definitions brings an average increase of 3.9% F1 in 10 out of 12 setups compared to the performance of the non-refined definitions. Combining fine-tuned models with self-refined term definitions results in the overall highest performance, outperforming zero-shot prompting fine-tuned models by at least 3% in F1 score. The costs analysis shows that while reaching similar F1 score, self-refinement via prompting is more cost efficient for use cases requiring smaller amounts of tables to be annotated while fine-tuning is more efficient for large amounts of tables.

arxiv情報

著者 Keti Korini,Christian Bizer
発行日 2025-03-04 15:32:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Evaluating Knowledge Generation and Self-Refinement Strategies for LLM-based Column Type Annotation はコメントを受け付けていません

Annotating and Inferring Compositional Structures in Numeral Systems Across Languages

要約

世界の言語全体の数値システムは、同期構造と現在の形状でどのように進化するかを決定する時ダニックプロセスの両方に関して、魅力的な方法で異なります。
ただし、異なる言語にわたる数字システムを適切に比較するには、基本的な特性の比較を可能にする標準化された形式でコーディングすることが重要です。
ここでは、数値アノテーションのためのシンプルだが効果的なコーディングスキームと、コンピューター支援方法で数字システムをコーディングするのに役立つワークフローを提示し、25の25の数字のサンプルデータを提供します。
基礎となる形態構造と表面の形態構造の体系的な比較に焦点を当て、サンプルの徹底的な分析を実行します。
さらに、モルフェムセグメンテーションの自動モデルを実験します。このモデルでは、セグメンテーションエラーの主な理由としてアロモルフィが見つかります。
最後に、低リソースのシナリオで形態素を発見するためにサブワードトークン化アルゴリズムが実行できないことを示します。

要約(オリジナル)

Numeral systems across the world’s languages vary in fascinating ways, both regarding their synchronic structure and the diachronic processes that determined how they evolved in their current shape. For a proper comparison of numeral systems across different languages, however, it is important to code them in a standardized form that allows for the comparison of basic properties. Here, we present a simple but effective coding scheme for numeral annotation, along with a workflow that helps to code numeral systems in a computer-assisted manner, providing sample data for numerals from 1 to 40 in 25 typologically diverse languages. We perform a thorough analysis of the sample, focusing on the systematic comparison between the underlying and the surface morphological structure. We further experiment with automated models for morpheme segmentation, where we find allomorphy as the major reason for segmentation errors. Finally, we show that subword tokenization algorithms are not viable for discovering morphemes in low-resource scenarios.

arxiv情報

著者 Arne Rubehn,Christoph Rzymski,Luca Ciucci,Kellen Parker van Dam,Alžběta Kučerová,Katja Bocklage,David Snee,Abishek Stephen,Johann-Mattis List
発行日 2025-03-04 15:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, J.5 | Annotating and Inferring Compositional Structures in Numeral Systems Across Languages はコメントを受け付けていません

Large Language Models for Multilingual Previously Fact-Checked Claim Detection

要約

広範囲にわたる虚偽の情報の時代において、人間の事実確認者は、他の国や言語ですでに対処されている可能性のある主張を検証する際に、努力を重複させるという課題にしばしば直面しています。
誤った情報が言語の境界を超えているため、言語間で以前に事前にチェックされたクレームを自動的に検出する能力がますます重要なタスクになりました。
このペーパーでは、以前に事前にチェックされた多言語の請求検出に関する大規模な言語モデル(LLMS)の最初の包括的な評価を紹介します。
単一言語と横断的な設定の両方で、20の言語で7つのLLMを評価します。
私たちの結果は、LLMSが高リソース言語ではうまく機能しますが、リソースの低い言語に苦労していることを示しています。
さらに、元のテキストを英語に翻訳することは、低リソース言語にとって有益であることが証明されました。
これらの調査結果は、以前に事前に確認された多言語の請求検出のLLMSの可能性を強調し、LLMSのこの有望な適用に関するさらなる研究の基盤を提供します。

要約(オリジナル)

In our era of widespread false information, human fact-checkers often face the challenge of duplicating efforts when verifying claims that may have already been addressed in other countries or languages. As false information transcends linguistic boundaries, the ability to automatically detect previously fact-checked claims across languages has become an increasingly important task. This paper presents the first comprehensive evaluation of large language models (LLMs) for multilingual previously fact-checked claim detection. We assess seven LLMs across 20 languages in both monolingual and cross-lingual settings. Our results show that while LLMs perform well for high-resource languages, they struggle with low-resource languages. Moreover, translating original texts into English proved to be beneficial for low-resource languages. These findings highlight the potential of LLMs for multilingual previously fact-checked claim detection and provide a foundation for further research on this promising application of LLMs.

arxiv情報

著者 Ivan Vykopal,Matúš Pikuliak,Simon Ostermann,Tatiana Anikina,Michal Gregor,Marián Šimko
発行日 2025-03-04 15:56:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models for Multilingual Previously Fact-Checked Claim Detection はコメントを受け付けていません

Seeded Poisson Factorization: Leveraging domain knowledge to fit topic models

要約

トピックモデルは、大規模なテキストコーパで潜在的なテーマ構造を発見するために広く使用されていますが、従来の監視されていない方法は、事前に定義された概念ドメインと整合するのに苦労しています。
このペーパーでは、シードワードを通してドメインの知識を組み込むことによりポアソン因子化フレームワークを拡張する新しいアプローチであるシードされたポアソン因子化(SPF)を紹介します。
SPFは、トピック固有の用語強度の事前の分布を変更し、事前定義されたシード単語により高い初期レートを割り当てることにより、より解釈可能で構造化されたトピック発見を可能にします。
このモデルは、確率的勾配最適化を伴う変分推論を使用して推定され、大規模なデータセットのスケーラビリティを確保します。
SPFをAmazonの顧客フィードバックデータセットに適用し、ガイド構造として事前定義された製品カテゴリを活用します。
私たちの評価は、SPFが特に計算効率と予測パフォーマンスの観点から、代替ガイド付きトピックモデルと比較して優れた分類パフォーマンスを達成することを示しています。
さらに、堅牢性チェックは、不完全な種子単語の選択の場合でも、ドメインの知識とデータ駆動型トピックの発見のバランスをとるSPFの能力を強調しています。
これらの結果は、SPFが、専門知識をトピックモデリングに統合し、実際のアプリケーションの解釈可能性と効率の両方を強化するための強力でスケーラブルな代替品として確立されています。

要約(オリジナル)

Topic models are widely used for discovering latent thematic structures in large text corpora, yet traditional unsupervised methods often struggle to align with predefined conceptual domains. This paper introduces Seeded Poisson Factorization (SPF), a novel approach that extends the Poisson Factorization framework by incorporating domain knowledge through seed words. SPF enables a more interpretable and structured topic discovery by modifying the prior distribution of topic-specific term intensities, assigning higher initial rates to predefined seed words. The model is estimated using variational inference with stochastic gradient optimization, ensuring scalability to large datasets. We apply SPF to an Amazon customer feedback dataset, leveraging predefined product categories as guiding structures. Our evaluation demonstrates that SPF achieves superior classification performance compared to alternative guided topic models, particularly in terms of computational efficiency and predictive performance. Furthermore, robustness checks highlight SPF’s ability to adaptively balance domain knowledge and data-driven topic discovery, even in cases of imperfect seed word selection. These results establish SPF as a powerful and scalable alternative for integrating expert knowledge into topic modeling, enhancing both interpretability and efficiency in real-world applications.

arxiv情報

著者 Bernd Prostmaier,Jan Vávra,Bettina Grün,Paul Hofmarcher
発行日 2025-03-04 16:05:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, econ.GN, q-fin.EC, stat.ME | Seeded Poisson Factorization: Leveraging domain knowledge to fit topic models はコメントを受け付けていません

BatchGEMBA: Token-Efficient Machine Translation Evaluation with Batched Prompting and Prompt Compression

要約

大規模な言語モデル(LLM)ベースの自然言語生成評価における最近の進歩は、単一例のプロンプトに大きく焦点を当てており、重要なトークンオーバーヘッドと計算の非効率性をもたらしています。
この作業では、機械翻訳評価のためにGemba-MQMメトリックとバッチプロンプトを統合するフレームワークであるBatchGemba-MQMを紹介します。
私たちのアプローチは、複数の翻訳の例を単一のプロンプトに集約し、トークンの使用量を単一例のプロンプトと比較して2〜4回(バッチサイズに応じて)削減します。
さらに、平均で13〜15%の追加のトークン削減を達成すると同時に、バッチ誘発性の品質分解を緩和する能力を示すバッチアウェアプロンプト圧縮モデルを提案します。
いくつかのLLMS(GPT-4O、GPT-4O-MINI、Mistral Small、Phi4、およびCommandR7B)にわたる評価は、バッチが一般的に品質に悪影響を与える一方で、迅速な圧縮はそれ以上に低下しないことを明らかにしていますが、場合によっては、品質損失を回復します。
たとえば、GPT-4Oは、圧縮のない44.6%の低下と比較して、圧縮が適用されるときに4のバッチサイズでベースラインパフォーマンスの90%以上を保持します。
このドメインでの将来の研究をサポートするために、https://github.com/nl2g/batchgembaでコードとトレーニングモデルをリリースする予定です。

要約(オリジナル)

Recent advancements in Large Language Model (LLM)-based Natural Language Generation evaluation have largely focused on single-example prompting, resulting in significant token overhead and computational inefficiencies. In this work, we introduce BatchGEMBA-MQM, a framework that integrates batched prompting with the GEMBA-MQM metric for machine translation evaluation. Our approach aggregates multiple translation examples into a single prompt, reducing token usage by 2-4 times (depending on the batch size) relative to single-example prompting. Furthermore, we propose a batching-aware prompt compression model that achieves an additional token reduction of 13-15% on average while also showing ability to help mitigate batching-induced quality degradation. Evaluations across several LLMs (GPT-4o, GPT-4o-mini, Mistral Small, Phi4, and CommandR7B) and varying batch sizes reveal that while batching generally negatively affects quality (but sometimes not substantially), prompt compression does not degrade further, and in some cases, recovers quality loss. For instance, GPT-4o retains over 90% of its baseline performance at a batch size of 4 when compression is applied, compared to a 44.6% drop without compression. We plan to release our code and trained models at https://github.com/NL2G/batchgemba to support future research in this domain.

arxiv情報

著者 Daniil Larionov,Steffen Eger
発行日 2025-03-04 16:20:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BatchGEMBA: Token-Efficient Machine Translation Evaluation with Batched Prompting and Prompt Compression はコメントを受け付けていません