Delving into LLM-assisted writing in biomedical publications through excess vocabulary

要約

ChatGPTのような大規模な言語モデル(LLMS)は、人間レベルのパフォーマンスでテキストを生成および修正できます。
これらのモデルには明確な制限があります。不正確な情報を生成し、既存のバイアスを強化し、簡単に誤用することができます。
しかし、多くの科学者は彼らの学術的な執筆にそれらを使用しています。
しかし、学術文献では、このようなLLMの使用はどれほど広く普及していますか?
生物医学研究の分野に関するこの質問に答えるために、公平で大規模なアプローチを提示します。2010年から2024年までのPubMedによってインデックス付けされた1500万人以上の生物医学的要約の語彙の変化を研究し、LLMの出現がどのようにしたかを示します。
特定のスタイルの単語の頻度の急激な増加。
この過剰な単語分析は、2024年の要約の少なくとも13.5%がLLMで処理されたことを示唆しています。
この下限は、分野、国、雑誌間で異なり、一部のサブコルポラで40%に達しました。
LLMSは、生物医学研究における科学的執筆に前例のない影響を与え、共生のパンデミックなどの主要な世界イベントの効果を上回っていることを示しています。

要約(オリジナル)

Large language models (LLMs) like ChatGPT can generate and revise text with human-level performance. These models come with clear limitations: they can produce inaccurate information, reinforce existing biases, and be easily misused. Yet, many scientists use them for their scholarly writing. But how wide-spread is such LLM usage in the academic literature? To answer this question for the field of biomedical research, we present an unbiased, large-scale approach: we study vocabulary changes in over 15 million biomedical abstracts from 2010–2024 indexed by PubMed, and show how the appearance of LLMs led to an abrupt increase in the frequency of certain style words. This excess word analysis suggests that at least 13.5% of 2024 abstracts were processed with LLMs. This lower bound differed across disciplines, countries, and journals, reaching 40% for some subcorpora. We show that LLMs have had an unprecedented impact on scientific writing in biomedical research, surpassing the effect of major world events such as the Covid pandemic.

arxiv情報

著者 Dmitry Kobak,Rita González-Márquez,Emőke-Ágnes Horvát,Jan Lause
発行日 2025-02-14 11:01:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.DL, cs.SI | Delving into LLM-assisted writing in biomedical publications through excess vocabulary はコメントを受け付けていません

Prompt-based Depth Pruning of Large Language Models

要約

深さの剪定は、いくつかの重要でない変圧器ブロックを削除するだけで、ハードウェア固有の合併症なしで大きな言語モデルの推論コストを削減することを目的としています。
ただし、実証的な調査結果は、変圧器ブロックの重要性が非常にタスクに依存する可能性があることを示唆しています。タスクにとって重要なブロックは、別のタスクの精度を分解することなく削除できます。
この観察結果に基づいて、入力プロンプトに基づいてモデルから省略するブロックを決定する動的深度プルーニングアルゴリズム(プロンプトルーティングダイナミック深度剪定)を開発します。
プリンは、軽量のルーターをトレーニングして、一連のオプションの中で最適な省略セットを予測することで運営されています。このオプションセットは、データ駆動型の方法でも構築されています。
常識的な推論ベンチマークに関する経験的結果は、プリンが推論言語モデルを効果的に加速し、静的深度剪定ベースラインよりも優れたタスクのパフォーマンスを達成することを示しています。

要約(オリジナル)

Depth pruning aims to reduce the inference cost of a large language model without any hardware-specific complications, by simply removing several less important transformer blocks. However, our empirical findings suggest that the importance of a transformer block may be highly task-dependent — a block that is crucial for a task can be removed without degrading the accuracy on another task. Based on this observation, we develop a dynamic depth pruning algorithm, coined PuDDing (Prompt-routed Dynamic Depth Pruning), which determines which blocks to omit from the model based on the input prompt. PuDDing operates by training a lightweight router to predict the best omission set among a set of options, where this option set has also been constructed in a data-driven manner. Empirical results on commonsense reasoning benchmarks demonstrate that PuDDing effectively accelerates the inference language models, and achieves better on-task performance than static depth pruning baselines.

arxiv情報

著者 Juyun Wee,Minjae Park,Jaeho Lee
発行日 2025-02-14 11:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Prompt-based Depth Pruning of Large Language Models はコメントを受け付けていません

Evaluating and Improving Graph to Text Generation with Large Language Models

要約

大規模な言語モデル(LLM)は、さまざまなタスクにわたって大きな可能性を示しています。
ただし、グラフ構造の解釈におけるLLMの機能を調査および改善するための研究は限られたままです。
このギャップに対処するために、グラフからテキストの生成タスクで現在のオープンソースLLMを促すという包括的な評価を実施します。
最適なプロンプト戦略を調査し、斬新で効果的な多様性に基づく少数のサンプル選択方法を提案しましたが、LLMSが複雑なグラフの計画に苦労しているため、特に
より多くのトリプレット。
グラフシーケンスと真実の接地を使用した計画においてLLMSをさらに改善するために、新しいグラフからテキストのデータセット、PlangTGを紹介し、2つのサブタスクを注文と属性を紹介します。
大規模な自動および人間の評価を通じて、PlangTGデータセットを使用した少数の学習と微調整された視点の両方から、生成されたテキストの品質の大幅な改善を示します。
私たちの研究は、グラフからテキストの生成における新しい研究の方向への道を開きます。
plangtgデータセットはhttps://github.com/probe2/kg_textにあります。

要約(オリジナル)

Large language models (LLMs) have demonstrated immense potential across various tasks. However, research for exploring and improving the capabilities of LLMs in interpreting graph structures remains limited. To address this gap, we conduct a comprehensive evaluation of prompting current open-source LLMs on graph-to-text generation tasks. Although we explored the optimal prompting strategies and proposed a novel and effective diversity-difficulty-based few-shot sample selection method, we found that the improvements from tuning-free approaches were incremental, as LLMs struggle with planning on complex graphs, particularly those with a larger number of triplets. To further improve LLMs in planning with graph sequences and grounding in truth, we introduce a new graph-to-text dataset, PlanGTG, annotated with two sub-tasks: reordering and attribution. Through extensive automatic and human evaluations, we demonstrate significant improvements in the quality of generated text from both few-shot learning and fine-tuning perspectives using the PlanGTG dataset. Our study paves the way for new research directions in graph-to-text generation. PlanGTG datasets can be found in https://github.com/probe2/kg_text.

arxiv情報

著者 Jie He,Yijun Yang,Wanqiu Long,Deyi Xiong,Victor Gutierrez-Basulto,Jeff Z. Pan
発行日 2025-02-14 12:38:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Evaluating and Improving Graph to Text Generation with Large Language Models はコメントを受け付けていません

Mechanism and Emergence of Stacked Attention Heads in Multi-Layer Transformers

要約

この論文では、検索問題を紹介します。これは、入力サイズで対数的に成長する最小数のレイヤーで変圧器によってのみ解決できる単純で一般的な推論タスクです。
私は、大規模な言語モデルが微調整なしで異なるプロンプトの定式化の下でタスクを解決できることを経験的に示します。
トランスが検索の問題をどのように解決するかを理解するために、最小限の処方でいくつかの変圧器を訓練します。
成功した学習は、暗黙のカリキュラムの存在下でのみ発生します。
訓練された変圧器の注意マップを研究することにより、学んだメカニズムを明らかにします。
また、トレーニングプロセスを研究し、暗黙のカリキュラムによって導かれた特定のシーケンスで常に注意ヘッドが出現することを明らかにします。

要約(オリジナル)

In this paper, I introduce the retrieval problem, a simple yet common reasoning task that can be solved only by transformers with a minimum number of layers, which grows logarithmically with the input size. I empirically show that large language models can solve the task under different prompting formulations without any fine-tuning. To understand how transformers solve the retrieval problem, I train several transformers on a minimal formulation. Successful learning occurs only under the presence of an implicit curriculum. I uncover the learned mechanisms by studying the attention maps in the trained transformers. I also study the training process, uncovering that attention heads always emerge in a specific sequence guided by the implicit curriculum.

arxiv情報

著者 Tiberiu Musat
発行日 2025-02-14 12:56:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Mechanism and Emergence of Stacked Attention Heads in Multi-Layer Transformers はコメントを受け付けていません

Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages

要約

低リソース言語(LRL)は、データが限られているため、自然言語処理(NLP)の重大な課題に直面しています。
現在の最先端の大規模な言語モデル(LLM)は依然としてLRLと格闘していますが、MbertやXLM-Rなどの小型の多言語モデル(MLM)は、低トレーニングデータサイズの能力により適合するため、より大きな有望です。
この研究では、MLMをLRLに適応させるためのパラメーター効率の高いアダプターベースの方法を体系的に調査し、3つのアーキテクチャを評価します。
GlotCCからの非構造化テキストとコンセプトネットからの構造化された知識を使用して、小さな適応データセット(たとえば、最大1 GBのフリーテキストまたは数MBの知識グラフデータ)が、内因性タスク(マスクされた言語モデリング)と外因性タスク(
トピック分類、センチメント分析、および名前付きエンティティ認識)。
シーケンシャルボトルネックアダプターは言語モデリングに優れていることがわかりますが、反転可能なボトルネックアダプターは、アライメントの埋め込みとパラメーター数が大きいため、下流タスクの他のメソッドをわずかに上回ります。
アダプターベースのメソッドは、パラメーターをはるかに少なく使用しながら、完全な微調整を一致または上回り、LLAM-3、GPT-4、DeepSeek-R1ベースの蒸留モデルなどの大規模なLLMよりもLRLに対してより効果的であることが証明されます。
適応はパフォーマンスを改善しますが、特に広範なトレーニング前のカバレッジを持つ言語では、トレーニング前のデータサイズが支配的な要因のままです。

要約(オリジナル)

Low-resource languages (LRLs) face significant challenges in natural language processing (NLP) due to limited data. While current state-of-the-art large language models (LLMs) still struggle with LRLs, smaller multilingual models (mLMs) such as mBERT and XLM-R offer greater promise due to a better fit of their capacity to low training data sizes. This study systematically investigates parameter-efficient adapter-based methods for adapting mLMs to LRLs, evaluating three architectures: Sequential Bottleneck, Invertible Bottleneck, and Low-Rank Adaptation. Using unstructured text from GlotCC and structured knowledge from ConceptNet, we show that small adaptation datasets (e.g., up to 1 GB of free-text or a few MB of knowledge graph data) yield gains in intrinsic (masked language modeling) and extrinsic tasks (topic classification, sentiment analysis, and named entity recognition). We find that Sequential Bottleneck adapters excel in language modeling, while Invertible Bottleneck adapters slightly outperform other methods on downstream tasks due to better embedding alignment and larger parameter counts. Adapter-based methods match or outperform full fine-tuning while using far fewer parameters, and smaller mLMs prove more effective for LRLs than massive LLMs like LLaMA-3, GPT-4, and DeepSeek-R1-based distilled models. While adaptation improves performance, pre-training data size remains the dominant factor, especially for languages with extensive pre-training coverage.

arxiv情報

著者 Daniil Gurgurov,Ivan Vykopal,Josef van Genabith,Simon Ostermann
発行日 2025-02-14 13:10:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages はコメントを受け付けていません

A Unified Approach to Routing and Cascading for LLMs

要約

さまざまなエージェントシステムに組み込まれた幅広い大型言語モデル(LLM)の可用性は、コストパフォーマンスのトレードオフを改善するためのモデル選択戦略の可能性を大幅に増加させました。
既存の戦略には、クエリごとに単一のモデルが選択されているルーティングまたはカスケードが含まれます。これは、満足のいく回答が見つかるまでますます大きなモデルを順番に実行します。
ただし、現在のアプローチは3つの重要な制限に直面しています。(1)最適性の正式な証拠がない、(2)これらの戦略がコストパフォーマンスのトレードオフを改善するために最も効果的である条件を特定できず、(3)組み合わせることができない
さらなる改善のための両方のパラダイム。
これらの問題に対処するために、最初にカスケードのための新しい最適戦略を導き出し、既存のルーティング戦略の最適性を証明します。
さらに、ルーティングとカスケードを理論的に最適な戦略に統合する統合されたフレームワークであるカスケードルーティングを提案します。
分析を通じて、良質の推定器をモデル選択パラダイムの成功の重要な要因として特定します。
最後に、私たちの実験では、カスケードルーティングが個々のアプローチを大きなマージンで一貫して上回ることを示し、品質推定器を分析して、ルーティングおよび/またはカスケードがモデル選択に役立つパラダイムであることを判断します。

要約(オリジナル)

The availability of a wide range of large language models (LLMs) embedded in various agentic systems has significantly increased the potential of model selection strategies to improve the cost-performance tradeoff. Existing strategies involve either routing, where a single model is chosen per query, or cascading, which sequentially runs increasingly larger models until a satisfactory answer is found. However, current approaches face three key limitations: they (1) lack formal proofs of optimality, (2) fail to identify the conditions under which these strategies are most effective to improve the cost-performance tradeoff, and (3) are unable to combine both paradigms for further improvements. To address these issues, we first derive a novel optimal strategy for cascading and prove the optimality of an existing routing strategy. Further, we propose cascade routing, a unified framework that integrates routing and cascading into a theoretically optimal strategy. Through our analysis, we identify good quality estimators as the critical factor for the success of model selection paradigms. Finally, in our experiments, we show that cascade routing consistently outperforms the individual approaches by a large margin and we analyze quality estimators to determine when routing and/or cascading are useful paradigms for model selection.

arxiv情報

著者 Jasper Dekoninck,Maximilian Baader,Martin Vechev
発行日 2025-02-14 13:13:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Unified Approach to Routing and Cascading for LLMs はコメントを受け付けていません

Context-Aware or Context-Insensitive? Assessing LLMs’ Performance in Document-Level Translation

要約

大規模な言語モデル(LLM)は、機械翻訳においてますます強い候補です。
この作業では、文書レベルの翻訳に焦点を当てます。ここでは、文の外部からのコンテキストなしにいくつかの単語を翻訳できません。
具体的には、摂動分析(摂動および無作為化ドキュメントコンテキストに対するモデルの堅牢性を分析する)と帰属分析(翻訳への関連するコンテキストの寄与を調べる)を介して翻訳中にドキュメントコンテキストを利用する顕著なLLMの能力を調査します。
多様なモデルファミリから9つのLLMにわたって広範な評価を実施し、2つのエンコーダーデコーダートランスベースラインとともに、翻訳専用のLLMを含むトレーニングパラダイムを実施しています。
Encoder-Decoderモデルと比較して、LLMSのドキュメント翻訳性能の改善は、代名詞翻訳性能に反映されていないことがわかります。
私たちの分析は、文書レベルの翻訳の信頼性を向上させるために、コンテキストの関連部分に焦点を当てて、LLMのコンテキストを意識する微調整の必要性を強調しています。

要約(オリジナル)

Large language models (LLMs) are increasingly strong contenders in machine translation. In this work, we focus on document-level translation, where some words cannot be translated without context from outside the sentence. Specifically, we investigate the ability of prominent LLMs to utilize the document context during translation through a perturbation analysis (analyzing models’ robustness to perturbed and randomized document context) and an attribution analysis (examining the contribution of relevant context to the translation). We conduct an extensive evaluation across nine LLMs from diverse model families and training paradigms, including translation-specialized LLMs, alongside two encoder-decoder transformer baselines. We find that LLMs’ improved document-translation performance compared to encoder-decoder models is not reflected in pronoun translation performance. Our analysis highlight the need for context-aware finetuning of LLMs with a focus on relevant parts of the context to improve their reliability for document-level translation.

arxiv情報

著者 Wafaa Mohammed,Vlad Niculae
発行日 2025-02-14 13:15:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Context-Aware or Context-Insensitive? Assessing LLMs’ Performance in Document-Level Translation はコメントを受け付けていません

STATE ToxiCN: A Benchmark for Span-level Target-Aware Toxicity Extraction in Chinese Hate Speech Detection

要約

ヘイトスピーチの急増は、社会に大きな害をもたらしました。
憎しみの強度と方向性は、それが関連付けられているターゲットと議論に密接に結びついています。
ただし、中国語でのヘイトスピーチ検出に関する研究は遅れをとっており、既存のデータセットにはスパンレベルのファイングレインアノテーションがありません。
さらに、中国の憎悪の俗語に関する研究の欠如は、重要な課題をもたらします。
この論文では、中国のヘイトスピーチを細かく検出するためのソリューションを提供します。
まず、最初のスパンレベルの中国のヘイトスピーチデータセットであるターゲットアングメント – 嫌いなグループQuadruples(状態毒性)を含むデータセットを構築します。
第二に、状態毒性を使用して既存モデルのスパンレベルのヘイトスピーチ検出パフォーマンスを評価します。
最後に、中国の憎悪の俗語に関する最初の研究を実施し、LLMSがそのような表現を検出する能力を評価します。
私たちの仕事は、中国語でのスパンレベルのヘイトスピーチ検出を促進するための貴重なリソースと洞察を提供しています。

要約(オリジナル)

The proliferation of hate speech has caused significant harm to society. The intensity and directionality of hate are closely tied to the target and argument it is associated with. However, research on hate speech detection in Chinese has lagged behind, and existing datasets lack span-level fine-grained annotations. Furthermore, the lack of research on Chinese hateful slang poses a significant challenge. In this paper, we provide a solution for fine-grained detection of Chinese hate speech. First, we construct a dataset containing Target-Argument-Hateful-Group quadruples (STATE ToxiCN), which is the first span-level Chinese hate speech dataset. Secondly, we evaluate the span-level hate speech detection performance of existing models using STATE ToxiCN. Finally, we conduct the first study on Chinese hateful slang and evaluate the ability of LLMs to detect such expressions. Our work contributes valuable resources and insights to advance span-level hate speech detection in Chinese.

arxiv情報

著者 Zewen Bai,Yuanyuan Sun,Shengdi Yin,Junyu Lu,Jingjie Zeng,Haohao Zhu,Liang Yang,Hongfei Lin
発行日 2025-02-14 14:03:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | STATE ToxiCN: A Benchmark for Span-level Target-Aware Toxicity Extraction in Chinese Hate Speech Detection はコメントを受け付けていません

Self-Refinement Strategies for LLM-based Product Attribute Value Extraction

要約

属性値のペアの形式での構造化された製品データは、eコマースプラットフォームにとって、ファセット製品検索や属性ベースの製品比較などの機能をサポートするために不可欠です。
ただし、ベンダーはしばしば構造化されていない製品の説明を提供し、データの一貫性と使いやすさを確保するために属性値抽出を必要とします。
大規模な言語モデル(LLMS)は、少ないショットシナリオで製品属性値抽出の可能性を実証しています。
最近の研究では、自己修正技術がコード生成やテキスト間翻訳などのタスクでのLLMSのパフォーマンスを改善できることが示されています。
他のタスクの場合、これらの手法を適用すると、パフォーマンスの改善を達成することなく、追加のトークンの処理によりコストが増加しました。
このペーパーでは、製品属性値抽出タスクに2つの自己修復手法(エラーベースのプロンプトの書き換えと自己修正)を適用することを調査します。
自己修正技術は、GPT-4Oを使用して、ゼロショット、少数のショット内コンテキスト学習、および微調整シナリオで評価されます。
実験は、両方の自己修復技術が抽出パフォーマンスを大幅に改善できない一方で、処理コストを大幅に増加させることを示しています。
開発データを備えたシナリオの場合、微調整はパフォーマンスが最も高くなりますが、製品の説明の量が増えるにつれて、微調整のランプアップコストはバランスが取れています。

要約(オリジナル)

Structured product data, in the form of attribute-value pairs, is essential for e-commerce platforms to support features such as faceted product search and attribute-based product comparison. However, vendors often provide unstructured product descriptions, making attribute value extraction necessary to ensure data consistency and usability. Large language models (LLMs) have demonstrated their potential for product attribute value extraction in few-shot scenarios. Recent research has shown that self-refinement techniques can improve the performance of LLMs on tasks such as code generation and text-to-SQL translation. For other tasks, the application of these techniques has resulted in increased costs due to processing additional tokens, without achieving any improvement in performance. This paper investigates applying two self-refinement techniques (error-based prompt rewriting and self-correction) to the product attribute value extraction task. The self-refinement techniques are evaluated across zero-shot, few-shot in-context learning, and fine-tuning scenarios using GPT-4o. The experiments show that both self-refinement techniques fail to significantly improve the extraction performance while substantially increasing processing costs. For scenarios with development data, fine-tuning yields the highest performance, while the ramp-up costs of fine-tuning are balanced out as the amount of product descriptions increases.

arxiv情報

著者 Alexander Brinkmann,Christian Bizer
発行日 2025-02-14 14:47:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Self-Refinement Strategies for LLM-based Product Attribute Value Extraction はコメントを受け付けていません

Can Post-Training Quantization Benefit from an Additional QLoRA Integration?

要約

大規模な言語モデル(LLM)は自然言語処理を変革しましたが、実際の展開に大きな課題をもたらします。
これらのモデルには、かなりのコンピューティングリソースが必要であり、費用がかかり、頻繁に利用できない場合があります。
量子化などのモデル圧縮技術は、多くの場合、リソースの需要を軽減するために活用されますが、生成品質にマイナスの影響を与える可能性があります。
この研究では、これらの問題に対処するために、4ビットトレーニング後の量子化(PTQ)とQloraとの統合を調査します。
広範な実験を通じて、この統合は標準のPTQよりも優れていることを実証し、場合によってはLLMSでの16ビットのフルパラメーター微調整でさえ、異なる量子化アルゴリズムを使用して独自およびパブリックデータセット間で検証されています。
結果は、PTQ-Qlora統合の有効性を示しており、パフォーマンスを損なうことなく、リソース制約の環境で強力なLLMを展開するための実行可能なソリューションを提供します。

要約(オリジナル)

Large language models (LLMs) have transformed natural language processing but pose significant challenges for real-world deployment. These models necessitate considerable computing resources, which can be costly and frequently unavailable. Model compression techniques such as quantization are often leveraged to alleviate resource demand, but they may have a negative impact on the generation quality. In this study, we explore the integration of 4-bit Post-training Quantization (PTQ) with QLoRA to address these issues. We demonstrate through extensive experiments that this integration outperforms standard PTQ, and in some cases even 16-bit full-parameter fine-tuning on LLMs, validated across proprietary and public datasets with different quantization algorithms. The results demonstrate the efficacy of PTQ-QLoRA integration, offering a viable solution for deploying powerful LLMs in resource-constrained environments without compromising on performance.

arxiv情報

著者 Xiliang Zhu,Elena Khasanova,Cheng Chen
発行日 2025-02-14 14:56:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can Post-Training Quantization Benefit from an Additional QLoRA Integration? はコメントを受け付けていません