A distributional simplicity bias in the learning dynamics of transformers

要約

効果的に一般化するための過剰パラメーター化されたニューラルネットワークの顕著な能力は、「シンプルさのバイアス」を呼び出すことによって説明されています。
シンプルさのバイアスは、監視された学習のためのフィードフォワードネットワークで理論的および実験的に説明されていますが、自己監視技術で訓練されたトランスの顕著な成功も説明している程度も不明のままです。
私たちの研究では、自然言語データの訓練を受けたトランスフォーマーもシンプルさのバイアスを示すことを示しています。
具体的には、入力トークン間の多体相互作用を順次学習し、高級相互作用の学習を続けながら、低級相互作用の予測エラーの飽和点に達します。
この分析を実施するために、指定された順序までのトークン間の相互作用を厳密にキャプチャする、特定の自然言語データセットの\ textit {clones}を生成する手順を開発します。
このアプローチは、データにおけるさまざまな順序の相互作用が学習、自然言語処理、それ以降にどのように影響するかを研究する可能性を開きます。

要約(オリジナル)

The remarkable capability of over-parameterised neural networks to generalise effectively has been explained by invoking a “simplicity bias”: neural networks prevent overfitting by initially learning simple classifiers before progressing to more complex, non-linear functions. While simplicity biases have been described theoretically and experimentally in feed-forward networks for supervised learning, the extent to which they also explain the remarkable success of transformers trained with self-supervised techniques remains unclear. In our study, we demonstrate that transformers, trained on natural language data, also display a simplicity bias. Specifically, they sequentially learn many-body interactions among input tokens, reaching a saturation point in the prediction error for low-degree interactions while continuing to learn high-degree interactions. To conduct this analysis, we develop a procedure to generate \textit{clones} of a given natural language data set, which rigorously capture the interactions between tokens up to a specified order. This approach opens up the possibilities of studying how interactions of different orders in the data affect learning, in natural language processing and beyond.

arxiv情報

著者 Riccardo Rende,Federica Gerace,Alessandro Laio,Sebastian Goldt
発行日 2025-02-14 15:20:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A distributional simplicity bias in the learning dynamics of transformers はコメントを受け付けていません

Graph-based Retrieval Augmented Generation for Dynamic Few-shot Text Classification

要約

テキスト分類は、データマイニングの基本的なタスクであり、表形式の理解や推奨など、さまざまなアプリケーションに極めて重要です。
CNNやBertなどのニューラルネットワークベースのモデルは、テキスト分類の顕著なパフォーマンスを実証していますが、その有効性は豊富なラベルのあるトレーニングデータに大きく依存しています。
この依存関係により、これらのモデルは、ラベル付きデータが不足している動的な少数のテキスト分類では効果が低くなり、アプリケーションのニーズに基づいて新しいターゲットラベルが頻繁に表示されます。
最近、大規模な言語モデル(LLM)は、広範な前採用と文脈的理解能力のために有望を示しています。
現在のアプローチは、テキストを分類するためのテキスト入力、候補ラベル、および追加の副情報(例:説明)をLLMSに提供します。
ただし、それらの有効性は、入力サイズの増加と側面情報処理を通じて導入されるノイズによって妨げられます。
これらの制限に対処するために、ダイナミックな少数のテキスト分類のために、グラフベースのオンライン検索された選択フレームワーク、つまりGoragを提案します。
各入力を独立して処理するのではなく、Goragはすべてのターゲットテキストでサイド情報を抽出することにより、加重グラフを構築および維持します。
このグラフでは、テキストキーワードとラベルはノードとして表され、エッジはそれらの間の相関を示しています。
これらの相関をモデル化するために、GORAGは抽出された情報の重要性と信頼性を優先するためにエッジの重み付けメカニズムを採用し、各テキスト入力に合わせた最小コストのスパニングツリーを使用して関連するコンテキストを動的に取得します。
経験的評価は、Goragがより包括的で正確なコンテキスト情報を提供することにより、既存のアプローチを上回ることを示しています。

要約(オリジナル)

Text classification is a fundamental task in data mining, pivotal to various applications such as tabular understanding and recommendation. Although neural network-based models, such as CNN and BERT, have demonstrated remarkable performance in text classification, their effectiveness heavily relies on abundant labeled training data. This dependency makes these models less effective in dynamic few-shot text classification, where labeled data is scarce, and new target labels frequently appear based on application needs. Recently, large language models (LLMs) have shown promise due to their extensive pretraining and contextual understanding ability. Current approaches provide LLMs with text inputs, candidate labels, and additional side information (e.g., descriptions) to classify texts. However, their effectiveness is hindered by the increased input size and the noise introduced through side information processing. To address these limitations, we propose a graph-based online retrieval-augmented generation framework, namely GORAG, for dynamic few-shot text classification. Rather than treating each input independently, GORAG constructs and maintains a weighted graph by extracting side information across all target texts. In this graph, text keywords and labels are represented as nodes, with edges indicating the correlations between them. To model these correlations, GORAG employs an edge weighting mechanism to prioritize the importance and reliability of extracted information and dynamically retrieves relevant context using a minimum-cost spanning tree tailored for each text input. Empirical evaluations demonstrate that GORAG outperforms existing approaches by providing more comprehensive and precise contextual information.

arxiv情報

著者 Yubo Wang,Haoyang Li,Fei Teng,Lei Chen
発行日 2025-02-14 15:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | Graph-based Retrieval Augmented Generation for Dynamic Few-shot Text Classification はコメントを受け付けていません

Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive Investigation

要約

最近の生成大規模な言語モデル(LLMS)は、英語以外の言語で顕著なパフォーマンスを示していますが、それらの言語で促されると、より高い有害な社会的偏見と毒性レベルを表現する傾向があります。
以前の作業では、特殊なデータセットでの微調整がこの動作を軽減できることを示しており、英語でそうすることで他の言語に転送できることが示されています。
この作業では、モデルのバイアスと毒性に対するさまざまな微調整方法の影響を調査しますが、流fluentで多様なテキストを生成する能力についても調査します。
キュレーションされた非薬物テキストで微調整することによりバイアスを減らしますが、毒性の緩和に効果的であるため、直接的な優先順位の最適化のみが見つかります。
これらの方法を英語で適用することによって引き起こされる緩和も、英語以外の言語に転送されます。
転送が行われる程度は、モデルの前削減データに存在する特定の言語のデータの量によって予測できるという証拠を見つけます。
ただし、このバイアスと毒性緩和の移転は、英語以外の言語で言語生成能力の低下を犠牲にして、言語固有のバイアスと毒性緩和方法の開発の重要性を強調することがよくあります。

要約(オリジナル)

Recent generative large language models (LLMs) show remarkable performance in non-English languages, but when prompted in those languages they tend to express higher harmful social biases and toxicity levels. Prior work has shown that finetuning on specialized datasets can mitigate this behavior, and doing so in English can transfer to other languages. In this work, we investigate the impact of different finetuning methods on the model’s bias and toxicity, but also on its ability to produce fluent and diverse text. We reduce biases by finetuning on curated non-harmful text, but find only direct preference optimization to be effective for mitigating toxicity. The mitigation caused by applying these methods in English also transfers to non-English languages. We find evidence that the extent to which transfer takes place can be predicted by the amount of data in a given language present in the model’s pretraining data. However, this transfer of bias and toxicity mitigation often comes at the expense of decreased language generation ability in non-English languages, highlighting the importance of developing language-specific bias and toxicity mitigation methods.

arxiv情報

著者 Vera Neplenbroek,Arianna Bisazza,Raquel Fernández
発行日 2025-02-14 15:39:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive Investigation はコメントを受け付けていません

A Critical Look At Tokenwise Reward-Guided Text Generation

要約

大規模な言語モデル(LLMS)は、人間のフィードバック(RLHF)からのいわゆる強化学習を通じて、人間の好みに合わせて調整することで改善できます。
ただし、LLMを微調整するコストは、多くのユーザーにとって法外なものです。
LLMの微調整をバイパスする能力により、最近提案されている予測時間トケンワイズ報酬ガイド付きテキスト生成(RGTG)メソッドが提案されています。
彼らは、完全なシーケンスでトレーニングされた報酬モデルを使用して、デコード中に部分的なシーケンスを獲得し、高い報酬を持つシーケンスに向かって発電を導くために除去します。
ただし、これらの方法はこれまでのところ、ヒューリスティックな動機付けであり、分析が不十分でした。
この作業では、完全なシーケンスでトレーニングされた報酬モデルが、スコアリングの部分シーケンスと互換性がないことを示します。
この問題を軽減するために、部分的なシーケンスで明示的にブラッドリー・テリー報酬モデルを訓練し、デコード時に暗黙のトークンワイズポリシーから自動網目上サンプルすることを提案します。
この報酬モデルのプロパティと結果のポリシーを研究します。このポリシーは、2つの異なるRLHFポリシーの比率に比例していることを示します。
私たちのシンプルなアプローチは、以前のRGTGメソッドを上回り、大規模なLLM Finetuningなしで強力なオフラインベースラインと同様に実行します。

要約(オリジナル)

Large language models (LLMs) can be improved by aligning with human preferences through fine-tuning — the so-called reinforcement learning from human feedback (RLHF). However, the cost of fine-tuning an LLM is prohibitive for many users. Due to their ability to bypass LLM fine-tuning, prediction-time tokenwise reward-guided text generation (RGTG) methods have recently been proposed. They use a reward model trained on full sequences to score partial sequences during decoding in a bid to steer the generation towards sequences with high rewards. However, these methods have so far been only heuristically motivated and poorly analyzed. In this work, we show that reward models trained on full sequences are not compatible with scoring partial sequences. To alleviate this issue, we propose to train a Bradley-Terry reward model on partial sequences explicitly, and autoregressively sample from the implied tokenwise policy during decoding time. We study the properties of this reward model and the resulting policy: we show that this policy is proportional to the ratio of two distinct RLHF policies. Our simple approach outperforms previous RGTG methods and performs similarly to strong offline baselines without large-scale LLM finetuning.

arxiv情報

著者 Ahmad Rashid,Ruotian Wu,Julia Grosse,Agustinus Kristiadi,Pascal Poupart
発行日 2025-02-14 15:46:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | A Critical Look At Tokenwise Reward-Guided Text Generation はコメントを受け付けていません

DeltaProduct: Increasing the Expressivity of DeltaNet Through Products of Householders

要約

線形再発性ニューラルネットワーク(線形RNN)は、シーケンスモデリングのためのトランスの競争力のある代替品として浮上しており、効率的なトレーニングと線形時間推論を提供しています。
ただし、既存のアーキテクチャは、表現力と効率性の基本的なトレードオフに直面しており、国家移動マトリックスの構造によって決定されます。
Mamba、GLA、またはMLSTMなどのアーキテクチャで使用される斜めのマトリックスは、ランタイムが速い速いことを生み出しますが、表現率は厳しくありません。
これに対処するために、(ゲート)デルタネットやRWKVV7などの最近のアーキテクチャは、対角線プラスランク1構造を採用し、同時のトークンチャネル混合を可能にし、トレーニング効率がわずかに低下するだけで表現率の制限を克服します。
デルタネットの再発の解釈に基づいて、連想リコール損失でトークンごとにオンライン勾配降下の1つのステップを実行すると、デルタプロダクトを導入します。
これは、自然に対角線プラスランク$ $ n_h $の状態移動マトリックスにつながり、$ n_h $一般化された世帯主の変換の積として形成され、表現性と効率と安定した再発のバランスをとる調整可能なメカニズムを提供します。
広範な実験を通じて、デルタプロダクトが優れた状態追跡および言語モデリング機能を達成しながら、デルタネットと比較して長さの外挿を大幅に改善することを実証します。
さらに、Deltanetの表現力の理論的基盤を強化し、2層での二面体グループの問題を解決できることを証明します。

要約(オリジナル)

Linear Recurrent Neural Networks (linear RNNs) have emerged as competitive alternatives to Transformers for sequence modeling, offering efficient training and linear-time inference. However, existing architectures face a fundamental trade-off between expressivity and efficiency, dictated by the structure of their state-transition matrices. While diagonal matrices used in architectures like Mamba, GLA, or mLSTM yield fast runtime, they suffer from severely limited expressivity. To address this, recent architectures such as (Gated) DeltaNet and RWKVv7 adopted a diagonal plus rank-1 structure, allowing simultaneous token-channel mixing, which overcomes some expressivity limitations with only a slight decrease in training efficiency. Building on the interpretation of DeltaNet’s recurrence as performing one step of online gradient descent per token on an associative recall loss, we introduce DeltaProduct, which instead takes multiple ($n_h$) steps per token. This naturally leads to diagonal plus rank-$n_h$ state-transition matrices, formed as products of $n_h$ generalized Householder transformations, providing a tunable mechanism to balance expressivity and efficiency and a stable recurrence. Through extensive experiments, we demonstrate that DeltaProduct achieves superior state-tracking and language modeling capabilities while exhibiting significantly improved length extrapolation compared to DeltaNet. Additionally, we also strengthen the theoretical foundation of DeltaNet’s expressivity by proving that it can solve dihedral group word problems in just two layers.

arxiv情報

著者 Julien Siems,Timur Carstensen,Arber Zela,Frank Hutter,Massimiliano Pontil,Riccardo Grazzi
発行日 2025-02-14 16:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG | DeltaProduct: Increasing the Expressivity of DeltaNet Through Products of Householders はコメントを受け付けていません

Organize the Web: Constructing Domains Enhances Pre-Training Data Curation

要約

現代の言語モデルは、数兆個のトークンで構成される大規模で構造化されていないデータセットでトレーニングされ、Webをrawうによって取得します。
構造化されていない性質により、コンテンツについて推論し、データキュレーションに対する体系的なアプローチを開発することが困難になります。
このホワイトペーパーでは、内容の分類を開発し、ドメインに整理することにより、モノリシックウェブコーパスを開梱します。
Weborganizerを紹介します。Weborganizerは、トピックと形式の両方の観点からWebページを整理するためのフレームワークです。
ドメインのこれら2つの補完的な概念を使用して、大規模な言語モデルからの注釈を効率的な分類器に蒸留することにより、トレーニング前のデータに自動的に注釈を付けます。
これにより、さまざまなドメインからのデータを混合してダウンストリームタスクのモデルを改善する方法を調べることができ、効果的なトピックと形式に関する洞察を組み合わせてパフォーマンスをさらに高めることができることを示します。
ドメインの混合が品質に基づいてデータを選択する既存の方法も改善することを実証します。
さらに、品質ベースの方法がドメイン混合物を暗黙的に変化させる方法を研究および比較します。
全体として、私たちの研究は、ドメインの構築とミキシングが品質ベースのデータキュレーション方法に貴重な補完を提供し、効果的で洞察に富んだプリトレーニング前のデータキュレーションのための新しい道を開くことを示しています。

要約(オリジナル)

Modern language models are trained on large, unstructured datasets consisting of trillions of tokens and obtained by crawling the web. The unstructured nature makes it difficult to reason about their contents and develop systematic approaches to data curation. In this paper, we unpack monolithic web corpora by developing taxonomies of their contents and organizing them into domains. We introduce WebOrganizer, a framework for organizing web pages in terms of both their topic and format. Using these two complementary notions of domains, we automatically annotate pre-training data by distilling annotations from a large language model into efficient classifiers. This allows us to study how data from different domains should be mixed to improve models on downstream tasks, and we show that we can combine insights about effective topics and formats to further boost performance. We demonstrate that our domain mixing also improves existing methods that select data based on quality. Furthermore, we study and compare how quality-based methods will implicitly change the domain mixture. Overall, our work demonstrates that constructing and mixing domains provides a valuable complement to quality-based data curation methods, opening new avenues for effective and insightful pre-training data curation.

arxiv情報

著者 Alexander Wettig,Kyle Lo,Sewon Min,Hannaneh Hajishirzi,Danqi Chen,Luca Soldaini
発行日 2025-02-14 18:02:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Organize the Web: Constructing Domains Enhances Pre-Training Data Curation はコメントを受け付けていません

Agentic Verification for Ambiguous Query Disambiguation

要約

この作業では、検索された世代(RAG)におけるクエリを曖昧にしているという課題に、多様でありながら答えのある解釈に取り組んでいます。
最先端は、Diversify-Then-Verify(DTV)パイプラインに続きます。ここでは、LLMによって多様な解釈が生成され、後にサポートパッセージを取得するための検索クエリとして使用されます。
このようなプロセスは、特に静的データで訓練されたLLMがドメイン固有の乱数に苦しむ可能性があるエンタープライズ設定で、解釈または検索のいずれかでノイズを導入する場合があります。
したがって、プルーンノイズのために事後検証フェーズが導入されます。
私たちの区別は、レトリバーとジェネレーターからのフィードバックを早期に組み込むことにより、検証で多様化を統合することです。
この共同アプローチは、複数の検索と推論ステップへの依存を減らすことにより、効率と堅牢性の両方を改善します。これは、カスケードエラーの影響を受けやすくなります。
私たちは、多様でありながら検証可能な解釈を実現するために、広く採用されているASQAベンチマークで、統合による検証済みの統合(評決)の効率と有効性を検証します。
経験的結果は、異なるバックボーンLLMの最も強力なベースラインよりも、判定が接地認識F1スコアを平均23%改善することを示しています。

要約(オリジナル)

In this work, we tackle the challenge of disambiguating queries in retrieval-augmented generation (RAG) to diverse yet answerable interpretations. State-of-the-arts follow a Diversify-then-Verify (DtV) pipeline, where diverse interpretations are generated by an LLM, later used as search queries to retrieve supporting passages. Such a process may introduce noise in either interpretations or retrieval, particularly in enterprise settings, where LLMs — trained on static data — may struggle with domain-specific disambiguations. Thus, a post-hoc verification phase is introduced to prune noises. Our distinction is to unify diversification with verification by incorporating feedback from retriever and generator early on. This joint approach improves both efficiency and robustness by reducing reliance on multiple retrieval and inference steps, which are susceptible to cascading errors. We validate the efficiency and effectiveness of our method, Verified-Diversification with Consolidation (VERDICT), on the widely adopted ASQA benchmark to achieve diverse yet verifiable interpretations. Empirical results show that VERDICT improves grounding-aware F1 score by an average of 23% over the strongest baseline across different backbone LLMs.

arxiv情報

著者 Youngwon Lee,Seung-won Hwang,Ruofan Wu,Feng Yan,Danmei Xu,Moutasem Akkad,Zhewei Yao,Yuxiong He
発行日 2025-02-14 18:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Agentic Verification for Ambiguous Query Disambiguation はコメントを受け付けていません

Enhancing Multilingual LLM Pretraining with Model-Based Data Selection

要約

データセットのキュレーションは、強力な大規模な言語モデル(LLM)パフォーマンスの基礎となっています。
英語と多言語のデータセットには、さまざまなルールベースのフィルタリングヒューリスティックが存在しますが、モデルベースのフィルタリング手法は主に英語に焦点を当てています。
英語以外の言語に関する限られた研究に由来する格差に対処するために、多様なデータセットのモデルベースのフィルタリングフレームワークを提案します。
私たちのアプローチは、透明性、シンプルさ、効率性を強調し、トランスとファストテキストベースの分類子を活用して、技術とデータの幅広いアクセシビリティを確保しています。
私たちは、さまざまな言語ファミリ、スクリプト、リソースの可用性を介してFineWeb-2 Webクロールデータセットに関する包括的なアブレーション研究を実施して、メソッドの有効性を実証しています。
70Bおよび119Bトークンの1Bパラメーターラマモデルをトレーニングすると、私たちのアプローチはベースラインMMLUスコアとトレーニングトークンのわずか15%と一致させ、他のベンチマーク全体で改善します。
これらの調査結果は、他の言語へのアプローチの一般化性に関する強力な証拠を提供します。
その結果、フレームワークを20の言語に拡張し、そのために洗練された事前トレーニングデータセットをリリースします。

要約(オリジナル)

Dataset curation has become a basis for strong large language model (LLM) performance. While various rule-based filtering heuristics exist for English and multilingual datasets, model-based filtering techniques have primarily focused on English. To address the disparity stemming from limited research on non-English languages, we propose a model-based filtering framework for multilingual datasets that aims to identify a diverse set of structured and knowledge-rich samples. Our approach emphasizes transparency, simplicity, and efficiency, leveraging Transformer- and FastText-based classifiers to ensure the broad accessibility of our technique and data. We conduct comprehensive ablation studies on the FineWeb-2 web crawl dataset across diverse language families, scripts, and resource availability to demonstrate the effectiveness of our method. Training a 1B-parameter Llama model for 70B and 119B tokens, our approach can match the baseline MMLU score with as little as 15% of the training tokens, while also improving across other benchmarks. These findings provide strong evidence for the generalizability of our approach to other languages. As a result, we extend our framework to 20 languages for which we release the refined pretraining datasets.

arxiv情報

著者 Bettina Messmer,Vinko Sabolčec,Martin Jaggi
発行日 2025-02-14 18:42:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Enhancing Multilingual LLM Pretraining with Model-Based Data Selection はコメントを受け付けていません

Unknown Word Detection for English as a Second Language (ESL) Learners Using Gaze and Pre-trained Language Models

要約

第二言語(ESL)としての英語学習者は、テキストの理解を妨げる不明な単語に遭遇することがよくあります。
ユーザーが読み取られたときにこれらの単語を自動的に検出すると、コンピューティングシステムがジャストインタイムの定義、同義語、またはコンテキスト説明を提供できるようにし、ユーザーが自然でシームレスな方法で語彙を学ぶのに役立ちます。
このペーパーでは、テキストの内容と眼の視線の軌跡に基づいて不明な単語の確率をリアルタイムで高精度で予測する、変圧器ベースの機械学習方法であるEyelingoを紹介します。
20人の参加者のユーザー調査により、私たちの方法は97.6%の精度と71.1%のF1スコアを達成できることが明らかになりました。
アイリンゴの有効性を示すために、リアルタイムリーディングアシスタンスプロトタイプを実装しました。
ユーザー調査では、ベースラインの方法と比較して、使用意欲と有用性の改善が示されています。

要約(オリジナル)

English as a Second Language (ESL) learners often encounter unknown words that hinder their text comprehension. Automatically detecting these words as users read can enable computing systems to provide just-in-time definitions, synonyms, or contextual explanations, thereby helping users learn vocabulary in a natural and seamless manner. This paper presents EyeLingo, a transformer-based machine learning method that predicts the probability of unknown words based on text content and eye gaze trajectory in real time with high accuracy. A 20-participant user study revealed that our method can achieve an accuracy of 97.6%, and an F1-score of 71.1%. We implemented a real-time reading assistance prototype to show the effectiveness of EyeLingo. The user study shows improvement in willingness to use and usefulness compared to baseline methods.

arxiv情報

著者 Jiexin Ding,Bowen Zhao,Yuntao Wang,Xinyun Liu,Rui Hao,Ishan Chatterjee,Yuanchun Shi
発行日 2025-02-14 18:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Unknown Word Detection for English as a Second Language (ESL) Learners Using Gaze and Pre-trained Language Models はコメントを受け付けていません

Aspect-Oriented Summarization for Psychiatric Short-Term Readmission Prediction

要約

大規模な言語モデル(LLMS)の最近の進捗状況により、タスク固有のデータセットに関する監視されたトレーニングがなくても、長いドキュメントの自動処理が可能になりました。
しかし、簡単な情報抽出タスクとは対照的に、複雑なタスクでのゼロショットパフォーマンスは次のままです。
長く複雑な入力を備えたタスクの1つの実行可能なアプローチは、最初にドキュメントを要約し、次に概要に監視された微調整を適用することです。
ただし、要約プロセスは必然的に情報の損失をもたらします。
この研究では、元のドキュメントのさまざまな重要な側面をキャプチャすることを目的とした長いドキュメントの要約を処理する方法を提示します。
異なるアスペクト指向のプロンプトで生成されたLLM要約には、異なる\ textit {情報信号}が含まれていると仮定し、これらの違いを測定する方法を提案します。
トランスモデルの監視されたトレーニングのために、これらの異なる要約からシグナルを効果的に統合するアプローチを紹介します。
4つの病院からの実際のデータを使用して、精神医学的退院からの30日間の再入院予測 – インパクトの高いタスクに関する仮説を検証し、提案された方法が患者の転帰を予測する複雑なタスクの予測パフォーマンスを高めることを示します

要約(オリジナル)

Recent progress in large language models (LLMs) has enabled the automated processing of lengthy documents even without supervised training on a task-specific dataset. Yet, their zero-shot performance in complex tasks as opposed to straightforward information extraction tasks remains suboptimal. One feasible approach for tasks with lengthy, complex input is to first summarize the document and then apply supervised fine-tuning to the summary. However, the summarization process inevitably results in some loss of information. In this study we present a method for processing the summaries of long documents aimed to capture different important aspects of the original document. We hypothesize that LLM summaries generated with different aspect-oriented prompts contain different \textit{information signals}, and we propose methods to measure these differences. We introduce approaches to effectively integrate signals from these different summaries for supervised training of transformer models. We validate our hypotheses on a high-impact task — 30-day readmission prediction from a psychiatric discharge — using real-world data from four hospitals, and show that our proposed method increases the prediction performance for the complex task of predicting patient outcome.

arxiv情報

著者 WonJin Yoon,Boyu Ren,Spencer Thomas,Chanwhi Kim,Guergana Savova,Mei-Hua Hall,Timothy Miller
発行日 2025-02-14 18:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Aspect-Oriented Summarization for Psychiatric Short-Term Readmission Prediction はコメントを受け付けていません