Analyzing Neural Scaling Laws in Two-Layer Networks with Power-Law Data Spectra

要約

ニューラル スケーリング則は、ディープ ニューラル ネットワークのパフォーマンスがトレーニング データ サイズ、モデルの複雑さ、トレーニング時間などの重要な要素に応じてどのようにスケールされるかを記述し、多くの場合、数桁にわたるべき乗則の動作に従います。
経験的な観察にもかかわらず、これらのスケーリング則の理論的理解は依然として限られています。
この研究では、統計力学の手法を使用して、学生と教師の両方が 2 層ニューラル ネットワークである学生と教師のフレームワーク内でワンパスの確率的勾配降下法を分析します。
私たちの研究は主に、汎化誤差と、べき乗則スペクトルを示すデータ共分散行列に応じたその動作に焦点を当てています。
線形活性化関数の場合、さまざまな学習レジームを調査し、べき乗則スケーリングが現れる条件を特定して、汎化誤差の分析式を導き出します。
さらに、特徴学習領域の非線形活性化関数まで分析を拡張し、データ共分散行列のべき乗則スペクトルが学習ダイナミクスにどのような影響を与えるかを調査します。
重要なのは、対称プラトーの長さがデータ共分散行列の個別の固有値の数と隠れ単位の数に依存することがわかり、さまざまな構成の下でこれらのプラトーがどのように動作するかを示しています。
さらに、我々の結果は、データ共分散行列がべき乗則スペクトルを持つ場合の特殊化フェーズにおける指数関数的収束からべき乗則収束への移行を明らかにしています。
この研究は、ニューラル スケーリングの法則の理論的理解に貢献し、複雑なデータ構造を含む実際のシナリオで学習パフォーマンスを最適化するための洞察を提供します。

要約(オリジナル)

Neural scaling laws describe how the performance of deep neural networks scales with key factors such as training data size, model complexity, and training time, often following power-law behaviors over multiple orders of magnitude. Despite their empirical observation, the theoretical understanding of these scaling laws remains limited. In this work, we employ techniques from statistical mechanics to analyze one-pass stochastic gradient descent within a student-teacher framework, where both the student and teacher are two-layer neural networks. Our study primarily focuses on the generalization error and its behavior in response to data covariance matrices that exhibit power-law spectra. For linear activation functions, we derive analytical expressions for the generalization error, exploring different learning regimes and identifying conditions under which power-law scaling emerges. Additionally, we extend our analysis to non-linear activation functions in the feature learning regime, investigating how power-law spectra in the data covariance matrix impact learning dynamics. Importantly, we find that the length of the symmetric plateau depends on the number of distinct eigenvalues of the data covariance matrix and the number of hidden units, demonstrating how these plateaus behave under various configurations. In addition, our results reveal a transition from exponential to power-law convergence in the specialized phase when the data covariance matrix possesses a power-law spectrum. This work contributes to the theoretical understanding of neural scaling laws and provides insights into optimizing learning performance in practical scenarios involving complex data structures.

arxiv情報

著者 Roman Worschech,Bernd Rosenow
発行日 2024-10-11 17:21:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Analyzing Neural Scaling Laws in Two-Layer Networks with Power-Law Data Spectra はコメントを受け付けていません

Variance reduction combining pre-experiment and in-experiment data

要約

オンライン制御実験 (A/B テスト) は、多くの企業にとってデータ主導の意思決定に不可欠です。
これらの実験の感度を高めるには、特にサンプル サイズが固定されている場合、平均治療効果 (ATE) の推定量の分散を減らすことが重要です。
CUPED や CUPAC などの既存の手法は、分散を減らすために実験前データを使用しますが、その有効性は実験前データと結果の相関関係に依存します。
対照的に、実験中のデータは結果とより強い相関があることが多く、したがってより有益です。
この論文では、実験前と実験中のデータの両方を組み合わせて、バイアスや追加の計算の複雑さを導入することなく、CUPED や CUPAC よりも大きな分散削減を達成する新しい方法を紹介します。
また、漸近理論を確立し、手法に一貫した分散推定量を提供します。
この方法を Etsy での複数のオンライン実験に適用すると、実験中の共変量をわずかに含めるだけで、CUPAC よりも大幅な分散の減少に達しました。
これらの結果は、実験の感度を大幅に向上させ、意思決定を迅速化するための私たちのアプローチの可能性を強調しています。

要約(オリジナル)

Online controlled experiments (A/B testing) are essential in data-driven decision-making for many companies. Increasing the sensitivity of these experiments, particularly with a fixed sample size, relies on reducing the variance of the estimator for the average treatment effect (ATE). Existing methods like CUPED and CUPAC use pre-experiment data to reduce variance, but their effectiveness depends on the correlation between the pre-experiment data and the outcome. In contrast, in-experiment data is often more strongly correlated with the outcome and thus more informative. In this paper, we introduce a novel method that combines both pre-experiment and in-experiment data to achieve greater variance reduction than CUPED and CUPAC, without introducing bias or additional computation complexity. We also establish asymptotic theory and provide consistent variance estimators for our method. Applying this method to multiple online experiments at Etsy, we reach substantial variance reduction over CUPAC with the inclusion of only a few in-experiment covariates. These results highlight the potential of our approach to significantly improve experiment sensitivity and accelerate decision-making.

arxiv情報

著者 Zhexiao Lin,Pablo Crespo
発行日 2024-10-11 17:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, stat.AP, stat.ME | Variance reduction combining pre-experiment and in-experiment data はコメントを受け付けていません

Linear Convergence of Diffusion Models Under the Manifold Hypothesis

要約

スコアマッチング生成モデルは、複雑な高次元データ分布からのサンプリングに成功していることが証明されています。
多くの応用では、この分布は $D$ 次元空間に埋め込まれたはるかに低い $d$ 次元多様体に集中していると考えられています。
これは多様体仮説として知られています。
現在最もよく知られている収束保証は、$D$ の線形または $d$ の多項式 (超線形) です。
後者は、後方 SDE の新しい統合スキームを利用します。
我々は両方の長所を生かし、拡散モデルがカルバック・ライブラー~(KL)発散に収束するために必要なステップ数が固有次元 $d$ において線形(対数項まで)であることを示します。
さらに、この線形依存性が鋭いことを示します。

要約(オリジナル)

Score-matching generative models have proven successful at sampling from complex high-dimensional data distributions. In many applications, this distribution is believed to concentrate on a much lower $d$-dimensional manifold embedded into $D$-dimensional space; this is known as the manifold hypothesis. The current best-known convergence guarantees are either linear in $D$ or polynomial (superlinear) in $d$. The latter exploits a novel integration scheme for the backward SDE. We take the best of both worlds and show that the number of steps diffusion models require in order to converge in Kullback-Leibler~(KL) divergence is linear (up to logarithmic terms) in the intrinsic dimension $d$. Moreover, we show that this linear dependency is sharp.

arxiv情報

著者 Peter Potaptchik,Iskander Azangulov,George Deligiannidis
発行日 2024-10-11 17:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | Linear Convergence of Diffusion Models Under the Manifold Hypothesis はコメントを受け付けていません

Generative Verifiers: Reward Modeling as Next-Token Prediction

要約

検証者または報酬モデルは、大規模言語モデル (LLM) の推論パフォーマンスを強化するためによく使用されます。
一般的なアプローチは Best-of-N 法です。この方法では、LLM によって生成された N 個の候補ソリューションが検証者によってランク付けされ、最良のソリューションが選択されます。
LLM ベースの検証器は通常、ソリューションをスコアリングするための識別分類器としてトレーニングされますが、事前トレーニングされた LLM のテキスト生成機能は利用しません。
この制限を克服するために、代わりに、ユビキタスな次のトークンの予測目標を使用して、検証とソリューション生成を共同でトレーニングする検証者を提案します。
標準のベリファイアと比較して、このような生成ベリファイア (GenRM) は LLM のいくつかの利点から恩恵を受けることができます。LLM は命令チューニングとシームレスに統合し、思考連鎖推論を可能にし、検証を改善するために多数決による追加のテスト時の計算を利用できます。
私たちは、GenRM が識別、DPO 検証者、および LLM-as-a-Judge よりも優れたパフォーマンスを発揮し、その結果、アルゴリズムおよび数学的推論タスクにおける Best-of-N で解決される問題の数が 16 ~ 40% 向上することを実証しました。
さらに、合成検証根拠を使用して GenRM をトレーニングするだけで、数学の問題の微妙なエラーを見つけるのに十分であることがわかりました。
最後に、生成検証器がモデルのサイズと推論時間の計算に合わせて適切にスケールできることを示します。

要約(オリジナル)

Verifiers or reward models are often used to enhance the reasoning performance of large language models (LLMs). A common approach is the Best-of-N method, where N candidate solutions generated by the LLM are ranked by a verifier, and the best one is selected. While LLM-based verifiers are typically trained as discriminative classifiers to score solutions, they do not utilize the text generation capabilities of pretrained LLMs. To overcome this limitation, we instead propose training verifiers using the ubiquitous next-token prediction objective, jointly on verification and solution generation. Compared to standard verifiers, such generative verifiers (GenRM) can benefit from several advantages of LLMs: they integrate seamlessly with instruction tuning, enable chain-of-thought reasoning, and can utilize additional test-time compute via majority voting for better verification. We demonstrate that GenRM outperforms discriminative, DPO verifiers, and LLM-as-a-Judge, resulting in a 16-40% improvement in the number of problems solved with Best-of-N on algorithmic and math reasoning tasks. Furthermore, we find that training GenRM with synthetic verification rationales is sufficient to pick out subtle errors on math problems. Finally, we demonstrate that generative verifiers scale favorably with model size and inference-time compute.

arxiv情報

著者 Lunjun Zhang,Arian Hosseini,Hritik Bansal,Mehran Kazemi,Aviral Kumar,Rishabh Agarwal
発行日 2024-10-11 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Generative Verifiers: Reward Modeling as Next-Token Prediction はコメントを受け付けていません

On the State of NLP Approaches to Modeling Depression in Social Media: A Post-COVID-19 Outlook

要約

ソーシャルメディアにおける精神的健康状態を予測するためのコンピューターによるアプローチは、ここ数年で大幅に研究されてきました。
このテーマに関して複数の調査が発表されており、コミュニティにこの分野の研究の包括的な説明を提供しています。
すべての精神的健康状態の中で、うつ病は世界中で蔓延しているため、最も広く研究されています。
2020 年初めに始まった新型コロナウイルス感染症の世界的なパンデミックは、世界中のメンタルヘルスに大きな影響を与えました。
ウイルスの蔓延を遅らせるために政府が採用した厳しい措置(ロックダウンなど)と、その後多くの国で経験した経済低迷は、人々の生活と精神的健康に大きな影響を与えています。
研究によると、人口のうつ病率が 50% 以上大幅に増加しています。
これに関連して、ソーシャルメディアにおけるうつ病をモデル化するための自然言語処理(NLP)アプローチに関する調査を紹介し、読者に新型コロナウイルス感染症後の展望を提供します。
この調査は、ソーシャルメディアにおけるうつ病のモデル化に対するパンデミックの影響の理解に貢献します。
新型コロナウイルス感染症のパンデミックの中で、最先端のアプローチと新しいデータセットがどのように使用されてきたかを概説します。
最後に、公平性、説明責任、倫理を考慮して、メンタルヘルスデータの収集と処理における倫理的問題についても説明します。

要約(オリジナル)

Computational approaches to predicting mental health conditions in social media have been substantially explored in the past years. Multiple surveys have been published on this topic, providing the community with comprehensive accounts of the research in this area. Among all mental health conditions, depression is the most widely studied due to its worldwide prevalence. The COVID-19 global pandemic, starting in early 2020, has had a great impact on mental health worldwide. Harsh measures employed by governments to slow the spread of the virus (e.g., lockdowns) and the subsequent economic downturn experienced in many countries have significantly impacted people’s lives and mental health. Studies have shown a substantial increase of above 50% in the rate of depression in the population. In this context, we present a survey on natural language processing (NLP) approaches to modeling depression in social media, providing the reader with a post-COVID-19 outlook. This survey contributes to the understanding of the impacts of the pandemic on modeling depression in social media. We outline how state-of-the-art approaches and new datasets have been used in the context of the COVID-19 pandemic. Finally, we also discuss ethical issues in collecting and processing mental health data, considering fairness, accountability, and ethics.

arxiv情報

著者 Ana-Maria Bucur,Andreea-Codrina Moldovan,Krutika Parvatikar,Marcos Zampieri,Ashiqur R. KhudaBukhsh,Liviu P. Dinu
発行日 2024-10-11 13:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | On the State of NLP Approaches to Modeling Depression in Social Media: A Post-COVID-19 Outlook はコメントを受け付けていません

Data Processing for the OpenGPT-X Model Family

要約

このペーパーでは、オープンで高性能な多言語大規模言語モデル (LLM) の作成を目的とした大規模な取り組みである OpenGPT-X プロジェクト用に開発されたデータ準備パイプラインの包括的な概要を示します。
プロジェクトの目標は、欧州連合内の実際のアプリケーションに特に焦点を当て、すべての主要なヨーロッパ言語をカバーするモデルを提供することです。
データの選択と要件定義から始まり、モデル トレーニング用の最終データセットの準備まで、すべてのデータ処理ステップについて説明します。
当社では、厳選されたデータと Web データを区別しています。これらのカテゴリはそれぞれ別個のパイプラインによって処理され、厳選されたデータには最小限のフィルタリングが適用され、Web データには広範なフィルタリングと重複排除が必要となります。
この違いが、両方のパイプラインに特化したアルゴリズム ソリューションの開発を導きました。
処理方法の説明に加えて、データセットの詳細な分析を提供し、透明性を高め、欧州のデータ規制との整合性を高めます。
最後に、プロジェクト中に直面した重要な洞察と課題を共有し、LLM 向けの大規模な多言語データ準備における今後の取り組みへの推奨事項を提供します。

要約(オリジナル)

This paper presents a comprehensive overview of the data preparation pipeline developed for the OpenGPT-X project, a large-scale initiative aimed at creating open and high-performance multilingual large language models (LLMs). The project goal is to deliver models that cover all major European languages, with a particular focus on real-world applications within the European Union. We explain all data processing steps, starting with the data selection and requirement definition to the preparation of the final datasets for model training. We distinguish between curated data and web data, as each of these categories is handled by distinct pipelines, with curated data undergoing minimal filtering and web data requiring extensive filtering and deduplication. This distinction guided the development of specialized algorithmic solutions for both pipelines. In addition to describing the processing methodologies, we provide an in-depth analysis of the datasets, increasing transparency and alignment with European data regulations. Finally, we share key insights and challenges faced during the project, offering recommendations for future endeavors in large-scale multilingual data preparation for LLMs.

arxiv情報

著者 Nicolo’ Brandizzi,Hammam Abdelwahab,Anirban Bhowmick,Lennard Helmer,Benny Jörg Stein,Pavel Denisov,Qasid Saleem,Michael Fromm,Mehdi Ali,Richard Rutmann,Farzad Naderi,Mohamad Saif Agy,Alexander Schwirjow,Fabian Küch,Luzian Hahn,Malte Ostendorff,Pedro Ortiz Suarez,Georg Rehm,Dennis Wegener,Nicolas Flores-Herr,Joachim Köhler,Johannes Leveling
発行日 2024-10-11 13:34:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Data Processing for the OpenGPT-X Model Family はコメントを受け付けていません

Learn Your Reference Model for Real Good Alignment

要約

大規模言語モデル (LLM) の調整のためのオフライン メソッドは直接報酬モデルを必要としないという事実にもかかわらず、依然として過剰最適化の影響を受けやすいです。
この問題は、トレーニングされたモデルが参照ポリシーから過度に逸脱し、サンプル品質の低下につながる場合に発生します。
私たちは、トレーニング プロセス全体を通じて参照ポリシーを動的に更新する、トラスト リージョン (バリアント TR-DPO、TR-IPO、TR-KTO を含む) と呼ばれる、オフライン アライメント手法の新しいパラダイムを提案します。
私たちの結果は、TR アライメント手法が過剰最適化を効果的に軽減し、初期の参照ポリシーから大幅に逸脱した場合でもモデルが強力なパフォーマンスを維持できることを示しています。
これらのアプローチの有効性を、過剰最適化の低減を示すおもちゃの例だけでなく、役立つ対話や無害な対話、要約などの特定のタスクにおける直接的な並べて比較することによっても実証し、従来の手法を上回ります。
さらに、AlpacaEval 2 および Arena-Hard ベンチマークでの Llama3 モデルによる汎用アシスタント設定の大幅な改善を報告し、従来のアプローチに対する信頼領域メソッドの利点を強調しています。

要約(オリジナル)

Despite the fact that offline methods for Large Language Models (LLMs) alignment do not require a direct reward model, they remain susceptible to overoptimization. This issue arises when the trained model deviates excessively from the reference policy, leading to a decrease in sample quality. We propose a new paradigm of offline alignment methods, called Trust Region (including variants TR-DPO, TR-IPO, TR-KTO), which dynamically updates the reference policy throughout the training process. Our results show that TR alignment methods effectively mitigate overoptimization, enabling models to maintain strong performance even when substantially deviating from the initial reference policy. We demonstrate the efficacy of these approaches not only through toy examples that exhibit reduced overoptimization, but also through direct, side-by-side comparisons in specific tasks such as helpful and harmless dialogue, as well as summarization, where they surpass conventional methods. Additionally, we report significant improvements in general-purpose assistant setups with the Llama3 model on the AlpacaEval 2 and Arena-Hard benchmarks, highlighting the advantages of Trust Region methods over classical approaches.

arxiv情報

著者 Alexey Gorbatovski,Boris Shaposhnikov,Alexey Malakhov,Nikita Surnachev,Yaroslav Aksenov,Ian Maksimov,Nikita Balagansky,Daniil Gavrilov
発行日 2024-10-11 13:42:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Learn Your Reference Model for Real Good Alignment はコメントを受け付けていません

PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning

要約

優先学習は現在の LLM を調整するための中心的なコンポーネントですが、このプロセスはデータ ポイズニング攻撃に対して脆弱になる可能性があります。
この懸念に対処するために、大規模言語モデルの優先学習中のデータポイズニングに対する感受性を評価するためのベンチマークである PoisonBench を導入します。
データポイズニング攻撃は、大規模な言語モデルの応答を操作して、隠された悪意のあるコンテンツやバイアスを組み込む可能性があり、モデルが正常に機能しているように見えながら、有害な出力や意図しない出力を生成する可能性があります。
8 つの現実的なシナリオにわたって 2 つの異なる攻撃タイプを展開し、広く使用されている 21 のモデルを評価します。
私たちの調査結果では、次のような懸念すべき傾向が明らかになりました。(1) パラメータ サイズをスケールアップしても、本質的にポイズニング攻撃に対する回復力は強化されません。
(2) 攻撃の影響とデータポイズン率の間には対数線形の関係が存在します。
(3) データポイズニングの影響は、ポイズニングされたデータには含まれていない推定されたトリガーにまで一般化する可能性があります。
これらの結果は、現在の嗜好学習技術の弱点を明らかにし、悪意のあるモデルやデータ操作に対するより堅牢な防御が緊急に必要であることを浮き彫りにしています。

要約(オリジナル)

Preference learning is a central component for aligning current LLMs, but this process can be vulnerable to data poisoning attacks. To address this concern, we introduce PoisonBench, a benchmark for evaluating large language models’ susceptibility to data poisoning during preference learning. Data poisoning attacks can manipulate large language model responses to include hidden malicious content or biases, potentially causing the model to generate harmful or unintended outputs while appearing to function normally. We deploy two distinct attack types across eight realistic scenarios, assessing 21 widely-used models. Our findings reveal concerning trends: (1) Scaling up parameter size does not inherently enhance resilience against poisoning attacks; (2) There exists a log-linear relationship between the effects of the attack and the data poison ratio; (3) The effect of data poisoning can generalize to extrapolated triggers that are not included in the poisoned data. These results expose weaknesses in current preference learning techniques, highlighting the urgent need for more robust defenses against malicious models and data manipulation.

arxiv情報

著者 Tingchen Fu,Mrinank Sharma,Philip Torr,Shay B. Cohen,David Krueger,Fazl Barez
発行日 2024-10-11 13:50:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning はコメントを受け付けていません

A Social Context-aware Graph-based Multimodal Attentive Learning Framework for Disaster Content Classification during Emergencies

要約

危機の際には、効果的な災害対応と公共の安全のために、ソーシャルメディアプラットフォームで共有される災害関連情報を迅速かつ正確に分類することが重要です。
このような重要なイベントの間、個人はソーシャル メディアを使用してコミュニケーションを取り、マルチモーダルなテキストおよびビジュアル コンテンツを共有します。
しかし、フィルタリングされていない多様なデータが大量に流入しているため、人道支援団体はこの情報を効率的に活用するという課題に直面しています。
災害関連コンテンツを分類するための既存の方法では、正確な分類に不可欠なユーザーの信頼性、感情的背景、社会的交流情報をモデル化できないことがよくあります。
このギャップに対処するために、CrisisSpot を提案します。これは、グラフベースのニューラル ネットワークを利用してテキストとビジュアルのモダリティ間の複雑な関係をキャプチャする方法と、ユーザー中心およびコンテンツ中心の情報を組み込むソーシャル コンテキスト機能を利用する方法です。
また、データ内の調和のとれたパターンと対照的なパターンの両方を捕捉してマルチモーダルなインタラクションを強化し、より豊富な洞察を提供する Inverted Dual Embedded Attendee (IDEA) も紹介します。
さらに、10,352 個のサンプルを含む、単一の災害イベントに関する注釈付きの大規模なデータセットである TSEqD (トルコ-シリア地震データセット) を紹介します。
広範な実験を通じて、CrisisSpot は大幅な改善を実証し、公開されている CrisisMMD データセットと TSEqD データセットでの最先端の方法と比較して、それぞれ平均 9.45% と 5.01% の F1 スコアの向上を達成しました。

要約(オリジナル)

In times of crisis, the prompt and precise classification of disaster-related information shared on social media platforms is crucial for effective disaster response and public safety. During such critical events, individuals use social media to communicate, sharing multimodal textual and visual content. However, due to the significant influx of unfiltered and diverse data, humanitarian organizations face challenges in leveraging this information efficiently. Existing methods for classifying disaster-related content often fail to model users’ credibility, emotional context, and social interaction information, which are essential for accurate classification. To address this gap, we propose CrisisSpot, a method that utilizes a Graph-based Neural Network to capture complex relationships between textual and visual modalities, as well as Social Context Features to incorporate user-centric and content-centric information. We also introduce Inverted Dual Embedded Attention (IDEA), which captures both harmonious and contrasting patterns within the data to enhance multimodal interactions and provide richer insights. Additionally, we present TSEqD (Turkey-Syria Earthquake Dataset), a large annotated dataset for a single disaster event, containing 10,352 samples. Through extensive experiments, CrisisSpot demonstrated significant improvements, achieving an average F1-score gain of 9.45% and 5.01% compared to state-of-the-art methods on the publicly available CrisisMMD dataset and the TSEqD dataset, respectively.

arxiv情報

著者 Shahid Shafi Dar,Mohammad Zia Ur Rehman,Karan Bais,Mohammed Abdul Haseeb,Nagendra Kumara
発行日 2024-10-11 13:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | A Social Context-aware Graph-based Multimodal Attentive Learning Framework for Disaster Content Classification during Emergencies はコメントを受け付けていません

StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

要約

検索拡張生成 (RAG) は、多くの知識ベースのタスクにおいて大規模言語モデル (LLM) を効果的に強化するための重要な手段です。
しかし、既存の RAG 手法は、知識集約型推論タスクに必要な有用な情報がひどく散在しているため、知識集約型推論タスクには苦労しています。
この特性により、既存の RAG 手法では、重要な情報を正確に特定し、このようなノイズの多い拡張で大域的な推論を実行することが困難になります。
この論文では、人間が知識集約型の推論に取り組む際に生の情報をさまざまな構造化された知識に変換するという認知理論に動機付けられ、目の前のタスクに最適な構造タイプを特定し、元の文書を再構成できる新しいフレームワーク StructRAG を提案します。
この構造化された形式を解析し、結果の構造に基づいて回答を推測します。
さまざまな知識集約型タスクにわたる広範な実験により、StructRAG が最先端のパフォーマンスを達成し、特に困難なシナリオで優れていることが示され、複雑な現実世界のアプリケーションで LLM を強化するための効果的なソリューションとしての可能性が実証されました。

要約(オリジナル)

Retrieval-augmented generation (RAG) is a key means to effectively enhance large language models (LLMs) in many knowledge-based tasks. However, existing RAG methods struggle with knowledge-intensive reasoning tasks, because useful information required to these tasks are badly scattered. This characteristic makes it difficult for existing RAG methods to accurately identify key information and perform global reasoning with such noisy augmentation. In this paper, motivated by the cognitive theories that humans convert raw information into various structured knowledge when tackling knowledge-intensive reasoning, we proposes a new framework, StructRAG, which can identify the optimal structure type for the task at hand, reconstruct original documents into this structured format, and infer answers based on the resulting structure. Extensive experiments across various knowledge-intensive tasks show that StructRAG achieves state-of-the-art performance, particularly excelling in challenging scenarios, demonstrating its potential as an effective solution for enhancing LLMs in complex real-world applications.

arxiv情報

著者 Zhuoqun Li,Xuanang Chen,Haiyang Yu,Hongyu Lin,Yaojie Lu,Qiaoyu Tang,Fei Huang,Xianpei Han,Le Sun,Yongbin Li
発行日 2024-10-11 13:52:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization はコメントを受け付けていません