Building A Coding Assistant via the Retrieval-Augmented Language Model

要約

事前トレーニングされた言語モデルは、コードの取得、コード生成、コードの要約、コード補完タスクなどのコード関連タスクで高い効果を示しています。
この論文では、検索拡張言語モデル (CONAN) によるコード アシスタントを提案します。これは、コーディング中の人間の知識探索行動を模倣することによってコード アシスタントを構築することを目的としています。
具体的には、コード構造認識型検索器 (CONAN-R) とデュアルビュー コード表現ベースの検索拡張生成モデル (CONAN-G) で構成されます。
CONAN-R は、コードとドキュメントの調整タスクとマスクされたエンティティ予測タスクを使用して CodeT5 を事前トレーニングし、言語モデルにコード構造を認識させ、コード スニペットとドキュメントの効果的な表現を学習します。
次に、CONAN-G は、検索拡張コード生成モデルを実装するためのデュアルビュー コード表現メカニズムを設計します。
CONAN-G は、コード ドキュメントの説明をプロンプトとみなします。これは、言語モデルがコードのセマンティクスをよりよく理解するのに役立ちます。
私たちの実験では、CONAN がさまざまなコード生成タスクで納得のいくパフォーマンスを達成し、以前の検索拡張コード生成モデルを大幅に上回るパフォーマンスを示しています。
さらなる分析の結果、CONAN は、コードとドキュメントのデータ ペアを調整し、コード データ内のエンティティをマスキングして予測することで構造的な意味論をキャプチャすることで、コード スニペットとドキュメントの両方に合わせた表現を学習していることが示されています。
さらに、取得されたコード スニペットとドキュメントは、コード生成プロセスを支援するためにプログラム言語と自然言語の両方から必要な情報を提供します。
CONAN は、大規模言語モデル (LLM) のアシスタントとしても使用でき、LLM に短いコード ドキュメント長で外部の知識を提供し、さまざまなコード タスクの効率を向上させることができます。
これは、必要な情報を抽出し、取得したコード ドキュメントからノイズを除去するのに役立つ CONAN の機能を示しています。

要約(オリジナル)

Pretrained language models have shown strong effectiveness in code-related tasks, such as code retrieval, code generation, code summarization, and code completion tasks. In this paper, we propose COde assistaNt viA retrieval-augmeNted language model (CONAN), which aims to build a code assistant by mimicking the knowledge-seeking behaviors of humans during coding. Specifically, it consists of a code structure aware retriever (CONAN-R) and a dual-view code representation-based retrieval-augmented generation model (CONAN-G). CONAN-R pretrains CodeT5 using Code-Documentation Alignment and Masked Entity Prediction tasks to make language models code structure-aware and learn effective representations for code snippets and documentation. Then CONAN-G designs a dual-view code representation mechanism for implementing a retrieval-augmented code generation model. CONAN-G regards the code documentation descriptions as prompts, which help language models better understand the code semantics. Our experiments show that CONAN achieves convincing performance on different code generation tasks and significantly outperforms previous retrieval augmented code generation models. Our further analyses show that CONAN learns tailored representations for both code snippets and documentation by aligning code-documentation data pairs and capturing structural semantics by masking and predicting entities in the code data. Additionally, the retrieved code snippets and documentation provide necessary information from both program language and natural language to assist the code generation process. CONAN can also be used as an assistant for Large Language Models (LLMs), providing LLMs with external knowledge in shorter code document lengths to improve their effectiveness on various code tasks. It shows the ability of CONAN to extract necessary information and help filter out the noise from retrieved code documents.

arxiv情報

著者 Xinze Li,Hanbin Wang,Zhenghao Liu,Shi Yu,Shuo Wang,Shuo Wang,Yukun Yan,Yukai Fu,Yu Gu,Ge Yu
発行日 2024-10-21 17:34:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Building A Coding Assistant via the Retrieval-Augmented Language Model はコメントを受け付けていません

Language Model Alignment in Multilingual Trolley Problems

要約

私たちは、多言語トロリー問題における大規模言語モデル (LLM) と人間の好みとの道徳的整合性を評価します。
200 か国以上で 4,000 万を超える人間の判断を収集するモラル マシン実験を基に、私たちは MultiTP と呼ばれる 100 以上の言語で道徳的ジレンマのビネットをまとめたクロスリンガル コーパスを開発しました。
このデータセットにより、多様な言語コンテキストにおける LLM の意思決定プロセスの評価が可能になります。
私たちの分析では、19 の異なる LLM と人間の判断との整合性を調査し、種、性別、フィットネス、ステータス、年齢、関与する命の数という 6 つの道徳的側面にわたる好みを捉えています。
これらの好みを言語話者の人口統計的分布と関連付け、さまざまなプロンプト言い換えに対する LLM の反応の一貫性を調べることにより、私たちの調査結果は、LLM の言語を超えた倫理的バイアスとそれらの交差点についての洞察を提供します。
私たちは、言語間での整合性に大きな差異があることを発見し、AI システムにおける統一的な道徳的推論の仮定に疑問を投げかけ、AI 倫理に多様な視点を組み込むことの重要性を強調しました。
この結果は、世界中で公正かつ公平な AI 相互作用を確保するために、責任ある AI 研究における多言語の側面の統合に関するさらなる研究の必要性を強調しています。
私たちのコードとデータは https://github.com/causalNLP/moralmachine にあります。

要約(オリジナル)

We evaluate the moral alignment of large language models (LLMs) with human preferences in multilingual trolley problems. Building on the Moral Machine experiment, which captures over 40 million human judgments across 200+ countries, we develop a cross-lingual corpus of moral dilemma vignettes in over 100 languages called MultiTP. This dataset enables the assessment of LLMs’ decision-making processes in diverse linguistic contexts. Our analysis explores the alignment of 19 different LLMs with human judgments, capturing preferences across six moral dimensions: species, gender, fitness, status, age, and the number of lives involved. By correlating these preferences with the demographic distribution of language speakers and examining the consistency of LLM responses to various prompt paraphrasings, our findings provide insights into cross-lingual and ethical biases of LLMs and their intersection. We discover significant variance in alignment across languages, challenging the assumption of uniform moral reasoning in AI systems and highlighting the importance of incorporating diverse perspectives in AI ethics. The results underscore the need for further research on the integration of multilingual dimensions in responsible AI research to ensure fair and equitable AI interactions worldwide. Our code and data are at https://github.com/causalNLP/moralmachine

arxiv情報

著者 Zhijing Jin,Max Kleiman-Weiner,Giorgio Piatti,Sydney Levine,Jiarui Liu,Fernando Gonzalez,Francesco Ortu,András Strausz,Mrinmaya Sachan,Rada Mihalcea,Yejin Choi,Bernhard Schölkopf
発行日 2024-10-21 17:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Language Model Alignment in Multilingual Trolley Problems はコメントを受け付けていません

ToW: Thoughts of Words Improve Reasoning in Large Language Models

要約

次の単語を予測するための新しいトレーニング時間データ拡張方法である Thoughts of Words (ToW) を紹介します。
ToW は、次の単語の予測を中核的な推論タスクとみなして、次の単語がどうあるべきか、およびそれが事前トレーニング テキスト内の前のコンテキストとどのように関連しているかを説明する詳細な考えを注入します。
私たちの定式化は、既存の次単語予測学習スキームの 2 つの基本的な欠点に対処します。それは、事実の幻覚を誘発し、モデルが生のテキストで暗黙の推論プロセスを学習するのが非効率的であるということです。
このような単語の思考を取得する方法はたくさんありますが、ここでは、より大きなモデルから抽出することによって ToW アノテーションを取得する最初のステップを検討します。
わずか 70,000 個の ToW アノテーションを使用した継続的な事前トレーニングの後、モデルの推論パフォーマンスが平均 7% ~ 9% 効果的に向上し、モデルの幻覚が最大 10% 減少しました。
同時に、ToW はタスクやアプリケーションに完全に依存せず、ラベルやセマンティクスに追加のバイアスを導入しません。

要約(オリジナル)

We introduce thoughts of words (ToW), a novel training-time data-augmentation method for next-word prediction. ToW views next-word prediction as a core reasoning task and injects fine-grained thoughts explaining what the next word should be and how it is related to the previous contexts in pre-training texts. Our formulation addresses two fundamental drawbacks of existing next-word prediction learning schemes: they induce factual hallucination and are inefficient for models to learn the implicit reasoning processes in raw texts. While there are many ways to acquire such thoughts of words, we explore the first step of acquiring ToW annotations through distilling from larger models. After continual pre-training with only 70K ToW annotations, we effectively improve models’ reasoning performances by 7% to 9% on average and reduce model hallucination by up to 10%. At the same time, ToW is entirely agnostic to tasks and applications, introducing no additional biases on labels or semantics.

arxiv情報

著者 Zhikun Xu,Ming Shen,Jacob Dineen,Zhaonan Li,Xiao Ye,Shijie Lu,Aswin RRV,Chitta Baral,Ben Zhou
発行日 2024-10-21 17:41:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ToW: Thoughts of Words Improve Reasoning in Large Language Models はコメントを受け付けていません

Analyzing Context Contributions in LLM-based Machine Translation

要約

大規模言語モデル (LLM) は、機械翻訳 (MT) で最先端のパフォーマンスを達成し、数ショットの例を通じてコン​​テキスト内の学習を活用する能力を実証しました。
ただし、LLM が入力コンテキストのさまざまな部分を使用するメカニズムは、ほとんど解明されていないままです。
この研究では、MT におけるコンテキスト利用の包括的な分析を提供し、LLM が翻訳を生成する際に、少数ショットの例やソース テキストなどのさまざまなコンテキスト部分をどのように使用するかを研究します。
いくつかの重要な発見を強調します。(1) 翻訳の方向に関係なく、数ショットの例のソース部分は、対応するターゲットよりも多く寄与しているようです。
(2) 並列データを使用して LLM を微調整すると、さまざまなコンテキスト部分の寄与パターンが変更されます。
(3) 位置的な偏りがあり、初期の数ショットの例の方が翻訳されたシーケンスへの寄与が高くなります。
最後に、異常なコンテキストの寄与を検査すると、幻覚などの病理学的翻訳を発見できる可能性があることを示します。
私たちの調査結果は、標準的なエンコーダ/デコーダ MT モデルで知られているものを超える、LLM ベースの MT の内部動作に光を当てました。

要約(オリジナル)

Large language models (LLMs) have achieved state-of-the-art performance in machine translation (MT) and demonstrated the ability to leverage in-context learning through few-shot examples. However, the mechanisms by which LLMs use different parts of the input context remain largely unexplored. In this work, we provide a comprehensive analysis of context utilization in MT, studying how LLMs use various context parts, such as few-shot examples and the source text, when generating translations. We highlight several key findings: (1) the source part of few-shot examples appears to contribute more than its corresponding targets, irrespective of translation direction; (2) finetuning LLMs with parallel data alters the contribution patterns of different context parts; and (3) there is a positional bias where earlier few-shot examples have higher contributions to the translated sequence. Finally, we demonstrate that inspecting anomalous context contributions can potentially uncover pathological translations, such as hallucinations. Our findings shed light on the internal workings of LLM-based MT which go beyond those known for standard encoder-decoder MT models.

arxiv情報

著者 Emmanouil Zaranis,Nuno M. Guerreiro,André F. T. Martins
発行日 2024-10-21 17:51:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Analyzing Context Contributions in LLM-based Machine Translation はコメントを受け付けていません

Can Knowledge Editing Really Correct Hallucinations?

要約

大規模言語モデル (LLM) は、タスク全体にわたって優れた能力があるにもかかわらず、生成されたコンテンツ内の非事実情報を参照する幻覚に悩まされます。
一方、知識編集は、LLM にエンコードされた誤った事実知識を修正するための新たな人気パラダイムとして開発され、ゼロからの再トレーニングを回避できるという利点があります。
ただし、ナレッジ編集用の既存の評価データセットに共通する問題の 1 つは、編集前に LLM が評価の質問に対して幻覚的な回答を実際に生成することが保証されていないことです。
さまざまな技術によって編集された後、そのようなデータセットで LLM が評価される場合、幻覚の矯正におけるさまざまな知識編集方法の有効性を評価するためにパフォーマンスを直接採用することは困難です。
したがって、知識編集は本当に LLM の幻覚を矯正できるのかという基本的な疑問は十分に検証されていないままです。
私たちは、現実世界の幻覚を修正する際の知識編集方法を総合的にベンチマークするために HalluEditBench を提案しました。
まず、9 つのドメイン、26 のトピック、および 6,000 を超える幻覚を含む大規模な幻覚データセットを厳密に構築します。
次に、有効性、一般化、移植性、局所性、堅牢性を含む 5 つの側面で、知識編集手法のパフォーマンスを総合的に評価します。
HalluEditBench を通じて、私たちは幻覚矯正におけるさまざまな知識編集方法の可能性と限界について新たな洞察を提供してきました。これにより、将来の改善が促され、知識編集分野の進歩が促進される可能性があります。

要約(オリジナル)

Large Language Models (LLMs) suffer from hallucinations, referring to the non-factual information in generated content, despite their superior capacities across tasks. Meanwhile, knowledge editing has been developed as a new popular paradigm to correct the erroneous factual knowledge encoded in LLMs with the advantage of avoiding retraining from scratch. However, one common issue of existing evaluation datasets for knowledge editing is that they do not ensure LLMs actually generate hallucinated answers to the evaluation questions before editing. When LLMs are evaluated on such datasets after being edited by different techniques, it is hard to directly adopt the performance to assess the effectiveness of different knowledge editing methods in correcting hallucinations. Thus, the fundamental question remains insufficiently validated: Can knowledge editing really correct hallucinations in LLMs? We proposed HalluEditBench to holistically benchmark knowledge editing methods in correcting real-world hallucinations. First, we rigorously construct a massive hallucination dataset with 9 domains, 26 topics and more than 6,000 hallucinations. Then, we assess the performance of knowledge editing methods in a holistic way on five dimensions including Efficacy, Generalization, Portability, Locality, and Robustness. Through HalluEditBench, we have provided new insights into the potentials and limitations of different knowledge editing methods in correcting hallucinations, which could inspire future improvements and facilitate the progress in the field of knowledge editing.

arxiv情報

著者 Baixiang Huang,Canyu Chen,Xiongxiao Xu,Ali Payani,Kai Shu
発行日 2024-10-21 17:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can Knowledge Editing Really Correct Hallucinations? はコメントを受け付けていません

Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents

要約

AI システムの安全性と調整に関する懸念の高まりは、人工エージェントに道徳的能力を組み込むことの重要性を浮き彫りにしています。有望な解決策は、経験からの学習、つまり強化学習の使用です。
マルチエージェント(社会)環境では、個々の学習エージェント間の相互作用から複雑な集団レベルの現象が現れる可能性があります。
既存の研究の多くは、シミュレートされた社会的ジレンマ環境に依存して、独立した学習エージェントの相互作用を研究しています。
しかし、彼らは、実際のエージェントの社会に存在する可能性が高い道徳的異質性を無視する傾向があります。
たとえば、さまざまな時点で、単一の学習エージェントは、結果主義者(つまり、時間の経過とともに結果を最大化することに焦点を当てる)、規範ベース(つまり、特定の規範に従う)、または美徳ベース(つまり、特定の規範を考慮する)の敵に直面する可能性があります。
さまざまな美徳の組み合わせ)。
エージェントの共同開発が集団内のそのような道徳的不均一性によってどの程度影響を受けるかについては、十分に理解されていません。
この論文では、社会的ジレンマ環境で相互作用する道徳的に異質な集団の学習ダイナミクスの研究を紹介します。
パートナー選択メカニズムを備えた反復囚人のジレンマ環境を使用して、集団内の多様な道徳エージェントの蔓延が個々のエージェントの学習行動と新たな集団レベルの結果にどの程度影響を与えるかを調査します。
私たちは、向社会的エージェントと反社会的エージェントの間のいくつかの種類の重要な相互作用を観察し、特定の種類の道徳的エージェントが利己的なエージェントをより協力的な行動に導くことができることを発見しました。

要約(オリジナル)

Growing concerns about safety and alignment of AI systems highlight the importance of embedding moral capabilities in artificial agents: a promising solution is the use of learning from experience, i.e., Reinforcement Learning. In multi-agent (social) environments, complex population-level phenomena may emerge from interactions between individual learning agents. Many of the existing studies rely on simulated social dilemma environments to study the interactions of independent learning agents; however, they tend to ignore the moral heterogeneity that is likely to be present in societies of agents in practice. For example, at different points in time a single learning agent may face opponents who are consequentialist (i.e., focused on maximizing outcomes over time), norm-based (i.e., conforming to specific norms), or virtue-based (i.e., considering a combination of different virtues). The extent to which agents’ co-development may be impacted by such moral heterogeneity in populations is not well understood. In this paper, we present a study of the learning dynamics of morally heterogeneous populations interacting in a social dilemma setting. Using an Iterated Prisoner’s Dilemma environment with a partner selection mechanism, we investigate the extent to which the prevalence of diverse moral agents in populations affects individual agents’ learning behaviors and emergent population-level outcomes. We observe several types of non-trivial interactions between pro-social and anti-social agents, and find that certain types of moral agents are able to steer selfish agents towards more cooperative behavior.

arxiv情報

著者 Elizaveta Tennant,Stephen Hailes,Mirco Musolesi
発行日 2024-10-21 13:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, cs.MA | Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents はコメントを受け付けていません

A New Approach to Solving SMAC Task: Generating Decision Tree Code from Large Language Models

要約

StarCraft マルチエージェント チャレンジ (SMAC) は、マルチエージェント強化学習 (MARL) で最も一般的に使用される実験環境の 1 つであり、特定のタスクは、設定された数の味方ユニットを制御して敵軍を倒すことです。
従来の MARL アルゴリズムでは、モデルをトレーニングするために最大 100 万ステップの環境との対話が必要になることが多く、結果として得られるポリシーは一般に解釈不可能で、転送可能性が弱くなります。
この論文では、LLM-SMAC と呼ばれる SMAC タスクを解決するための新しいアプローチを提案します。
私たちのフレームワークでは、エージェントは大規模言語モデル (LLM) を利用して、タスクの説明を提供することでデシジョン ツリー コードを生成します。
モデルは、環境によって提供される報酬からのフィードバックを使用してさらに内省されます。
私たちは SMAC で実験を行い、私たちの方法が最小限の環境探索で高品質で解釈可能な決定木を生成できることを実証しました。
さらに、これらのモデルは強力な移植性を示し、変更することなく同様の SMAC 環境に適用することができます。
私たちは、このアプローチが将来の意思決定タスクを解決するための新しい方向性を提供すると信じています。

要約(オリジナル)

StarCraft Multi-Agent Challenge (SMAC) is one of the most commonly used experimental environments in multi-agent reinforcement learning (MARL), where the specific task is to control a set number of allied units to defeat enemy forces. Traditional MARL algorithms often require interacting with the environment for up to 1 million steps to train a model, and the resulting policies are typically non-interpretable with weak transferability. In this paper, we propose a novel approach to solving SMAC tasks called LLM-SMAC. In our framework, agents leverage large language models (LLMs) to generate decision tree code by providing task descriptions. The model is further self-reflection using feedback from the rewards provided by the environment. We conduct experiments in the SMAC and demonstrate that our method can produce high-quality, interpretable decision trees with minimal environmental exploration. Moreover, these models exhibit strong transferability, successfully applying to similar SMAC environments without modification. We believe this approach offers a new direction for solving decision-making tasks in the future.

arxiv情報

著者 Yue Deng,Weiyu Ma,Yuxin Fan,Yin Zhang,Haifeng Zhang,Jian Zhao
発行日 2024-10-21 13:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A New Approach to Solving SMAC Task: Generating Decision Tree Code from Large Language Models はコメントを受け付けていません

TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis

要約

時系列分析は多くのアプリケーションで重要な役割を果たし、予測、分類、異常検出、代入などのタスクをサポートします。
この作業では、強力な表現機能とパターン抽出機能を通じて幅広い時系列タスクで優れた性能を発揮するように設計されたモデルであるタイム シリーズ パターン マシン (TSPM) を紹介します。
従来の時系列モデルは、普遍的なパターンを捉えるのに苦労することが多く、さまざまなタスクにわたる有効性が制限されます。
これに対処するために、時間領域で複数のスケールを定義し、周波数領域でさまざまな解像度を定義し、さまざまな混合戦略を採用して、複雑なタスク適応型時系列パターンを抽出します。
具体的には、(1) マルチ解像度時間イメージング (MRTI)、(2) 時間画像分解 (TID)、(3) マルチスケール混合 (MCM)、を使用してマルチスケール時系列を処理する汎用 TSPM を紹介します。
(4) 包括的な時間パターンを抽出するための多重解像度ミキシング (MRM)。
MRTI は、マルチスケール時系列をマルチ解像度時間画像に変換し、時間領域と周波数領域の両方でパターンをキャプチャします。
TID は二重軸の注意を活用して季節パターンとトレンド パターンを抽出しますが、MCM はスケール全体でこれらのパターンを階層的に集約します。
MRM は、解像度全体ですべての表現を適応的に統合します。
この手法は、8 つの時系列分析タスクにわたって最先端のパフォーマンスを実現し、汎用モデルとタスク固有のモデルの両方を常に上回っています。
私たちの研究は、次世代の TSPM に向けた有望な一歩を示し、時系列分析のさらなる進歩への道を切り開きます。

要約(オリジナル)

Time series analysis plays a critical role in numerous applications, supporting tasks such as forecasting, classification, anomaly detection, and imputation. In this work, we present the time series pattern machine (TSPM), a model designed to excel in a broad range of time series tasks through powerful representation and pattern extraction capabilities. Traditional time series models often struggle to capture universal patterns, limiting their effectiveness across diverse tasks. To address this, we define multiple scales in the time domain and various resolutions in the frequency domain, employing various mixing strategies to extract intricate, task-adaptive time series patterns. Specifically, we introduce a general-purpose TSPM that processes multi-scale time series using (1) multi-resolution time imaging (MRTI), (2) time image decomposition (TID), (3) multi-scale mixing (MCM), and (4) multi-resolution mixing (MRM) to extract comprehensive temporal patterns. MRTI transforms multi-scale time series into multi-resolution time images, capturing patterns across both temporal and frequency domains. TID leverages dual-axis attention to extract seasonal and trend patterns, while MCM hierarchically aggregates these patterns across scales. MRM adaptively integrates all representations across resolutions. This method achieves state-of-the-art performance across 8 time series analytical tasks, consistently surpassing both general-purpose and task-specific models. Our work marks a promising step toward the next generation of TSPMs, paving the way for further advancements in time series analysis.

arxiv情報

著者 Shiyu Wang,Jiawei Li,Xiaoming Shi,Zhou Ye,Baichuan Mo,Wenze Lin,Shengtong Ju,Zhixuan Chu,Ming Jin
発行日 2024-10-21 14:06:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis はコメントを受け付けていません

Latent Skill Discovery for Chain-of-Thought Reasoning

要約

思考連鎖 (CoT) プロンプトは、特に複雑な推論タスクに取り組む場合に、大規模言語モデル (LLM) に対する一般的なコンテキスト内学習 (ICL) アプローチです。
従来の ICL アプローチでは、入力された質問と同様の質問を含む例を使用してプロンプトを構築します。
ただし、CoT プロンプトでは、例の中に重要な中間推論ステップ (理論的根拠) が含まれるため、質問そのものではなく、これらの理論的根拠に基づいてサンプルを選択する必要があります。
既存の方法では、人間の専門家または事前トレーニングを受けた LLM が、選択をガイドするためのスキル、論理的根拠の高レベルの抽象化を説明する必要があります。
ただし、これらの方法は多くの場合コストが高く、拡張が困難です。
代わりに、この論文では、潜在推論スキル (LaRS) と呼ばれる新しいアプローチを紹介します。これは、推論スキルと呼ばれる潜在変数を使用して、教師なし学習を使用して理論的根拠の潜在空間表現を作成します。
同時に、LaRS は、特定の質問に対して必要な推論スキルを決定するための推論ポリシーを学習します。
次に、過去の例と質問の間の推論スキルを調整することにより、ICL の例が選択されます。
このアプローチは理論的に根拠があり、計算効率が高く、補助的な LLM 推論や手動のプロンプト設計が不要になります。
実証結果は、LaRS が常に SOTA スキルベースの選択方法よりも優れたパフォーマンスを示し、サンプル バンクを 4 倍高速に処理し、選択段階での LLM 推論を半分に削減し、次善のサンプル バンクに対する堅牢性を示していることを示しています。

要約(オリジナル)

Chain-of-thought (CoT) prompting is a popular in-context learning (ICL) approach for large language models (LLMs), especially when tackling complex reasoning tasks. Traditional ICL approaches construct prompts using examples that contain questions similar to the input question. However, CoT prompting, which includes crucial intermediate reasoning steps (rationales) within its examples, necessitates selecting examples based on these rationales rather than the questions themselves. Existing methods require human experts or pre-trained LLMs to describe the skill, a high-level abstraction of rationales, to guide the selection. These methods, however, are often costly and difficult to scale. Instead, this paper introduces a new approach named Latent Reasoning Skills (LaRS) that employs unsupervised learning to create a latent space representation of rationales, with a latent variable called a reasoning skill. Concurrently, LaRS learns a reasoning policy to determine the required reasoning skill for a given question. Then the ICL examples are selected by aligning the reasoning skills between past examples and the question. This approach is theoretically grounded and compute-efficient, eliminating the need for auxiliary LLM inference or manual prompt design. Empirical results demonstrate that LaRS consistently outperforms SOTA skill-based selection methods, processing example banks four times faster, reducing LLM inferences during the selection stage by half, and showing greater robustness to sub-optimal example banks.

arxiv情報

著者 Zifan Xu,Haozhu Wang,Dmitriy Bespalov,Xuan Wang,Peter Stone,Yanjun Qi
発行日 2024-10-21 14:21:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Latent Skill Discovery for Chain-of-Thought Reasoning はコメントを受け付けていません

Generalized Group Data Attribution

要約

データ アトリビューション (DA) メソッドは、モデル出力に対する個々のトレーニング データ ポイントの影響を定量化し、説明可能性、データ選択、ノイズのあるラベルの識別などの幅広い用途に使用できます。
ただし、既存の DA 手法は多くの場合、計算量が多く、大規模な機械学習モデルへの適用が制限されています。
この課題に対処するために、一般化グループ データ アトリビューション (GGDA) フレームワークを導入します。これは、個別のポイントではなくトレーニング ポイントのグループに帰属させることで DA を計算的に簡素化します。
GGDA は、既存のアトリビューション手法を包含する一般的なフレームワークであり、新しい DA 手法が出現するたびに適用できます。
これにより、ユーザーはニーズに基づいて効率と忠実性の間のトレードオフを最適化できます。
私たちの経験的結果は、GGDA を Influence Functions、TracIn、TRAK などの一般的な DA メソッドに適用すると、アトリビューションの忠実度を適切にトレードオフしながら、標準の DA メソッドよりも最大 10 倍から 50 倍の高速化をもたらすことを示しています。
データセットのプルーニングやノイズの多いラベルの識別などの下流アプリケーションでは、GGDA が計算効率を大幅に向上させて有効性を維持し、これまで実現不可能だった大規模な機械学習シナリオでの実用的なアプリケーションを可能にすることを実証します。

要約(オリジナル)

Data Attribution (DA) methods quantify the influence of individual training data points on model outputs and have broad applications such as explainability, data selection, and noisy label identification. However, existing DA methods are often computationally intensive, limiting their applicability to large-scale machine learning models. To address this challenge, we introduce the Generalized Group Data Attribution (GGDA) framework, which computationally simplifies DA by attributing to groups of training points instead of individual ones. GGDA is a general framework that subsumes existing attribution methods and can be applied to new DA techniques as they emerge. It allows users to optimize the trade-off between efficiency and fidelity based on their needs. Our empirical results demonstrate that GGDA applied to popular DA methods such as Influence Functions, TracIn, and TRAK results in upto 10x-50x speedups over standard DA methods while gracefully trading off attribution fidelity. For downstream applications such as dataset pruning and noisy label identification, we demonstrate that GGDA significantly improves computational efficiency and maintains effectiveness, enabling practical applications in large-scale machine learning scenarios that were previously infeasible.

arxiv情報

著者 Dan Ley,Suraj Srinivas,Shichang Zhang,Gili Rusak,Himabindu Lakkaraju
発行日 2024-10-21 14:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Generalized Group Data Attribution はコメントを受け付けていません