NVR: Vector Runahead on NPUs for Sparse Memory Access

要約

深いニューラルネットワークは、モデルパラメーターサイズのスケールアップを減らすためにスパースをますます活用しています。
ただし、スパースと剪定を通じて壁2時間の時間を短縮することは、不規則なメモリアクセスパターンのために依然として困難であり、頻繁なキャッシュミスにつながります。
このホワイトペーパーでは、NPUベクターRunahead(NVR)を提示します。これは、NPUに合わせて調整されたプリフェッチメカニズムで、まばらなDNNワークロードのキャッシュミス問題に対処します。
NVRは、オーバーヘッドが高く、携帯性が低いメモリパターンを最適化するのではなく、Runaheadの実行をNPUのユニークなアーキテクチャに適応させます。
NVRは、コンパイラやアルゴリズムのサポートを必要とせずに、まばらなDNNワークロードに一般的な微細構造ソリューションを提供し、NPUに加えて分離された、投機的、軽量ハードウェアサブスレッドとして動作し、最小限のハードウェアオーバーヘッド(5%未満)を使用します。
NVRは、汎用プロセッサでのSOTAプリフェッチと比較して、キャッシュミスが平均90%減少し、スパースワークロードに対して平均スピードアップをプリフェッチせずに4倍のスピードアップを提供します。
さらに、小さなキャッシュ(16kb)をNVRと組み合わせてNPUに組み込むことの利点を調査します。
私たちの評価は、この控えめなキャッシュを拡大すると、L2キャッシュサイズを同じ量だけ増やすよりも5倍のパフォーマンスの利点が得られることを示しています。

要約(オリジナル)

Deep Neural Networks are increasingly leveraging sparsity to reduce the scaling up of model parameter size. However, reducing wall-clock time through sparsity and pruning remains challenging due to irregular memory access patterns, leading to frequent cache misses. In this paper, we present NPU Vector Runahead (NVR), a prefetching mechanism tailored for NPUs to address cache miss problems in sparse DNN workloads. Rather than optimising memory patterns with high overhead and poor portability, NVR adapts runahead execution to the unique architecture of NPUs. NVR provides a general micro-architectural solution for sparse DNN workloads without requiring compiler or algorithmic support, operating as a decoupled, speculative, lightweight hardware sub-thread alongside the NPU, with minimal hardware overhead (under 5%). NVR achieves an average 90% reduction in cache misses compared to SOTA prefetching in general-purpose processors, delivering 4x average speedup on sparse workloads versus NPUs without prefetching. Moreover, we investigate the advantages of incorporating a small cache (16KB) into the NPU combined with NVR. Our evaluation shows that expanding this modest cache delivers 5x higher performance benefits than increasing the L2 cache size by the same amount.

arxiv情報

著者 Hui Wang,Zhengpeng Zhao,Jing Wang,Yushu Du,Yuan Cheng,Bing Guo,He Xiao,Chenhao Ma,Xiaomeng Han,Dean You,Jiapeng Guan,Ran Wei,Dawei Yang,Zhe Jiang
発行日 2025-02-19 16:54:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR | NVR: Vector Runahead on NPUs for Sparse Memory Access はコメントを受け付けていません

PSCon: Toward Conversational Product Search

要約

会話型製品検索(CPS)は、人間のような言語を反映する実際のCPSデータセットがないため、シミュレートされた会話に限定されます。
さらに、現在の会話データセットは、クロスマーケットおよび多言語使用をサポートするために制限されています。
このペーパーでは、新しいCPSデータ収集プロトコルとPresent PSCONを紹介します。PSCONは、人間のような会話を介して製品検索を支援するために設計された新しいCPSデータセットです。
データセットは、コーチされた人間から人間へのデータ収集プロトコルを使用して構築され、2つの言語とデュアル市場をサポートしています。
また、データセットにより、ユーザー意図の検出、キーワード抽出、システムアクション予測、質問選択、アイテムのランキング、応答生成の6つのCPSのサブタスクの徹底的な調査が可能になります。
さらに、データセットの分析も提供し、提案されたCPSデータセットのベンチマークモデルを提案します。

要約(オリジナル)

Conversational Product Search (CPS) is confined to simulated conversations due to the lack of real-world CPS datasets that reflect human-like language. Additionally, current conversational datasets are limited to support cross-market and multi-lingual usage. In this paper, we introduce a new CPS data collection protocol and present PSCon, a novel CPS dataset designed to assist product search via human-like conversations. The dataset is constructed using a coached human-to-human data collection protocol and supports two languages and dual markets. Also, the dataset enables thorough exploration of six subtasks of CPS: user intent detection, keyword extraction, system action prediction, question selection, item ranking, and response generation. Furthermore, we also offer an analysis of the dataset and propose a benchmark model on the proposed CPS dataset.

arxiv情報

著者 Jie Zou,Mohammad Aliannejadi,Evangelos Kanoulas,Shuxi Han,Heli Ma,Zheng Wang,Yang Yang,Heng Tao Shen
発行日 2025-02-19 17:05:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | PSCon: Toward Conversational Product Search はコメントを受け付けていません

ACROSS: A Deformation-Based Cross-Modal Representation for Robotic Tactile Perception

要約

触覚は、環境との人間の相互作用に不可欠であり、ロボット工学でますます重要になっています。
BioTACなどの触覚センサーは、人間の指先を模倣し、詳細な相互作用データを提供します。
スリップ検出やオブジェクトの識別などのアプリケーションでの有用性にもかかわらず、このセンサーは非推奨になり、多くの貴重なデータセットが時代遅れになっています。
ただし、新しいセンサーテクノロジーを使用して同様のデータセットを再作成することは、退屈で時間がかかります。
したがって、これらの既存のデータセットを新しいセットアップとモダリティで使用することが重要です。
これに応じて、センサーの変形情報を活用することにより、触覚センサー間でデータを翻訳するための新しいフレームワークを紹介します。
BioTAC信号を桁センサーに変換することにより、アプローチを実証します。
私たちのフレームワークは、最初に入力信号を3D変形メッシュに変換することで構成されています。
次に、1つのセンサーの3D変形メッシュから別のセンサーのメッシュに移行し、最後に生成された3D変形メッシュを対応する出力空間に変換します。
私たちは、低次元の触覚表現から高次元の表現へと進むという最も困難な問題へのアプローチを実証します。
特に、BioTACセンサーの触覚信号を触覚画像に移します。
当社のアプローチにより、貴重なデータセットを継続的に使用し、異なるセットアップを持つグループ間のデータ交換が可能になります。

要約(オリジナル)

Tactile perception is essential for human interaction with the environment and is becoming increasingly crucial in robotics. Tactile sensors like the BioTac mimic human fingertips and provide detailed interaction data. Despite its utility in applications like slip detection and object identification, this sensor is now deprecated, making many valuable datasets obsolete. However, recreating similar datasets with newer sensor technologies is both tedious and time-consuming. Therefore, adapting these existing datasets for use with new setups and modalities is crucial. In response, we introduce ACROSS, a novel framework for translating data between tactile sensors by exploiting sensor deformation information. We demonstrate the approach by translating BioTac signals into the DIGIT sensor. Our framework consists of first converting the input signals into 3D deformation meshes. We then transition from the 3D deformation mesh of one sensor to the mesh of another, and finally convert the generated 3D deformation mesh into the corresponding output space. We demonstrate our approach to the most challenging problem of going from a low-dimensional tactile representation to a high-dimensional one. In particular, we transfer the tactile signals of a BioTac sensor to DIGIT tactile images. Our approach enables the continued use of valuable datasets and data exchange between groups with different setups.

arxiv情報

著者 Wadhah Zai El Amri,Malte Kuhlmann,Nicolás Navarro-Guerrero
発行日 2025-02-19 17:08:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | ACROSS: A Deformation-Based Cross-Modal Representation for Robotic Tactile Perception はコメントを受け付けていません

Causal Temporal Regime Structure Learning

要約

経済学、神経科学、気候科学などの分野の動的システムを予測および制御するためには、多変量時系列における因果関係を理解することが不可欠です。
ただし、既存の因果発見方法は、しばしば定常性を想定し、時系列が連続体制、未知の境界を持つ連続した時間セグメント、および因果構造の変化で構成されている場合の有効性を制限します。
この作業では、まずそのような時系列を説明およびモデル化するフレームワークを紹介します。
次に、レジームの数とその連続配置を決定しながら、各レジームの指示された非環式グラフ(DAG)を同時に学習する新しい方法であるキャスターを提示します。
キャスターは、予想最大化アルゴリズムを使用してデータのログリケリを最適化し、レジームインデックスの割り当て(予想ステップ)と各レジームの因果関係を推測する(最大化ステップ)を推測します。
私たちは、フレームワーク内で体制とDAGの識別可能性を確立します。
広範な実験は、Castorが、合成および現実世界の両方のデータセットで、異なるレジームを検出し、線形および非線形の因果関係を含むさまざまな設定でDAGを学習する際に、既存の因果発見モデルよりも常に優れていることを示しています。

要約(オリジナル)

Understanding causal relationships in multivariate time series is essential for predicting and controlling dynamic systems in fields like economics, neuroscience, and climate science. However, existing causal discovery methods often assume stationarity, limiting their effectiveness when time series consist of sequential regimes, consecutive temporal segments with unknown boundaries and changing causal structures. In this work, we firstly introduce a framework to describe and model such time series. Then, we present CASTOR, a novel method that concurrently learns the Directed Acyclic Graph (DAG) for each regime while determining the number of regimes and their sequential arrangement. CASTOR optimizes the data log-likelihood using an expectation-maximization algorithm, alternating between assigning regime indices (expectation step) and inferring causal relationships in each regime (maximization step). We establish the identifiability of the regimes and DAGs within our framework. Extensive experiments show that CASTOR consistently outperforms existing causal discovery models in detecting different regimes and learning their DAGs across various settings, including linear and nonlinear causal relationships, on both synthetic and real world datasets.

arxiv情報

著者 Abdellah Rahmani,Pascal Frossard
発行日 2025-02-19 17:09:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ME | Causal Temporal Regime Structure Learning はコメントを受け付けていません

CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents

要約

セマンティックコード検索、特定の自然言語クエリに一致するコードの取得は、ソフトウェアエンジニアリングの生産性を向上させるための重要なタスクです。
既存のコード検索データセットは制限に直面しています。これらは、機能的検証ではなくセマンティック理解を通じて主にコードを評価する人間のアノテーターに依存しており、潜在的な不正確さとスケーラビリティの問題につながります。
さらに、現在の評価メトリックは、多くの場合、コード検索のマルチ選択性を見落としています。
このペーパーでは、COSQA+を紹介し、COSQAの高品質のクエリを複数の適切なコードとペアリングします。
複数のモデルベースの候補選択と、新しいテスト駆動型エージェントアノテーションシステムを備えた自動パイプラインを開発します。
単一の大手言語モデル(LLM)アノテーターとPythonの専門家アノテーター(テストベースの検証なし)の中で、エージェントはテストベースの検証を活用し、96.4%の最高精度を達成します。
大規模な実験を通じて、COSQA+はCOSQAよりも優れた品質を実証しています。
COSQA+展示でトレーニングされたモデルは、パフォーマンスを向上させます。
https://github.com/deepsoftwareanalytics/cosqa_plusでコードとデータを提供します。

要約(オリジナル)

Semantic code search, retrieving code that matches a given natural language query, is an important task to improve productivity in software engineering. Existing code search datasets face limitations: they rely on human annotators who assess code primarily through semantic understanding rather than functional verification, leading to potential inaccuracies and scalability issues. Additionally, current evaluation metrics often overlook the multi-choice nature of code search. This paper introduces CoSQA+, pairing high-quality queries from CoSQA with multiple suitable codes. We develop an automated pipeline featuring multiple model-based candidate selections and the novel test-driven agent annotation system. Among a single Large Language Model (LLM) annotator and Python expert annotators (without test-based verification), agents leverage test-based verification and achieve the highest accuracy of 96.4%. Through extensive experiments, CoSQA+ has demonstrated superior quality over CoSQA. Models trained on CoSQA+ exhibit improved performance. We provide the code and data at https://github.com/DeepSoftwareAnalytics/CoSQA_Plus.

arxiv情報

著者 Jing Gong,Yanghui Wu,Linxi Liang,Jiachi Chen,Mingwei Liu,Yanlin Wang,Zibin Zheng
発行日 2025-02-19 17:12:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.SE, D.2.3 | CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents はコメントを受け付けていません

Multilingual Non-Factoid Question Answering with Answer Paragraph Selection

要約

ほとんどの既存の質問回答データセット(QUAD)は、主に高リソース言語のファクトイドベースの短いコンテキスト質問応答(QA)に焦点を当てています。
ただし、低リソース言語のこのようなデータセットの範囲は限られたままであり、ファクトイドベースのクワッドを中心とした作品はわずかであり、非ファクトルクワッドにはありません。
したがって、この作業は、等型の質問を持つ多言語のクワッドであるMunfquadを示しています。
これは、BBCニュース記事の尋問を質問として、および対応する段落を銀の答えとして利用します。
データセットは、38の言語にわたって578kを超えるQAペアで構成され、いくつかの低リソース言語を含み、これまでで最大の多言語QAデータセットとして存在します。
Munfquad(Golden Set)の790 QAペアの手動注釈に基づいて、98 \%の質問に対応する銀の回答を使用して回答できることがわかります。
微調整された回答段落選択(APS)モデルは、ベースラインよりも優れています。
APSモデルは、Munfquadテストセットとゴールデンセットで、それぞれ80 \%と72 \%の精度を達成し、それぞれ72 \%と66 \%のマクロF1を達成しました。
さらに、APSモデルは、シルバーラベルで微調整された後でも、ゴールデンセット内の特定の言語を効果的に一般化します。
また、微調整されたAPSモデルは、質問のコンテキストを減らすのに有益であることも観察します。
これらの調査結果は、このリソースがQA研究コミュニティに貴重な貢献になることを示唆しています。

要約(オリジナル)

Most existing Question Answering Datasets (QuADs) primarily focus on factoid-based short-context Question Answering (QA) in high-resource languages. However, the scope of such datasets for low-resource languages remains limited, with only a few works centered on factoid-based QuADs and none on non-factoid QuADs. Therefore, this work presents MuNfQuAD, a multilingual QuAD with non-factoid questions. It utilizes interrogative sub-headings from BBC news articles as questions and the corresponding paragraphs as silver answers. The dataset comprises over 578K QA pairs across 38 languages, encompassing several low-resource languages, and stands as the largest multilingual QA dataset to date. Based on the manual annotations of 790 QA-pairs from MuNfQuAD (golden set), we observe that 98\% of questions can be answered using their corresponding silver answer. Our fine-tuned Answer Paragraph Selection (APS) model outperforms the baselines. The APS model attained an accuracy of 80\% and 72\%, as well as a macro F1 of 72\% and 66\%, on the MuNfQuAD testset and the golden set, respectively. Furthermore, the APS model effectively generalizes a certain language within the golden set, even after being fine-tuned on silver labels. We also observe that the fine-tuned APS model is beneficial for reducing the context of a question. These findings suggest that this resource would be a valuable contribution to the QA research community.

arxiv情報

著者 Ritwik Mishra,Sreeram Vennam,Rajiv Ratn Shah,Ponnurangam Kumaraguru
発行日 2025-02-19 17:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | Multilingual Non-Factoid Question Answering with Answer Paragraph Selection はコメントを受け付けていません

DataSciBench: An LLM Agent Benchmark for Data Science

要約

このホワイトペーパーでは、データサイエンスの大規模な言語モデル(LLM)機能を評価するための包括的なベンチマークであるDatascibenchを紹介します。
最近の関連ベンチマークは、主に単一のタスク、簡単に取得できるグラウンドトゥルース、および評価できるタスクの範囲を制限する簡単な評価メトリックに焦点を当てています。
対照的に、DASASCIBENCHは、不確実なグラウンドトゥルースと評価メトリックのための、より包括的でキュレーションされた自然で挑戦的なプロンプトのコレクションに基づいて構築されています。
グラウンドトゥルース(GT)を生成し、評価メトリックを検証するための半自動パイプラインを開発します。
このパイプラインは、収集されたプロンプト、事前定義されたタスクタイプ、および集約関数(メトリック)を活用することにより、LLMベースの自己整合性と人間の検証戦略を利用および実装して、正確なGTを作成します。
さらに、正確に定義されたメトリックとプログラマティックルールに基づいて各コード実行結果を評価するための革新的なタスク – 関数 – コード(TFC)フレームワークを提案します。
実験フレームワークでは、6つのAPIベースのモデル、8つのオープンソースの一般モデル、および収集した多様なプロンプトのセットを使用して、9つのオープンソースコード生成モデルをテストすることが含まれます。
このアプローチは、データサイエンスにおけるLLMのより包括的かつ厳密な評価を提供し、その長所と短所を明らかにすることを目的としています。
実験結果は、APIベースのモデルがすべてのメトリックのオープンソースモデルを上回ることを示しており、DeepSeek-Coder-33B-Instructがオープンソースモデルの中で最高のスコアを達成することを示しています。
https://github.com/thudm/datascibenchですべてのコードとデータをリリースします。

要約(オリジナル)

This paper presents DataSciBench, a comprehensive benchmark for evaluating Large Language Model (LLM) capabilities in data science. Recent related benchmarks have primarily focused on single tasks, easily obtainable ground truth, and straightforward evaluation metrics, which limits the scope of tasks that can be evaluated. In contrast, DataSciBench is constructed based on a more comprehensive and curated collection of natural and challenging prompts for uncertain ground truth and evaluation metrics. We develop a semi-automated pipeline for generating ground truth (GT) and validating evaluation metrics. This pipeline utilizes and implements an LLM-based self-consistency and human verification strategy to produce accurate GT by leveraging collected prompts, predefined task types, and aggregate functions (metrics). Furthermore, we propose an innovative Task – Function – Code (TFC) framework to assess each code execution outcome based on precisely defined metrics and programmatic rules. Our experimental framework involves testing 6 API-based models, 8 open-source general models, and 9 open-source code generation models using the diverse set of prompts we have gathered. This approach aims to provide a more comprehensive and rigorous evaluation of LLMs in data science, revealing their strengths and weaknesses. Experimental results demonstrate that API-based models outperform open-sourced models on all metrics and Deepseek-Coder-33B-Instruct achieves the highest score among open-sourced models. We release all code and data at https://github.com/THUDM/DataSciBench.

arxiv情報

著者 Dan Zhang,Sining Zhoubian,Min Cai,Fengzu Li,Lekang Yang,Wei Wang,Tianjiao Dong,Ziniu Hu,Jie Tang,Yisong Yue
発行日 2025-02-19 17:31:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | DataSciBench: An LLM Agent Benchmark for Data Science はコメントを受け付けていません

Partially Observable Gaussian Process Network and Doubly Stochastic Variational Inference

要約

ガウスプロセス(GP)の次元の呪いを減らすために、それらは、低次元の結合されたサブプロセスのガウスプロセスネットワーク(GPN)に分解できます。
場合によっては、GPN内で中間観測が利用可能です。
ただし、中間観測はしばしば間接的で、騒々しく、ほとんどの現実世界のシステムでは不完全です。
この作業では、部分的に観察可能なガウスプロセスネットワーク(POGPN)を導入して、実際のプロセスネットワークをモデル化します。
サブプロセスの潜在機能の共同分布をモデル化し、すべてのサブプロセスからの観測を使用して推論を行います。
POGPNは、観測レンズ(観測可能性)を、深いガウスプロセスの確立された推論方法に組み込みます。
また、POPGNの2つのトレーニング方法を導入して、ノード観測を使用してネットワーク全体で推論を行います。
ベンチマークの問題へのアプリケーションは、トレーニングと推論中に部分的な観測を組み込むことで、ネットワーク全体の予測パフォーマンスを改善し、その実用的なアプリケーションの見通しを提供する方法を示しています。

要約(オリジナル)

To reduce the curse of dimensionality for Gaussian processes (GP), they can be decomposed into a Gaussian Process Network (GPN) of coupled subprocesses with lower dimensionality. In some cases, intermediate observations are available within the GPN. However, intermediate observations are often indirect, noisy, and incomplete in most real-world systems. This work introduces the Partially Observable Gaussian Process Network (POGPN) to model real-world process networks. We model a joint distribution of latent functions of subprocesses and make inferences using observations from all subprocesses. POGPN incorporates observation lenses (observation likelihoods) into the well-established inference method of deep Gaussian processes. We also introduce two training methods for POPGN to make inferences on the whole network using node observations. The application to benchmark problems demonstrates how incorporating partial observations during training and inference can improve the predictive performance of the overall network, offering a promising outlook for its practical application.

arxiv情報

著者 Saksham Kiroriwal,Julius Pfrommer,Jürgen Beyerer
発行日 2025-02-19 17:39:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Partially Observable Gaussian Process Network and Doubly Stochastic Variational Inference はコメントを受け付けていません

Lost in Sequence: Do Large Language Models Understand Sequential Recommendation?

要約

最近、大規模な言語モデル(LLMS)は、高度なテキスト理解能力とコンテキスト認識のおかげで、推奨の有望なツールとして浮上しています。
順次推奨シナリオの下で、LLMベースの推奨事項(LLM4REC)モデルのトレーニングと評価の現在の慣行にもかかわらず、これらのモデルがユーザーのアイテムインタラクションシーケンスに固有のシーケンシャル情報を理解しているかどうかは、ほとんど見落とされていることがわかりました。
この論文では、最初に一連の実験を通して、既存のLLM4RECモデルがトレーニングと推論中に連続した情報を完全にキャプチャしないことを示します。
次に、LLM-SRECと呼ばれるシンプルで効果的なLLMベースのシーケンシャル推奨を提案します。これは、事前に訓練されたCF-SRECモデルから抽出されたユーザー表現をLLMSに抽出することにより、LLMSへのシーケンシャル情報の統合を強化する方法です。
当社の広範な実験は、LLM-SRECがユーザーのアイテムの相互作用シーケンスを理解するLLMSの能力を高め、最終的に推奨パフォーマンスの向上につながることを示しています。
さらに、LLMの微調整を必要とする既存のLLM4RECモデルとは異なり、LLM-SRECは、いくつかの軽量MLPのみをトレーニングすることで最先端のパフォーマンスを実現し、実際のアプリケーションでの実用性を強調します。
私たちのコードは、https://github.com/sein-kim/llm-srecで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have recently emerged as promising tools for recommendation thanks to their advanced textual understanding ability and context-awareness. Despite the current practice of training and evaluating LLM-based recommendation (LLM4Rec) models under a sequential recommendation scenario, we found that whether these models understand the sequential information inherent in users’ item interaction sequences has been largely overlooked. In this paper, we first demonstrate through a series of experiments that existing LLM4Rec models do not fully capture sequential information both during training and inference. Then, we propose a simple yet effective LLM-based sequential recommender, called LLM-SRec, a method that enhances the integration of sequential information into LLMs by distilling the user representations extracted from a pre-trained CF-SRec model into LLMs. Our extensive experiments show that LLM-SRec enhances LLMs’ ability to understand users’ item interaction sequences, ultimately leading to improved recommendation performance. Furthermore, unlike existing LLM4Rec models that require fine-tuning of LLMs, LLM-SRec achieves state-of-the-art performance by training only a few lightweight MLPs, highlighting its practicality in real-world applications. Our code is available at https://github.com/Sein-Kim/LLM-SRec.

arxiv情報

著者 Sein Kim,Hongseok Kang,Kibum Kim,Jiwan Kim,Donghyun Kim,Minchul Yang,Kwangjin Oh,Julian McAuley,Chanyoung Park
発行日 2025-02-19 17:41:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Lost in Sequence: Do Large Language Models Understand Sequential Recommendation? はコメントを受け付けていません

How Do LLMs Perform Two-Hop Reasoning in Context?

要約

「ソクラテスは人間です。
すべての人間は致命的です。
したがって、ソクラテスは致命的です。」
この古典的な例は、2つのホップの推論を示しており、結論は2つの接続された施設から論理的に続きます。
トランスベースの大手言語モデル(LLMS)は2ホップの推論を行うことができますが、気を散らす施設に直面した場合、ランダムな推測に崩壊する傾向があります。
基礎となるメカニズムを理解するために、合成2ホップの推論タスクで3層トランスを訓練します。
トレーニングダイナミクスは2つの段階を示しています。3層トランスがLLMSのようなランダム推測を実行する遅い学習フェーズ、続いて急激な位相遷移が続き、3層トランスが突然100%$の精度に達します。
リバースエンジニアリングを通じて、モデルが最初に気晴らしの間でランダムに推測することを学習する方法と、最終的に気晴らしを無視することを学ぶ方法についての内部メカニズムを説明します。
さらに、トランスのトレーニングダイナミクスに対するメカニズムの因果関係をサポートする3パラメーターモデルを提案します。
最後に、LLMの実験は、発見されたメカニズムがスケール全体で一般化することを示唆しています。
私たちの方法論は、LLMの科学的理解のための新しい視点を提供し、私たちの調査結果は、トレーニング中に推論がどのように現れるかについての新しい洞察を提供します。

要約(オリジナル)

‘Socrates is human. All humans are mortal. Therefore, Socrates is mortal.’ This classical example demonstrates two-hop reasoning, where a conclusion logically follows from two connected premises. While transformer-based Large Language Models (LLMs) can make two-hop reasoning, they tend to collapse to random guessing when faced with distracting premises. To understand the underlying mechanism, we train a three-layer transformer on synthetic two-hop reasoning tasks. The training dynamics show two stages: a slow learning phase, where the 3-layer transformer performs random guessing like LLMs, followed by an abrupt phase transitions, where the 3-layer transformer suddenly reaches $100%$ accuracy. Through reverse engineering, we explain the inner mechanisms for how models learn to randomly guess between distractions initially, and how they learn to ignore distractions eventually. We further propose a three-parameter model that supports the causal claims for the mechanisms to the training dynamics of the transformer. Finally, experiments on LLMs suggest that the discovered mechanisms generalize across scales. Our methodologies provide new perspectives for scientific understandings of LLMs and our findings provide new insights into how reasoning emerges during training.

arxiv情報

著者 Tianyu Guo,Hanlin Zhu,Ruiqi Zhang,Jiantao Jiao,Song Mei,Michael I. Jordan,Stuart Russell
発行日 2025-02-19 17:46:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | How Do LLMs Perform Two-Hop Reasoning in Context? はコメントを受け付けていません