Pap2Pat: Towards Automated Paper-to-Patent Drafting using Chunk-based Outline-guided Generation


特許ドメインは自然言語処理研究で注目を集めており、特許取得プロセスの合理化における実用的な応用を提供し、大規模言語モデル (LLM) に挑戦的なベンチマークを提供します。
現在のオープンウェイト LLM とアウトラインに基づくチャンクベースの生成を使った実験では、これらは論文の情報を効果的に利用できるものの、おそらく特許言語に固有の反復性が原因で、反復に苦労していることがわかりました。


The patent domain is gaining attention in natural language processing research, offering practical applications in streamlining the patenting process and providing challenging benchmarks for large language models (LLMs). However, the generation of the description sections of patents, which constitute more than 90% of the patent document, has not been studied to date. We address this gap by introducing the task of outline-guided paper-to-patent generation, where an academic paper provides the technical specification of the invention and an outline conveys the desired patent structure. We present PAP2PAT, a new challenging benchmark of 1.8k patent-paper pairs with document outlines, collected using heuristics that reflect typical research lab practices. Our experiments with current open-weight LLMs and outline-guided chunk-based generation show that they can effectively use information from the paper but struggle with repetitions, likely due to the inherent repetitiveness of patent language. We release our data and code.


著者 Valentin Knappich,Simon Razniewski,Anna Hätty,Annemarie Friedrich
発行日 2024-10-09 15:52:48+00:00
Tri-Level Navigator: LLM-Empowered Tri-Level Learning for Time Series OOD Generalization


機械学習における Out-of-Distribution (OOD) 一般化は、急成長している研究分野です。
その主な目標は、元のトレーニング データセットから大きく異なる、まだ見たことのない、敵対的な可能性のある新しいデータに直面したときの機械学習モデルの適応性と回復力を強化することです。
このペーパーでは、事前トレーニングされた大規模言語モデル (LLM) を介した時系列 OOD の一般化を調査します。
私たちは最初に、サンプルレベルとグループレベルの不確実性の両方を考慮する、TTSO と呼ばれる \textbf{T}ime \textbf{S}eries \textbf{O}OD 一般化のための新しい \textbf{T}ri レベルの学習フレームワークを提案します。

この式は、OOD 一般化問題の定式化と分析に新しい理論的観点を提供します。
次に、この 3 レベルの最適化問題に合わせて調整された層別位置推定アルゴリズムを開発し、提案されたアルゴリズムの収束が保証されていることを理論的に実証します。
私たちの分析では、$\epsilon$ 定常点を取得するための反復計算量が O($\frac{1}{\epsilon^{2}}$) によって制限されることも明らかになりました。


Out-of-Distribution (OOD) generalization in machine learning is a burgeoning area of study. Its primary goal is to enhance the adaptability and resilience of machine learning models when faced with new, unseen, and potentially adversarial data that significantly diverges from their original training datasets. In this paper, we investigate time series OOD generalization via pre-trained Large Language Models (LLMs). We first propose a novel \textbf{T}ri-level learning framework for \textbf{T}ime \textbf{S}eries \textbf{O}OD generalization, termed TTSO, which considers both sample-level and group-level uncertainties. This formula offers a fresh theoretic perspective for formulating and analyzing OOD generalization problem. In addition, we provide a theoretical analysis to justify this method is well motivated. We then develop a stratified localization algorithm tailored for this tri-level optimization problem, theoretically demonstrating the guaranteed convergence of the proposed algorithm. Our analysis also reveals that the iteration complexity to obtain an $\epsilon$-stationary point is bounded by O($\frac{1}{\epsilon^{2}}$). Extensive experiments on real-world datasets have been conducted to elucidate the effectiveness of the proposed method.


著者 Chengtao Jian,Kai Yang,Yang Jiao
発行日 2024-10-09 16:00:21+00:00
LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling law


事前トレーニングされた大規模言語モデル (LLM) は、時系列予測などのゼロショット タスクの実行において驚くほど効果的です。
私たちは、物理的関心の原理によって進化が支配される動的システムの挙動を推定する LLM の能力を研究します。
私たちの結果は、主にテキストでトレーニングされた言語モデルである LLaMA 2 が、微調整や迅速なエンジニアリングを行わなくても、動的システム時系列の正確な予測を達成できることを示しています。
さらに、学習された物理規則の精度は入力コンテキスト ウィンドウの長さに応じて増加し、ニューラル スケーリング則のコンテキスト内バージョンが明らかになります。
その過程で、LLM から直接複数桁の数値の確率密度関数を抽出するための柔軟で効率的なアルゴリズムを紹介します。


Pretrained large language models (LLMs) are surprisingly effective at performing zero-shot tasks, including time-series forecasting. However, understanding the mechanisms behind such capabilities remains highly challenging due to the complexity of the models. We study LLMs’ ability to extrapolate the behavior of dynamical systems whose evolution is governed by principles of physical interest. Our results show that LLaMA 2, a language model trained primarily on texts, achieves accurate predictions of dynamical system time series without fine-tuning or prompt engineering. Moreover, the accuracy of the learned physical rules increases with the length of the input context window, revealing an in-context version of neural scaling law. Along the way, we present a flexible and efficient algorithm for extracting probability density functions of multi-digit numbers directly from LLMs.


著者 Toni J. B. Liu,Nicolas Boullé,Raphaël Sarfati,Christopher J. Earls
発行日 2024-10-09 16:02:13+00:00
PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness


大規模言語モデル (LLM) は、ロールプレイング、クリエイティブ ライティング、数学的推論、コーディングなど、さまざまな領域にわたって優れた機能を実証します。
これらの進歩にもかかわらず、LLM は依然として長さ制御に関する課題に直面しており、トークンレベルの操作と厳密な長さ制限のあるデータに対するトレーニングが不十分であるため、特定の長さの制約を順守できないことがよくあります。
私たちは、この問題が位置認識の欠如に起因すると特定し、それに対処するための新しいアプローチ、PositionID Prompting および PositionID Fine-Tuning を提案します。
さらに、PositionID CP プロンプトを導入して、LLM がコピー アンド ペースト操作を正確に実行できるようにします。
さらに、長さの制御とコピー&ペーストの能力を評価するための 2 つのベンチマークを開発しました。


Large Language Models (LLMs) demonstrate impressive capabilities across various domains, including role-playing, creative writing, mathematical reasoning, and coding. Despite these advancements, LLMs still encounter challenges with length control, frequently failing to adhere to specific length constraints due to their token-level operations and insufficient training on data with strict length limitations. We identify this issue as stemming from a lack of positional awareness and propose novel approaches–PositionID Prompting and PositionID Fine-Tuning–to address it. These methods enhance the model’s ability to continuously monitor and manage text length during generation. Additionally, we introduce PositionID CP Prompting to enable LLMs to perform copy and paste operations accurately. Furthermore, we develop two benchmarks for evaluating length control and copy-paste abilities. Our experiments demonstrate that our methods significantly improve the model’s adherence to length constraints and copy-paste accuracy without compromising response quality.


著者 Zekun Wang,Feiyu Duan,Yibo Zhang,Wangchunshu Zhou,Ke Xu,Wenhao Huang,Jie Fu
発行日 2024-10-09 16:15:36+00:00
Emergent properties with repeated examples


最大公約数、モジュラー乗算、行列の固有値という 3 つの数学の問題に関して、固定数のトレーニング ステップでは、繰り返し使用されるサンプルのより小さなセットでトレーニングされたモデルが、単一使用のサンプルのより大きなセットでトレーニングされたモデルよりも優れたパフォーマンスを発揮することを示します。
また、2 セットのトレーニング (トレーニング セットの残りの通常のサンプリングに沿ってサンプルの小さなランダムなサブセットを繰り返し使用する) により、学習が高速化され、パフォーマンスが向上することも実証します。


We study the performance of transformers as a function of the number of repetitions of training examples with algorithmically generated datasets. On three problems of mathematics: the greatest common divisor, modular multiplication, and matrix eigenvalues, we show that for a fixed number of training steps, models trained on smaller sets of repeated examples outperform models trained on larger sets of single-use examples. We also demonstrate that two-set training – repeated use of a small random subset of examples, along normal sampling on the rest of the training set – provides for faster learning and better performance. This highlights that the benefits of repetition can outweigh those of data diversity. These datasets and problems provide a controlled setting to shed light on the still poorly understood interplay between generalization and memorization in deep learning.


著者 François Charton,Julia Kempe
発行日 2024-10-09 16:28:23+00:00
Greener GRASS: Enhancing GNNs with Encoding, Rewiring, and Attention


グラフ ニューラル ネットワーク (GNN) は、グラフ構造データの機械学習のための重要なツールとなっています。
この論文では、新しい GNN アーキテクチャである Graph Attendant with Stochastic Structures (GRASS) を導入することにより、グラフ エンコーディング、グラフの再配線、およびグラフ アテンションの相乗的な組み合わせを検討します。
GRASS は、相対ランダム ウォーク確率 (RRWP) エンコーディングと新しい分解バリアント (D-RRWP) を利用して、構造情報を効率的に取得します。
私たちの経験的評価は、GRASS が ZINC データセットでの平均絶対誤差の 20.3% 削減を含む、複数のベンチマーク データセットで最先端のパフォーマンスを達成することを示しています。


Graph Neural Networks (GNNs) have become important tools for machine learning on graph-structured data. In this paper, we explore the synergistic combination of graph encoding, graph rewiring, and graph attention, by introducing Graph Attention with Stochastic Structures (GRASS), a novel GNN architecture. GRASS utilizes relative random walk probabilities (RRWP) encoding and a novel decomposed variant (D-RRWP) to efficiently capture structural information. It rewires the input graph by superimposing a random regular graph to enhance long-range information propagation. It also employs a novel additive attention mechanism tailored for graph-structured data. Our empirical evaluations demonstrate that GRASS achieves state-of-the-art performance on multiple benchmark datasets, including a 20.3% reduction in mean absolute error on the ZINC dataset.


著者 Tongzhou Liao,Barnabás Póczos
発行日 2024-10-09 16:32:11+00:00
ReIFE: Re-evaluating Instruction-Following Evaluation


通常、次の指示の自動評価には、大規模言語モデル (LLM) を使用して応答の品質を評価することが含まれます。
ただし、これらの LLM ベースの評価器は、基本 LLM と評価プロトコルの 2 つの側面にわたる包括的な評価が不足しています。
したがって、我々は、人間が注釈を付けた 4 つのデータセットに対して、25 の基本 LLM と最近提案された 15 の評価プロトコルを含む、以下の指示の徹底的なメタ評価を提示し、LLM 評価者の評価精度を評価します。
私たちの評価により、高度な堅牢性を備えた最高のパフォーマンスのベース LLM と評価プロトコルを特定することができます。
さらに、私たちの大規模な評価では次のことが明らかになりました。(1) 基本 LLM パフォーマンス ランキングは評価プロトコル間でほぼ一貫しており、能力の低い LLM はプロトコルの拡張による大幅な改善を示しています。
(2) プロトコルの有効性は使用されるベース LLM に依存する可能性があるため、評価プロトコルの堅牢な評価には、さまざまな機能レベルを持つ多くのベース LLM が必要です。
(3) 異なるデータセットの評価結果は必ずしも一致するとは限らないため、厳密な評価には特徴のある複数のデータセットが必要です。
私たちはメタ評価スイート ReIFE をリリースします。これは、500 を超える LLM エバリュエーター構成のコードベースと評価結果のコレクションを提供し、指示に従う評価における将来の研究をサポートします。


The automatic evaluation of instruction following typically involves using large language models (LLMs) to assess response quality. However, there is a lack of comprehensive evaluation of these LLM-based evaluators across two dimensions: the base LLMs and the evaluation protocols. Therefore, we present a thorough meta-evaluation of instruction following, including 25 base LLMs and 15 recently proposed evaluation protocols, on 4 human-annotated datasets, assessing the evaluation accuracy of the LLM-evaluators. Our evaluation allows us to identify the best-performing base LLMs and evaluation protocols with a high degree of robustness. Moreover, our large-scale evaluation reveals: (1) Base LLM performance ranking remains largely consistent across evaluation protocols, with less capable LLMs showing greater improvement from protocol enhancements; (2) Robust evaluation of evaluation protocols requires many base LLMs with varying capability levels, as protocol effectiveness can depend on the base LLM used; (3) Evaluation results on different datasets are not always consistent, so a rigorous evaluation requires multiple datasets with distinctive features. We release our meta-evaluation suite ReIFE, which provides the codebase and evaluation result collection for more than 500 LLM-evaluator configurations, to support future research in instruction-following evaluation.


著者 Yixin Liu,Kejian Shi,Alexander R. Fabbri,Yilun Zhao,Peifeng Wang,Chien-Sheng Wu,Shafiq Joty,Arman Cohan
発行日 2024-10-09 17:14:50+00:00
Retrieval-Augmented Decision Transformer: External Memory for In-context RL


インコンテキスト学習 (ICL) は、コンテキスト内でいくつかのサンプルを観察することによって新しいタスクを学習するモデルの機能です。
この機能は NLP で広く普及していますが、最近では強化学習 (RL) 設定でも観察されています。
ただし、以前のインコンテキスト RL 方法では、エージェントのコンテキスト内にエピソード全体が必要です。
これらの課題に対処するために、検索拡張決定トランスフォーマー (RA-DT) を導入します。
RA-DT は外部メモリ メカニズムを採用して過去の経験を保存し、そこから現在の状況に関連するサブ軌道のみを取得します。
RA-DT の検索コンポーネントはトレーニングを必要とせず、完全にドメインに依存しません。
グリッドワールド環境、ロボット工学シミュレーション、手続き的に生成されたビデオ ゲームにおける RA-DT の機能を評価します。
グリッドワールドでは、RA-DT はコンテキストの長さの一部のみを使用しながら、ベースラインよりも優れたパフォーマンスを発揮します。
さらに、複雑な環境における現在のインコンテキスト RL 手法の限界を明らかにし、将来の方向性について議論します。
将来の研究を促進するために、検討されている 4 つの環境のデータセットをリリースします。


In-context learning (ICL) is the ability of a model to learn a new task by observing a few exemplars in its context. While prevalent in NLP, this capability has recently also been observed in Reinforcement Learning (RL) settings. Prior in-context RL methods, however, require entire episodes in the agent’s context. Given that complex environments typically lead to long episodes with sparse rewards, these methods are constrained to simple environments with short episodes. To address these challenges, we introduce Retrieval-Augmented Decision Transformer (RA-DT). RA-DT employs an external memory mechanism to store past experiences from which it retrieves only sub-trajectories relevant for the current situation. The retrieval component in RA-DT does not require training and can be entirely domain-agnostic. We evaluate the capabilities of RA-DT on grid-world environments, robotics simulations, and procedurally-generated video games. On grid-worlds, RA-DT outperforms baselines, while using only a fraction of their context length. Furthermore, we illuminate the limitations of current in-context RL methods on complex environments and discuss future directions. To facilitate future research, we release datasets for four of the considered environments.


著者 Thomas Schmied,Fabian Paischer,Vihang Patil,Markus Hofmarcher,Razvan Pascanu,Sepp Hochreiter
発行日 2024-10-09 17:15:30+00:00
ZS4C: Zero-Shot Synthesis of Compilable Code for Incomplete Code Snippets using LLMs


技術 Q&A サイトは、知識を求めるソフトウェア開発者にとって貴重ですが、そこで提供されるコード スニペットは、未解決の型や不足しているライブラリのためにコンパイルできず、不完全であることがよくあります。
これに対処するために、大規模言語モデル (LLM) を使用して不完全なスニペットからコンパイル可能なコードをゼロショット合成するための軽量アプローチである ZS4C を提案します。
ZS4C は 2 つの段階で動作します。まず、GPT-3.5 などの LLM を使用して、スニペット内の欠落しているインポート ステートメントを特定します。
2 番目に、バリデータ (コンパイラなど) と連携して、不適切なインポートや構文の問題によって引き起こされるコンパイル エラーを修正します。
私たちは、StatType-SO ベンチマークと、最も人気のある 20 個の Python ライブラリにわたる Stack Overflow の 539 個の Python スニペットを含む新しいデータセット Python-SO で ZS4C を評価しました。
ZS4C は既存の手法を大幅に上回り、最先端の SnR と比較してコンパイル率が 63% から 95.1% に向上し、50.1% の向上を記録しました。
平均して、ZS4C は SnR よりも正確なインポート ステートメント (F1 スコア 0.98) を推論でき、F1 では 8.5% の改善が見られます。


Technical Q&A sites are valuable for software developers seeking knowledge, but the code snippets they provide are often uncompilable and incomplete due to unresolved types and missing libraries. This poses a challenge for users who wish to reuse or analyze these snippets. Existing methods either do not focus on creating compilable code or have low success rates. To address this, we propose ZS4C, a lightweight approach for zero-shot synthesis of compilable code from incomplete snippets using Large Language Models (LLMs). ZS4C operates in two stages: first, it uses an LLM, like GPT-3.5, to identify missing import statements in a snippet; second, it collaborates with a validator (e.g., compiler) to fix compilation errors caused by incorrect imports and syntax issues. We evaluated ZS4C on the StatType-SO benchmark and a new dataset, Python-SO, which includes 539 Python snippets from Stack Overflow across the 20 most popular Python libraries. ZS4C significantly outperforms existing methods, improving the compilation rate from 63% to 95.1% compared to the state-of-the-art SnR, marking a 50.1% improvement. On average, ZS4C can infer more accurate import statements (with an F1 score of 0.98) than SnR, with an improvement of 8.5% in the F1.


著者 Azmain Kabir,Shaowei Wang,Yuan Tian,Tse-Hsun Chen,Muhammad Asaduzzaman,Wenbin Zhang
発行日 2024-10-09 17:19:47+00:00
MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses


科学的発見は人間社会の繁栄に大きく貢献しており、最近の進歩により、LLM がこのプロセスを促進する可能性があることが示されています。
ただし、LLM が化学において新規かつ有効な仮説を発見できるかどうかはまだ不明です。
この研究では、この中心的な研究課題を調査します。LLM は、化学研究の背景 (研究課題および/または背景調査で構成される) のみが与えられた場合に、研究課題の領域に制限されることなく、新しく有効な化学研究仮説を自動的に発見できるでしょうか。
この重要な洞察をもとに、中心となる質問を 3 つの小さな基本的な質問に分割します。
簡単に説明すると、(1) LLM が良いインスピレーションを引き出せるかどうかという背景的な質問が与えられます。
(2) 背景とインスピレーションとともに、LLM が仮説を導くことができるかどうか。
(3) LLM が優れた仮説を特定して上位にランク付けできるかどうか。
これらの疑問を調査するために、2024 年に Nature、Science、または同様のレベルで出版された 51 件の化学論文からなるベンチマークを構築しました (2024 年以降、すべての論文はオンラインでのみ入手可能です)。
すべての論文は化学博士課程の学生によって、背景、インスピレーション、仮説の 3 つの要素に分割されます。
目標は、背景と、2023 年までのデータでトレーニングされた LLM を使用して、グラウンド トゥルースのインスピレーション論文からなるランダムに選択された大規模な化学文献コーパスのみを与えて、仮説を再発見することです。また、LLM ベースのマルチエージェント フレームワークも開発します。
仮定は、3 つの小さな質問を反映する 3 つの段階で構成されます。


Scientific discovery contributes largely to human society’s prosperity, and recent progress shows that LLMs could potentially catalyze this process. However, it is still unclear whether LLMs can discover novel and valid hypotheses in chemistry. In this work, we investigate this central research question: Can LLMs automatically discover novel and valid chemistry research hypotheses given only a chemistry research background (consisting of a research question and/or a background survey), without limitation on the domain of the research question? After extensive discussions with chemistry experts, we propose an assumption that a majority of chemistry hypotheses can be resulted from a research background and several inspirations. With this key insight, we break the central question into three smaller fundamental questions. In brief, they are: (1) given a background question, whether LLMs can retrieve good inspirations; (2) with background and inspirations, whether LLMs can lead to hypothesis; and (3) whether LLMs can identify good hypotheses to rank them higher. To investigate these questions, we construct a benchmark consisting of 51 chemistry papers published in Nature, Science, or a similar level in 2024 (all papers are only available online since 2024). Every paper is divided by chemistry PhD students into three components: background, inspirations, and hypothesis. The goal is to rediscover the hypothesis, given only the background and a large randomly selected chemistry literature corpus consisting the ground truth inspiration papers, with LLMs trained with data up to 2023. We also develop an LLM-based multi-agent framework that leverages the assumption, consisting of three stages reflecting the three smaller questions. The proposed method can rediscover many hypotheses with very high similarity with the ground truth ones, covering the main innovations.


著者 Zonglin Yang,Wanhao Liu,Ben Gao,Tong Xie,Yuqiang Li,Wanli Ouyang,Soujanya Poria,Erik Cambria,Dongzhan Zhou
発行日 2024-10-09 17:19:58+00:00
