Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems

要約

人工知能(AI)の進歩は、自然科学の発見の新しいパラダイムを促進しています。
今日、AIは、幅広い空間的および時間的スケールで自然現象の理解を改善、加速、および可能にすることにより、自然科学を前進させ始めました。
新興の研究パラダイムであるAI4Scienceは、巨大で非常に学際的な分野であるという点でユニークです。
したがって、この分野の統一された技術的な扱いが必要ですが、挑戦的です。
この作業は、AI4Scienceのサブレアの技術的に徹底的な説明を提供することを目的としています。
つまり、量子、原子、および連続体システムのAI。
これらの領域は、物理的世界を亜原子(波動関数と電子密度)、原子(分子、タンパク質、材料、および相互作用)から、マクロ(流体、気候、地下)スケールに拡大し、AI4サイエンスの重要なサブエリアを形成することを目的としています。
これらの分野に焦点を当てるというユニークな利点は、それらが主に一連の課題を共有し、それによって統一された基礎的な治療を可能にすることです。
重要な一般的な課題は、深い学習方法による自然システムにおける物理学の第一原理、特に対称性をどのようにキャプチャするかです。
対称的な変換との等寛容を達成するための技術の詳細で直感的な説明を提供します。
また、説明可能性、分散除外の一般化、基礎と大規模な言語モデルによる知識移転、不確実性の定量化など、他の一般的な技術的課題についても説明します。
学習と教育を促進するために、有用であると判断したリソースの分類されたリストを提供します。
私たちは徹底的かつ統一されるよう努め、この最初の努力がAI4Scienceをさらに進めるためのより多くのコミュニティの関心と努力を引き起こすことを願っています。

要約(オリジナル)

Advances in artificial intelligence (AI) are fueling a new paradigm of discoveries in natural sciences. Today, AI has started to advance natural sciences by improving, accelerating, and enabling our understanding of natural phenomena at a wide range of spatial and temporal scales, giving rise to a new area of research known as AI for science (AI4Science). Being an emerging research paradigm, AI4Science is unique in that it is an enormous and highly interdisciplinary area. Thus, a unified and technical treatment of this field is needed yet challenging. This work aims to provide a technically thorough account of a subarea of AI4Science; namely, AI for quantum, atomistic, and continuum systems. These areas aim at understanding the physical world from the subatomic (wavefunctions and electron density), atomic (molecules, proteins, materials, and interactions), to macro (fluids, climate, and subsurface) scales and form an important subarea of AI4Science. A unique advantage of focusing on these areas is that they largely share a common set of challenges, thereby allowing a unified and foundational treatment. A key common challenge is how to capture physics first principles, especially symmetries, in natural systems by deep learning methods. We provide an in-depth yet intuitive account of techniques to achieve equivariance to symmetry transformations. We also discuss other common technical challenges, including explainability, out-of-distribution generalization, knowledge transfer with foundation and large language models, and uncertainty quantification. To facilitate learning and education, we provide categorized lists of resources that we found to be useful. We strive to be thorough and unified and hope this initial effort may trigger more community interests and efforts to further advance AI4Science.

arxiv情報

著者 Xuan Zhang,Limei Wang,Jacob Helwig,Youzhi Luo,Cong Fu,Yaochen Xie,Meng Liu,Yuchao Lin,Zhao Xu,Keqiang Yan,Keir Adams,Maurice Weiler,Xiner Li,Tianfan Fu,Yucheng Wang,Alex Strasser,Haiyang Yu,YuQing Xie,Xiang Fu,Shenglong Xu,Yi Liu,Yuanqi Du,Alexandra Saxton,Hongyi Ling,Hannah Lawrence,Hannes Stärk,Shurui Gui,Carl Edwards,Nicholas Gao,Adriana Ladera,Tailin Wu,Elyssa F. Hofgard,Aria Mansouri Tehrani,Rui Wang,Ameya Daigavane,Montgomery Bohde,Jerry Kurtin,Qian Huang,Tuong Phung,Minkai Xu,Chaitanya K. Joshi,Simon V. Mathis,Kamyar Azizzadenesheli,Ada Fang,Alán Aspuru-Guzik,Erik Bekkers,Michael Bronstein,Marinka Zitnik,Anima Anandkumar,Stefano Ermon,Pietro Liò,Rose Yu,Stephan Günnemann,Jure Leskovec,Heng Ji,Jimeng Sun,Regina Barzilay,Tommi Jaakkola,Connor W. Coley,Xiaoning Qian,Xiaofeng Qian,Tess Smidt,Shuiwang Ji
発行日 2025-02-26 18:45:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.comp-ph | Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems はコメントを受け付けていません

General Reasoning Requires Learning to Reason from the Get-go

要約

大規模な言語モデル(LLMS)は、人工的な有用な知能(AUI)を例示する、印象的な現実世界の有用性を実証しています。
しかし、適応的かつ堅牢に推論する能力 – 人工的な一般情報(AGI)の特徴 – は脆弱なままです。
LLMは、常識的な推論、プログラミング、数学で成功しているように見えますが、新しい文脈全体でアルゴリズムの理解を一般化するのに苦労しています。
難解なプログラミング言語でのアルゴリズムタスクを使用した実験は、LLMの推論がトレーニングデータに覆されており、その転送可能性が制限されていることを明らかにしています。
このような限られた移転可能性の根底にあるコア問題は、LLMSの推論と知識の結合であると仮定します。
AUIからAGIへの移行のために、3つの重要な方向を通して知識と推論を解き放つことを提案します。(1)RLを広く使用されている次のトークン予測前orの代替としてRLをゼロから使用するふりをすること、(2)合成タスクのカリキュラムを使用して、RLを学習するためにRLを学習するために、(2)
小さなコンテキストウィンドウを使用して機能して、トークン間のスプリアスな相関を活用します。
このような推論システムは、訓練された検索システムとナレッジストアとしての大規模な外部メモリバンクと相まって、既存のアーキテクチャのいくつかの制限を克服することができます。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated impressive real-world utility, exemplifying artificial useful intelligence (AUI). However, their ability to reason adaptively and robustly — the hallmarks of artificial general intelligence (AGI) — remains fragile. While LLMs seemingly succeed in commonsense reasoning, programming, and mathematics, they struggle to generalize algorithmic understanding across novel contexts. Our experiments with algorithmic tasks in esoteric programming languages reveal that LLM’s reasoning overfits to the training data and is limited in its transferability. We hypothesize that the core issue underlying such limited transferability is the coupling of reasoning and knowledge in LLMs. To transition from AUI to AGI, we propose disentangling knowledge and reasoning through three key directions: (1) pretaining to reason using RL from scratch as an alternative to the widely used next-token prediction pretraining, (2) using a curriculum of synthetic tasks to ease the learning of a \textit{reasoning prior} for RL that can then be transferred to natural language tasks, and (3) learning more generalizable reasoning functions using a small context window to reduce exploiting spurious correlations between tokens. Such a reasoning system coupled with a trained retrieval system and a large external memory bank as a knowledge store can overcome several limitations of existing architectures at learning to reason in novel scenarios.

arxiv情報

著者 Seungwook Han,Jyothish Pari,Samuel J. Gershman,Pulkit Agrawal
発行日 2025-02-26 18:51:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | General Reasoning Requires Learning to Reason from the Get-go はコメントを受け付けていません

Verde: Verification via Refereed Delegation for Machine Learning Programs

要約

推論、微調整、LLMのトレーニングを実行する機械学習プログラムは、一般に信頼されていない計算プロバイダーに委任されます。
クライアントに正確性保証を提供するために、審判委任の暗号化概念を機械学習設定に適応させることを提案します。
このアプローチにより、計算限定のクライアントは、少なくとも1つが正直な場合は、正しい結果を得ることを保証するために、プログラムを複数の信頼できない計算プロバイダーに委任できます。
MLプログラムの審議された委任は、2つの技術的ハードルを提起します。(1)紛争を解決するための仲裁プロトコルは、プロバイダーが出力で同意しない場合に紛争を解決し、(2)さまざまなハードウェアセットアップ全体でMLプログラムをビットワイズに再現する能力、(1)、私たちはVerdeを設計します。
(2)の場合、すべてのハードウェアで実行されるフローティングポイント操作の順序を制御することにより、ハードウェア「非決定的」を排除するライブラリであるRepops(再現可能な演算子)を構築します。
私たちの実装は、審判委任された代表団が、クライアントの強力な保証と、計算プロバイダーの実用的なオーバーヘッドの両方を達成することを示しています。

要約(オリジナル)

Machine learning programs, such as those performing inference, fine-tuning, and training of LLMs, are commonly delegated to untrusted compute providers. To provide correctness guarantees for the client, we propose adapting the cryptographic notion of refereed delegation to the machine learning setting. This approach enables a computationally limited client to delegate a program to multiple untrusted compute providers, with a guarantee of obtaining the correct result if at least one of them is honest. Refereed delegation of ML programs poses two technical hurdles: (1) an arbitration protocol to resolve disputes when compute providers disagree on the output, and (2) the ability to bitwise reproduce ML programs across different hardware setups, For (1), we design Verde, a dispute arbitration protocol that efficiently handles the large scale and graph-based computational model of modern ML programs. For (2), we build RepOps (Reproducible Operators), a library that eliminates hardware ‘non-determinism’ by controlling the order of floating point operations performed on all hardware. Our implementation shows that refereed delegation achieves both strong guarantees for clients and practical overheads for compute providers.

arxiv情報

著者 Arasu Arun,Adam St. Arnaud,Alexey Titov,Brian Wilcox,Viktor Kolobaric,Marc Brinkmann,Oguzhan Ersoy,Ben Fielding,Joseph Bonneau
発行日 2025-02-26 18:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Verde: Verification via Refereed Delegation for Machine Learning Programs はコメントを受け付けていません

Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

要約

科学的発見を加速する言語モデル(LMS)の可能性についての興奮が高まっています。
仮説を偽造することは、科学的進歩の鍵です。これにより、主張は時間の経過とともに繰り返し洗練されることができます。
このプロセスには、重要な研究者の努力、推論、および創意工夫が必要です。
しかし、LMSの現在のベンチマークは、挑戦するのではなく、ソリューションを生成する能力を主に評価しています。
私たちは、この逆能力を評価するベンチマークを開発することを提唱しています – 微妙に誤ったソリューションのカウンターエクサムプルを作成します。
このアプローチを実証するために、アルゴリズム問題解決のドメインから始めます。ここでは、コード実行を使用してカウンターエクサムプルを自動的に評価できます。
具体的には、Rebuteを紹介します。これは、最近の問題と、人間の専門家がカウンターエクサムプルを特定したプログラミングコンペティションからの誤った提出を含む動的に更新されるベンチマークです。
私たちの分析では、コード実行フィードバックを備えたOpenai O3-Mini(High)でさえ、最良の推論エージェントは、評価がこれらの問題の最大48%をゼロから解決する能力を示しているにもかかわらず、反論の誤ったソリューションの9%未満のカウンターエクサムプルを作成できることがわかります。
私たちの仕事は、誤ったソリューションを偽造するLMSの能力を評価し、強化することにおいて進歩することを願っています。これは、研究を加速し、信頼できる反射的推論を通じてモデルを自己改善するために重要な能力です。

要約(オリジナル)

There is growing excitement about the potential of Language Models (LMs) to accelerate scientific discovery. Falsifying hypotheses is key to scientific progress, as it allows claims to be iteratively refined over time. This process requires significant researcher effort, reasoning, and ingenuity. Yet current benchmarks for LMs predominantly assess their ability to generate solutions rather than challenge them. We advocate for developing benchmarks that evaluate this inverse capability – creating counterexamples for subtly incorrect solutions. To demonstrate this approach, we start with the domain of algorithmic problem solving, where counterexamples can be evaluated automatically using code execution. Specifically, we introduce REFUTE, a dynamically updating benchmark that includes recent problems and incorrect submissions from programming competitions, where human experts successfully identified counterexamples. Our analysis finds that the best reasoning agents, even OpenAI o3-mini (high) with code execution feedback, can create counterexamples for only <9% of incorrect solutions in REFUTE, even though ratings indicate its ability to solve up to 48% of these problems from scratch. We hope our work spurs progress in evaluating and enhancing LMs' ability to falsify incorrect solutions - a capability that is crucial for both accelerating research and making models self-improve through reliable reflective reasoning.

arxiv情報

著者 Shiven Sinha,Shashwat Goel,Ponnurangam Kumaraguru,Jonas Geiping,Matthias Bethge,Ameya Prabhu
発行日 2025-02-26 18:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE | Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation はコメントを受け付けていません

Isolating Language-Coding from Problem-Solving: Benchmarking LLMs with PseudoEval

要約

HumanvalやMBPPなどの大規模な言語モデル(LLMS)の既存のコード生成ベンチマークは、LLMSのエンドツーエンドパフォーマンスを研究するように設計されています。ベンチマークは、自然言語の問題説明を入力としてフィードし、特定のプログラミング言語で生成されたコードを調べます。
ただし、この方法で明らかにされた評価スコアは、LLMが問題解決機能や言語コーディング機能に苦労しているかどうかについて、コード生成のボトルネックについて少しヒントを提供します。
この質問に答えるために、擬似コード生成ベンチマークである擬似容積を構築します。
そうすることで、さまざまなプログラミング言語でのコード生成のボトルネックを分離して特定できます。
私たちの研究では、いくつかの興味深い発見が得られます。
たとえば、PythonプログラミングのLLMSのボトルネックが問題解決である一方で、言語コーディングでは比較的苦労していることを特定します。
また、我々の研究は、問題解決能力がプログラミング言語を越えて転送する可能性があることを示していますが、言語コーディングは、特に訓練されていないプログラミング言語でより多くの言語固有の努力が必要です。
最後に、既存のベンチマークの拡張を容易にするために、擬似量を構築するパイプラインをリリースします。
Pseudoevalは、https://anonymous.4open.science/r/pseudocodeacl25-7b74で入手できます。

要約(オリジナル)

Existing code generation benchmarks for Large Language Models (LLMs) such as HumanEval and MBPP are designed to study LLMs’ end-to-end performance, where the benchmarks feed a problem description in natural language as input and examine the generated code in specific programming languages. However, the evaluation scores revealed in this way provide a little hint as to the bottleneck of the code generation — whether LLMs are struggling with their problem-solving capability or language-coding capability. To answer this question, we construct PseudoEval, a multilingual code generation benchmark that provides a solution written in pseudocode as input. By doing so, the bottleneck of code generation in various programming languages could be isolated and identified. Our study yields several interesting findings. For example, we identify that the bottleneck of LLMs in Python programming is problem-solving, while Rust is struggling relatively more in language-coding. Also, our study indicates that problem-solving capability may transfer across programming languages, while language-coding needs more language-specific effort, especially for undertrained programming languages. Finally, we release the pipeline of constructing PseudoEval to facilitate the extension to existing benchmarks. PseudoEval is available at: https://anonymous.4open.science/r/PseudocodeACL25-7B74.

arxiv情報

著者 Jiarong Wu,Songqiang Chen,Jialun Cao,Hau Ching Lo,Shing-Chi Cheung
発行日 2025-02-26 14:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | Isolating Language-Coding from Problem-Solving: Benchmarking LLMs with PseudoEval はコメントを受け付けていません

When Personalization Meets Reality: A Multi-Faceted Analysis of Personalized Preference Learning

要約

人間のフィードバック(RLHF)からの強化学習は、大規模な言語モデル(LLM)を人間の好みに合わせて広く使用されていますが、通常、ユーザー全体で均質な好みを想定し、多様な人間の価値と少数派の視点を見落とします。
パーソナライズされた選好学習は、個々のユーザー向けの個別の好みを調整することによりこれに対処しますが、フィールドにはその有効性を評価するための標準化された方法がありません。
パフォーマンスだけでなく、公平性、意図しない効果、さまざまなレベルの好みの発散にわたって適応性を測定する多面的な評価フレームワークを提示します。
3つの優先データセットにわたって8つのパーソナライズ方法を比較する広範な実験により、ユーザーが強く同意しない場合、メソッド間のパフォーマンスの違いが36%に達する可能性があり、パーソナライズが最大20%の安全性の不整合を導入できることを実証します。
これらの調査結果は、より効果的で包括的な選好学習システムの開発を進めるための全体的な評価アプローチの重要なニーズを強調しています。

要約(オリジナル)

While Reinforcement Learning from Human Feedback (RLHF) is widely used to align Large Language Models (LLMs) with human preferences, it typically assumes homogeneous preferences across users, overlooking diverse human values and minority viewpoints. Although personalized preference learning addresses this by tailoring separate preferences for individual users, the field lacks standardized methods to assess its effectiveness. We present a multi-faceted evaluation framework that measures not only performance but also fairness, unintended effects, and adaptability across varying levels of preference divergence. Through extensive experiments comparing eight personalization methods across three preference datasets, we demonstrate that performance differences between methods could reach 36% when users strongly disagree, and personalization can introduce up to 20% safety misalignment. These findings highlight the critical need for holistic evaluation approaches to advance the development of more effective and inclusive preference learning systems.

arxiv情報

著者 Yijiang River Dong,Tiancheng Hu,Yinhong Liu,Ahmet Üstün,Nigel Collier
発行日 2025-02-26 14:14:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | When Personalization Meets Reality: A Multi-Faceted Analysis of Personalized Preference Learning はコメントを受け付けていません

Detecting Linguistic Indicators for Stereotype Assessment with Large Language Models

要約

社会的カテゴリとステレオタイプは言語に組み込まれており、データバイアスを大規模な言語モデル(LLM)に導入できます。
保護者にもかかわらず、これらのバイアスはモデルの動作に持続することが多く、潜在的に出力の表現上の危害につながる可能性があります。
社会言語研究は、ステレオタイプの形成に関する貴重な洞察を提供しますが、ステレオタイプ検出のためのNLPアプローチはこの基盤をめったに引き付けず、しばしば客観性、精度、解釈可能性を欠いています。
このギャップを埋めるために、この作業では、文のステレオタイプの言語指標を検出および定量化する新しいアプローチを提案します。
言語の強力な社会的カテゴリの定式化とステレオタイプを示す社会的カテゴリとステレオタイプコミュニケーション(SCSC)フレームワークから言語指標を導き出し、それらを使用して分類スキームを構築します。
このアプローチを自動化するために、コンテキスト内学習を使用してさまざまなLLMを指示して、LLMが言語特性を調べ、微調整された評価の基礎を提供する文にアプローチを適用します。
異なる言語指標の重要性の経験的評価に基づいて、ステレオタイプの言語指標を測定するスコアリング関数を学びます。
ステレオタイプの文章の注釈は、これらの指標がこれらの文に存在し、ステレオタイプの強さを説明していることを示しています。
モデルパフォーマンスの観点から、我々の結果は、モデルが一般に、カテゴリを示すために使用されるカテゴリラベルの言語指標の検出と分類においてうまく機能することを示していますが、関連する行動と特性を正しく評価するのに苦労することがあります。
プロンプト内でより少ないショットの例を使用すると、パフォーマンスが大幅に向上します。
llama-3.3-70b-instructとgpt-4は、mixtral-8x7b-instruct、gpt-4-mini、llama-3.1-8b-instructの結果を上回る同等の結果を達成するため、モデルのパフォーマンスはサイズとともに増加します。

要約(オリジナル)

Social categories and stereotypes are embedded in language and can introduce data bias into Large Language Models (LLMs). Despite safeguards, these biases often persist in model behavior, potentially leading to representational harm in outputs. While sociolinguistic research provides valuable insights into the formation of stereotypes, NLP approaches for stereotype detection rarely draw on this foundation and often lack objectivity, precision, and interpretability. To fill this gap, in this work we propose a new approach that detects and quantifies the linguistic indicators of stereotypes in a sentence. We derive linguistic indicators from the Social Category and Stereotype Communication (SCSC) framework which indicate strong social category formulation and stereotyping in language, and use them to build a categorization scheme. To automate this approach, we instruct different LLMs using in-context learning to apply the approach to a sentence, where the LLM examines the linguistic properties and provides a basis for a fine-grained assessment. Based on an empirical evaluation of the importance of different linguistic indicators, we learn a scoring function that measures the linguistic indicators of a stereotype. Our annotations of stereotyped sentences show that these indicators are present in these sentences and explain the strength of a stereotype. In terms of model performance, our results show that the models generally perform well in detecting and classifying linguistic indicators of category labels used to denote a category, but sometimes struggle to correctly evaluate the associated behaviors and characteristics. Using more few-shot examples within the prompts, significantly improves performance. Model performance increases with size, as Llama-3.3-70B-Instruct and GPT-4 achieve comparable results that surpass those of Mixtral-8x7B-Instruct, GPT-4-mini and Llama-3.1-8B-Instruct.

arxiv情報

著者 Rebekka Görge,Michael Mock,Héctor Allende-Cid
発行日 2025-02-26 14:15:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Detecting Linguistic Indicators for Stereotype Assessment with Large Language Models はコメントを受け付けていません

TestNUC: Enhancing Test-Time Computing Approaches through Neighboring Unlabeled Data Consistency

要約

推論中に追加の計算リソースを活用するテスト時間コンピューティングアプローチは、大きな言語モデルのパフォーマンスを向上させるのに効果的であることが証明されています。
この作業では、隣接する非標識データの局所的な一貫性を活用することにより、テスト時間予測を改善する新しい、直線的にスケーリングされるアプローチであるTestNucを紹介します。その例でのモデルの予測だけでなく、隣接する非標識インスタンスについても検討することにより、入力インスタンスを分類します。
目的の分類、トピックマイニング、ドメインの発見、感情検出にまたがる8つの多様なデータセットにわたってTestNucを評価し、標準の促しや自己整合などのベースライン方法よりも一貫した優位性を実証します。
さらに、TestNucは、既存のテスト時間コンピューティングアプローチとシームレスに統合され、パフォーマンスを大幅に向上させることができます。
私たちの分析により、TestNucは、無効なデータの量を増やし、異なる埋め込みモデルで堅牢に実行し、実際のアプリケーションで実用的であることが明らかになりました。
私たちのコードは、https://github.com/henrypengzou/testnucで入手できます。

要約(オリジナル)

Test-time computing approaches, which leverage additional computational resources during inference, have been proven effective in enhancing large language model performance. This work introduces a novel, linearly scaling approach, TestNUC, that improves test-time predictions by leveraging the local consistency of neighboring unlabeled data-it classifies an input instance by considering not only the model’s prediction on that instance but also on neighboring unlabeled instances. We evaluate TestNUC across eight diverse datasets, spanning intent classification, topic mining, domain discovery, and emotion detection, demonstrating its consistent superiority over baseline methods such as standard prompting and self-consistency. Furthermore, TestNUC can be seamlessly integrated with existing test-time computing approaches, substantially boosting their performance. Our analysis reveals that TestNUC scales effectively with increasing amounts of unlabeled data and performs robustly across different embedding models, making it practical for real-world applications. Our code is available at https://github.com/HenryPengZou/TestNUC.

arxiv情報

著者 Henry Peng Zou,Zhengyao Gu,Yue Zhou,Yankai Chen,Weizhi Zhang,Liancheng Fang,Yibo Wang,Yangning Li,Kay Liu,Philip S. Yu
発行日 2025-02-26 14:17:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | TestNUC: Enhancing Test-Time Computing Approaches through Neighboring Unlabeled Data Consistency はコメントを受け付けていません

FinMTEB: Finance Massive Text Embedding Benchmark

要約

埋め込みモデルは、さまざまなNLPアプリケーションで情報を表現および取得する上で重要な役割を果たします。
大規模な言語モデル(LLMS)の最近の進歩により、埋め込みモデルのパフォーマンスがさらに向上しました。
これらのモデルは一般的なデータセットでベンチマークされることがよくありますが、実際のアプリケーションはドメイン固有の評価を必要とします。
この作業では、金融ドメイン向けに設計されたMTEBの専門的な対応物であるFinance Massive Text Embedding Benchmark(Finmteb)を紹介します。
Finmtebは、金融ニュース記事、企業年次報告書、ESGレポート、規制申請、収益のコールトランスクリプトなど、中国と英語の両方で多様なテキストタイプをカバーする7つのタスクにわたる64の金融ドメイン固有の埋め込みデータセットで構成されています。
また、ペルソナベースのデータ合成方法を使用して、トレーニング用の多様な金融埋め込みタスクをカバーするために、金融に適合したモデルであるFIN-E5を開発します。
FIN-E5を含む15の埋め込みモデルの広範な評価を通じて、3つの重要な調査結果を示します。(1)汎用ベンチマークのパフォーマンスは、金融ドメインタスクとの限定的な相関を示しています。
(2)ドメインに適応したモデルは、一貫して汎用の対応物よりも優れています。
(3)驚くべきことに、単純な単語の袋(弓)アプローチは、金融セマンティックテキストの類似性(STS)タスクの洗練された密な埋め込みを上回り、密集した埋め込み技術の現在の制限を強調しています。
私たちの仕事は、金融NLPアプリケーションのための堅牢な評価フレームワークを確立し、ドメイン固有の埋め込みモデルを開発するための重要な洞察を提供します。

要約(オリジナル)

Embedding models play a crucial role in representing and retrieving information across various NLP applications. Recent advances in large language models (LLMs) have further enhanced the performance of embedding models. While these models are often benchmarked on general-purpose datasets, real-world applications demand domain-specific evaluation. In this work, we introduce the Finance Massive Text Embedding Benchmark (FinMTEB), a specialized counterpart to MTEB designed for the financial domain. FinMTEB comprises 64 financial domain-specific embedding datasets across 7 tasks that cover diverse textual types in both Chinese and English, such as financial news articles, corporate annual reports, ESG reports, regulatory filings, and earnings call transcripts. We also develop a finance-adapted model, Fin-E5, using a persona-based data synthetic method to cover diverse financial embedding tasks for training. Through extensive evaluation of 15 embedding models, including Fin-E5, we show three key findings: (1) performance on general-purpose benchmarks shows limited correlation with financial domain tasks; (2) domain-adapted models consistently outperform their general-purpose counterparts; and (3) surprisingly, a simple Bag-of-Words (BoW) approach outperforms sophisticated dense embeddings in financial Semantic Textual Similarity (STS) tasks, underscoring current limitations in dense embedding techniques. Our work establishes a robust evaluation framework for financial NLP applications and provides crucial insights for developing domain-specific embedding models.

arxiv情報

著者 Yixuan Tang,Yi Yang
発行日 2025-02-26 14:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | FinMTEB: Finance Massive Text Embedding Benchmark はコメントを受け付けていません

SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models

要約

大規模な言語モデル(LLMS)の急速な発展により、完全に微調整された(FT)これらのモデルは、高い計算需要のためにますます非現実的になっています。
さらに、FTは壊滅的な忘却につながる可能性があります。
別の方法として、低ランクの適応(LORA)が提案されています。これは、パラメーターのわずかなサブセットのみを微調整し、FTと同様のパフォーマンスを達成しながら、リソース要件を大幅に削減します。
しかし、ロラはFTの設計を継承しているため、壊滅的な忘却の問題は残っています。
これらの課題に対処するために、Securaを提案します。シグモイド強化CUR分解Loraは、微調整パフォーマンスを改善しながら壊滅的な忘却を緩和する新しいパラメーター効率の高い微調整(PEFT)バリアントです。
この方法では、パラメーターの保持と全体的なパフォーマンスを強化するために、新しい正規化手法であるSignormを紹介します。
Securaは、数学的問題解決(GSM8K)、挑戦的な質問(CNNDM)、翻訳(Newsde)、複雑な多肢選択式推論(Logiqa)など、さまざまなタスクで評価されています。
実験結果は、Securaが4つの多肢選択質問(MCQ)タスクで3.59%の平均微調整を達成し、GEMMA2 2B、QWEN2 1.5B、QWEN 2 7B、LLAMA3 8B、LLAMA38B、LLAMA3 8B、LLAMA3 8Bなどのモデルの5つの質問回答(QA)タスクで2.51%の改善を達成することを示しています。
さらに、Securaは優れた知識保持機能を実証し、16の継続的な学習テストにわたって基本的なLLM知識の70%以上の精度を維持し、エクスペリエンスリプレイ(ER)、シーケンシャル学習(SEQ)、EWC、I-Lora、およびCur-Loraを上回ることを維持します。

要約(オリジナル)

With the rapid development of large language models (LLMs), fully fine-tuning (FT) these models has become increasingly impractical due to the high computational demands. Additionally, FT can lead to catastrophic forgetting. As an alternative, Low-Rank Adaptation (LoRA) has been proposed, which fine-tunes only a small subset of parameters, achieving similar performance to FT while significantly reducing resource requirements. However, since LoRA inherits FT’s design, the issue of catastrophic forgetting remains. To address these challenges, we propose SECURA: Sigmoid-Enhanced CUR Decomposition LoRA, a novel parameter-efficient fine-tuning (PEFT) variant that mitigates catastrophic forgetting while improving fine-tuning performance. Our method introduces a new normalization technique, SigNorm, to enhance parameter retention and overall performance. SECURA has been evaluated on a variety of tasks, including mathematical problem-solving (GSM8K), challenging question-answering (CNNDM), translation (NewsDE), and complex multiple-choice reasoning (LogiQA). Experimental results show that SECURA achieves an average fine-tuning improvement of 3.59% across four multiple-choice question (MCQ) tasks and a 2.51% improvement across five question-answering (QA) tasks on models such as Gemma2 2b, Qwen2 1.5b, Qwen 2 7b, Llama3 8b, and Llama3.1 8b, compared to DoRA. Moreover, SECURA demonstrates superior knowledge retention capabilities, maintaining more than 70% accuracy on basic LLM knowledge across 16 continual learning tests, outperforming Experience Replay (ER), Sequential Learning (SEQ), EWC, I-LoRA, and CUR-LoRA.

arxiv情報

著者 Yuxuan Zhang
発行日 2025-02-26 14:27:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.6 | SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models はコメントを受け付けていません