Steel-LLM:From Scratch to Open Source — A Personal Journey in Building a Chinese-Centric LLM

要約

Steel-LLMは、計算リソースが限られているにもかかわらず、高品質のオープンソースモデルを作成することを目的として、ゼロから開発された中国中心の言語モデルです。
2024年3月に開始されたこのプロジェクトは、大規模なデータセットで1億パラメーターモデルをトレーニングし、透明性とコミュニティの他の人を支援する実用的な洞察の共有を優先することを目的としています。
トレーニングプロセスは主に中国のデータに焦点を当てており、英語のデータのごく一部が含まれており、モデル構築の旅のより詳細かつ実用的なアカウントを提供することにより、既存のオープンソースLLMのギャップに対処しました。
Steel-LLMは、CEVALやCMMLUなどのベンチマークで競争力のあるパフォーマンスを実証しており、大規模な機関からの初期モデルよりも優れています。
このペーパーでは、データ収集、モデル設計、トレーニング方法論、途中で遭遇した課題など、プロジェクトの重要な貢献の包括的な要約を提供し、独自のLLMを開発しようとしている研究者や実践者に貴重なリソースを提供します。
モデルチェックポイントとトレーニングスクリプトは、https://github.com/zhanshijinwat/steel-llmで入手できます。

要約(オリジナル)

Steel-LLM is a Chinese-centric language model developed from scratch with the goal of creating a high-quality, open-source model despite limited computational resources. Launched in March 2024, the project aimed to train a 1-billion-parameter model on a large-scale dataset, prioritizing transparency and the sharing of practical insights to assist others in the community. The training process primarily focused on Chinese data, with a small proportion of English data included, addressing gaps in existing open-source LLMs by providing a more detailed and practical account of the model-building journey. Steel-LLM has demonstrated competitive performance on benchmarks such as CEVAL and CMMLU, outperforming early models from larger institutions. This paper provides a comprehensive summary of the project’s key contributions, including data collection, model design, training methodologies, and the challenges encountered along the way, offering a valuable resource for researchers and practitioners looking to develop their own LLMs. The model checkpoints and training script are available at https://github.com/zhanshijinwat/Steel-LLM.

arxiv情報

著者 Qingshui Gu,Shu Li,Tianyu Zheng,Zhaoxiang Zhang
発行日 2025-02-10 16:31:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Steel-LLM:From Scratch to Open Source — A Personal Journey in Building a Chinese-Centric LLM はコメントを受け付けていません

Embodied Red Teaming for Auditing Robotic Foundation Models

要約

言語条件付きロボットモデルには、ロボットが自然言語の指示に基づいて幅広いタスクを実行できるようにする可能性があります。
ただし、単一のタスクを表現できるすべての異なる方法をテストすることが困難であるため、安全性と有効性を評価することは依然として困難です。
現在のベンチマークには2つの重要な制限があります。それらは、限られた人間で生成された指示のセットに依存し、多くの困難なケースを欠いており、損害を避けるなど、安全性を評価することなくタスクのパフォーマンスにのみ焦点を当てています。
これらのギャップに対処するために、これらのモデルをテストするための多様で挑戦的な指示を生成する新しい評価方法であるEmbodied Red Teaming(ERT)を紹介します。
ERTは、Vision言語モデル(VLM)を備えた自動レッドチーム化手法を使用して、コンテキストに基づいた困難な指示を作成します。
実験結果は、最先端の言語で調整されたロボットモデルが、ERT生成された命令で失敗または安全ではないことを示しており、現実世界のパフォーマンスと安全性を評価する際の現在のベンチマークの欠点を強調しています。
コードとビデオは、https://s-karnik.github.io/embodied-red-team-project-pageで入手できます。

要約(オリジナル)

Language-conditioned robot models have the potential to enable robots to perform a wide range of tasks based on natural language instructions. However, assessing their safety and effectiveness remains challenging because it is difficult to test all the different ways a single task can be phrased. Current benchmarks have two key limitations: they rely on a limited set of human-generated instructions, missing many challenging cases, and focus only on task performance without assessing safety, such as avoiding damage. To address these gaps, we introduce Embodied Red Teaming (ERT), a new evaluation method that generates diverse and challenging instructions to test these models. ERT uses automated red teaming techniques with Vision Language Models (VLMs) to create contextually grounded, difficult instructions. Experimental results show that state-of-the-art language-conditioned robot models fail or behave unsafely on ERT-generated instructions, underscoring the shortcomings of current benchmarks in evaluating real-world performance and safety. Code and videos are available at: https://s-karnik.github.io/embodied-red-team-project-page.

arxiv情報

著者 Sathwik Karnik,Zhang-Wei Hong,Nishant Abhangi,Yen-Chen Lin,Tsun-Hsuan Wang,Christophe Dupuy,Rahul Gupta,Pulkit Agrawal
発行日 2025-02-10 16:32:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Embodied Red Teaming for Auditing Robotic Foundation Models はコメントを受け付けていません

Understanding and Mitigating the Bias Inheritance in LLM-based Data Augmentation on Downstream Tasks

要約

大規模な言語モデル(LLM)自体を介して合成データセットを生成することは、LLMパフォーマンスを改善するための有望なアプローチとして浮上しています。
ただし、LLMは本質的にトレーニングデータに存在するバイアスを反映しており、重要な課題につながります。これらのモデルがトレーニングのために合成データを生成すると、下流タスクのモデルの公平性と堅牢性に大きな影響を与える可能性のある固有のバイアスを伝播して増幅する可能性があります。
バイアス継承と呼ばれます。
この作業は、バイアス相続の理解、分析、および緩和に関する最初の体系的な調査を提示します。
この問題は、バイアス比が増強されたデータの割合を表す元のデータとLLMの高級データで構成される複合データセットを使用してLLMを微調整して研究します。
10の分類および生成タスクにわたる体系的な実験を通じて、さまざまなバイアス比で6種類のバイアスがどのように現れるかを分析します。
私たちの結果は、バイアス継承が下流のタスクに微妙な影響を及ぼし、分類タスクと生成タスクの両方に異なる影響を与えることを明らかにしています。
次に、分析では、値の不整列、グループデータ、およびデータ分布の3つの重要な不整合係数を特定します。
これらの洞察に基づいて、トークンベース、マスクベース、および損失ベースのアプローチの3つの緩和戦略を提案します。
実験は、これらの戦略がさまざまなタスクやバイアスでも異なる動作をしていることを示しており、バイアス継承を完全に軽減するための実質的な課題を示しています。
この作業がLLMデータ増強の研究に貴重な洞察を提供できることを願っています。

要約(オリジナル)

Generating synthetic datasets via large language models (LLMs) themselves has emerged as a promising approach to improve LLM performance. However, LLMs inherently reflect biases present in their training data, leading to a critical challenge: when these models generate synthetic data for training, they may propagate and amplify their inherent biases that can significantly impact model fairness and robustness on downstream tasks–a phenomenon we term bias inheritance. This work presents the first systematic investigation in understanding, analyzing, and mitigating bias inheritance. We study this problem by fine-tuning LLMs with a combined dataset consisting of original and LLM-augmented data, where bias ratio represents the proportion of augmented data. Through systematic experiments across 10 classification and generation tasks, we analyze how 6 different types of biases manifest at varying bias ratios. Our results reveal that bias inheritance has nuanced effects on downstream tasks, influencing both classification tasks and generation tasks differently. Then, our analysis identifies three key misalignment factors: misalignment of values, group data, and data distributions. Based on these insights, we propose three mitigation strategies: token-based, mask-based, and loss-based approaches. Experiments demonstrate that these strategies also work differently on various tasks and bias, indicating the substantial challenges to fully mitigate bias inheritance. We hope this work can provide valuable insights to the research of LLM data augmentation.

arxiv情報

著者 Miaomiao Li,Hao Chen,Yang Wang,Tingyuan Zhu,Weijia Zhang,Kaijie Zhu,Kam-Fai Wong,Jindong Wang
発行日 2025-02-10 16:34:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Understanding and Mitigating the Bias Inheritance in LLM-based Data Augmentation on Downstream Tasks はコメントを受け付けていません

The 2021 Tokyo Olympics Multilingual News Article Dataset

要約

この論文では、2021年の東京オリンピックをカバーする多言語ニュース記事のデータセットを紹介します。
合計10,940のニュース記事が1,918の異なる出版社から集められ、2021年のオリンピックの1,350のサブイベントをカバーし、2021年7月1日と2021年8月14日の間に出版されました。これらの記事は、異なる言語家族の9つの言語で書かれています。
さまざまなスクリプト。
データセットを作成するために、RAWニュース記事は、ニュース記事を収集および分析するサービスを介して最初に取得されました。
次に、記事はオンラインクラスタリングアルゴリズムを使用してグループ化され、各グループには同じサブイベントに関する記事が含まれています。
最後に、グループに手動で注釈が付けられ、評価されました。
このデータセットの開発は、限られたデータセットが利用可能な多言語ニュースクラスタリングアルゴリズムのパフォーマンスを評価するためのリソースを提供することを目的としています。
また、2021年の東京オリンピックのダイナミクスとイベントをさまざまな視点から分析するためにも使用できます。
データセットはCSV形式で利用可能で、Clarin.siリポジトリからアクセスできます。

要約(オリジナル)

In this paper, we introduce a dataset of multilingual news articles covering the 2021 Tokyo Olympics. A total of 10,940 news articles were gathered from 1,918 different publishers, covering 1,350 sub-events of the 2021 Olympics, and published between July 1, 2021, and August 14, 2021. These articles are written in nine languages from different language families and in different scripts. To create the dataset, the raw news articles were first retrieved via a service that collects and analyzes news articles. Then, the articles were grouped using an online clustering algorithm, with each group containing articles reporting on the same sub-event. Finally, the groups were manually annotated and evaluated. The development of this dataset aims to provide a resource for evaluating the performance of multilingual news clustering algorithms, for which limited datasets are available. It can also be used to analyze the dynamics and events of the 2021 Tokyo Olympics from different perspectives. The dataset is available in CSV format and can be accessed from the CLARIN.SI repository.

arxiv情報

著者 Erik Novak,Erik Calcina,Dunja Mladenić,Marko Grobelnik
発行日 2025-02-10 16:38:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | The 2021 Tokyo Olympics Multilingual News Article Dataset はコメントを受け付けていません

Unbiased Evaluation of Large Language Models from a Causal Perspective

要約

ベンチマークの汚染は、LLM評価コミュニティで大きな懸念事項となっています。
前のエージェントとしてのエージェントは、質問の生成にエージェントを関与させることにより、この問題に対処します。
彼らの成功にもかかわらず、エージェントとしてのエージェントとしてのバイアスは、ほとんど未踏のままです。
この論文では、評価バイアスの理論的定式化を提示し、偏りのない評価プロトコルの設計に関する貴重な洞察を提供します。
さらに、エージェントとしてのエージェントとしての2つのタイプのバイアスを、慎重に設計されたエージェントとしてのエージェントとしての最小限のエージェントのセットアップで慎重に設計されたプローブタスクを識別します。
これらの問題に対処するために、偏見のない評価者を提案します。これは、LLMS.Extiveの実験のより包括的で公平で解釈可能な評価を提供する評価プロトコルであり、現在のLLMの改善の重要な余地を明らかにしています。
さらに、公平な評価者がベンチマーク汚染の強力な証拠を提供するだけでなく、解釈可能な評価結果も提供することを実証します。

要約(オリジナル)

Benchmark contamination has become a significant concern in the LLM evaluation community. Previous Agents-as-an-Evaluator address this issue by involving agents in the generation of questions. Despite their success, the biases in Agents-as-an-Evaluator methods remain largely unexplored. In this paper, we present a theoretical formulation of evaluation bias, providing valuable insights into designing unbiased evaluation protocols. Furthermore, we identify two type of bias in Agents-as-an-Evaluator through carefully designed probing tasks on a minimal Agents-as-an-Evaluator setup. To address these issues, we propose the Unbiased Evaluator, an evaluation protocol that delivers a more comprehensive, unbiased, and interpretable assessment of LLMs.Extensive experiments reveal significant room for improvement in current LLMs. Additionally, we demonstrate that the Unbiased Evaluator not only offers strong evidence of benchmark contamination but also provides interpretable evaluation results.

arxiv情報

著者 Meilin Chen,Jian Tian,Liang Ma,Di Xie,Weijie Chen,Jiang Zhu
発行日 2025-02-10 16:45:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Unbiased Evaluation of Large Language Models from a Causal Perspective はコメントを受け付けていません

A Frontier AI Risk Management Framework: Bridging the Gap Between Current AI Practices and Established Risk Management

要約

強力なAIシステムの最近の開発は、AI業界における堅牢なリスク管理フレームワークの必要性を強調しています。
企業は安全フレームワークを実装し始めていますが、現在のアプローチには、他の高リスク産業で見られる体系的な厳密さがしばしば欠けています。
このペーパーでは、確立されたリスク管理の原則を新たなAI固有の実践と統合することにより、このギャップを橋渡しするフロンティアAIの開発のための包括的なリスク管理フレームワークを提示します。
フレームワークは、(1)リスクの識別(文献レビュー、オープンエンドの赤チーム化、およびリスクモデリングを通じて)、(2)定量的メトリックと明確に定義されたしきい値を使用したリスク分析と評価、(3)リスク治療を使用した4つの重要なコンポーネントで構成されています。
封じ込め、展開制御、保証プロセスなどの緩和策、および(4)明確な組織構造と説明責任を確立するリスクガバナンスを通じて。
AIの独自の課題を考慮しながら、航空や原子力などの成熟した産業のベストプラクティスから引き出されたこのフレームワークは、AI開発者に堅牢なリスク管理を実装するための実用的なガイドラインを提供します。
このペーパーでは、AIシステムのライフサイクル全体で、計画から展開まで、各コンポーネントをどのように実装すべきかを詳しく説明し、それに関連する負担を最小限に抑えるために、最終的なトレーニング実行の前にリスク管理作業を実施することの重要性と実現可能性を強調しています。

要約(オリジナル)

The recent development of powerful AI systems has highlighted the need for robust risk management frameworks in the AI industry. Although companies have begun to implement safety frameworks, current approaches often lack the systematic rigor found in other high-risk industries. This paper presents a comprehensive risk management framework for the development of frontier AI that bridges this gap by integrating established risk management principles with emerging AI-specific practices. The framework consists of four key components: (1) risk identification (through literature review, open-ended red-teaming, and risk modeling), (2) risk analysis and evaluation using quantitative metrics and clearly defined thresholds, (3) risk treatment through mitigation measures such as containment, deployment controls, and assurance processes, and (4) risk governance establishing clear organizational structures and accountability. Drawing from best practices in mature industries such as aviation or nuclear power, while accounting for AI’s unique challenges, this framework provides AI developers with actionable guidelines for implementing robust risk management. The paper details how each component should be implemented throughout the life-cycle of the AI system – from planning through deployment – and emphasizes the importance and feasibility of conducting risk management work prior to the final training run to minimize the burden associated with it.

arxiv情報

著者 Simeon Campos,Henry Papadatos,Fabien Roger,Chloé Touzet,Malcolm Murray,Otter Quarks
発行日 2025-02-10 16:47:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A Frontier AI Risk Management Framework: Bridging the Gap Between Current AI Practices and Established Risk Management はコメントを受け付けていません

Evaluation of Deep Audio Representations for Hearables

要約

効果的に聞こえるデバイスには、ユーザーの周りの音響環境を理解する必要があります。
サウンドシーンの計算分析では、ファンデーションモデルが最先端として登場し、高性能で堅牢な多目的オーディオ表現を生み出しています。
聞くことができるために必須の音響特性をキャプチャする際の基礎モデルの有効性を評価するための最初のデータセットとベンチマークであるオーディオ表現(DEAR)の深い評価を紹介してリリースします。
データセットには、1,158のオーディオトラックが含まれており、それぞれ30秒の長さのオーディオトラックがあり、独自のモノローグと日常の音響シーンの商業的な高品質の録音と空間的に混合することによって作成されています。
当社のベンチマークには、オーディオシーンの一般的なコンテキスト、音声源、および技術的な音響特性を評価する8つのタスクが含まれます。
4つの汎用オーディオ表現モデルの評価を通じて、Beatsモデルがカウンターパートを大幅に上回ることを示します。
この優位性は、多様なオーディオコレクションでトレーニングされたモデルの利点を強調し、聞くことができるステアリングに必要な環境特性をエンコードするなど、幅広い聴覚タスクへの適用性を確認します。
親愛なるデータセットと関連するコードは、https://dear-dataset.github.ioで入手できます。

要約(オリジナル)

Effectively steering hearable devices requires understanding the acoustic environment around the user. In the computational analysis of sound scenes, foundation models have emerged as the state of the art to produce high-performance, robust, multi-purpose audio representations. We introduce and release Deep Evaluation of Audio Representations (DEAR), the first dataset and benchmark to evaluate the efficacy of foundation models in capturing essential acoustic properties for hearables. The dataset includes 1,158 audio tracks, each 30 seconds long, created by spatially mixing proprietary monologues with commercial, high-quality recordings of everyday acoustic scenes. Our benchmark encompasses eight tasks that assess the general context, speech sources, and technical acoustic properties of the audio scenes. Through our evaluation of four general-purpose audio representation models, we demonstrate that the BEATs model significantly surpasses its counterparts. This superiority underscores the advantage of models trained on diverse audio collections, confirming their applicability to a wide array of auditory tasks, including encoding the environment properties necessary for hearable steering. The DEAR dataset and associated code are available at https://dear-dataset.github.io.

arxiv情報

著者 Fabian Gröger,Pascal Baumann,Ludovic Amruthalingam,Laurent Simon,Ruksana Giurda,Simone Lionetti
発行日 2025-02-10 16:51:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD | Evaluation of Deep Audio Representations for Hearables はコメントを受け付けていません

Automatic Evaluation of Healthcare LLMs Beyond Question-Answering

要約

現在の大規模な言語モデル(LLMS)ベンチマークは、多くの場合、人間の労働の要件を回避する自由または密接なQA評価に基づいています。
密接な測定値は、応答の事実を評価しますが、表現力がありません。
オープンエンドでは、談話の反応を生み出すモデルの能力をキャプチャしますが、正確性を評価するのは困難です。
これらの2つのアプローチは、独立または一緒に一般的に使用されますが、その関係はよく理解されていません。
この作業は、事実と談話の両方が非常に重要なヘルスケアドメインに焦点を当てています。
ヘルスケアLLM評価のための包括的な多軸スイートを導入し、オープンベンチマークとメトリックの間の相関関係を調査します。
調査結果には、盲点と現在の方法論の重複が含まれます。
更新された正気チェックとして、オープンバリアントと閉じたバリアントの両方を使用して、新しい医療ベンチマーク(Careqa)をリリースします。
最後に、特定された制限を緩和するために、自由回答形式の評価(溶解した困惑)のための新しいメトリックを提案します。

要約(オリジナル)

Current Large Language Models (LLMs) benchmarks are often based on open-ended or close-ended QA evaluations, avoiding the requirement of human labor. Close-ended measurements evaluate the factuality of responses but lack expressiveness. Open-ended capture the model’s capacity to produce discourse responses but are harder to assess for correctness. These two approaches are commonly used, either independently or together, though their relationship remains poorly understood. This work is focused on the healthcare domain, where both factuality and discourse matter greatly. It introduces a comprehensive, multi-axis suite for healthcare LLM evaluation, exploring correlations between open and close benchmarks and metrics. Findings include blind spots and overlaps in current methodologies. As an updated sanity check, we release a new medical benchmark–CareQA–, with both open and closed variants. Finally, we propose a novel metric for open-ended evaluations –Relaxed Perplexity– to mitigate the identified limitations.

arxiv情報

著者 Anna Arias-Duart,Pablo Agustin Martin-Torres,Daniel Hinjos,Pablo Bernabeu-Perez,Lucia Urcelay Ganzabal,Marta Gonzalez Mallo,Ashwin Kumar Gururajan,Enrique Lopez-Cuena,Sergio Alvarez-Napagao,Dario Garcia-Gasulla
発行日 2025-02-10 16:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Automatic Evaluation of Healthcare LLMs Beyond Question-Answering はコメントを受け付けていません

Boosting Self-Efficacy and Performance of Large Language Models via Verbal Efficacy Stimulations

要約

大規模な言語モデル(LLMS)のゼロショット機能で大幅な改善が観察されています。
入力に対する感度が高いため、研究は、複雑なドメイン適応ではなく、直接的でシンプルな迅速なエンジニアリングを介してLLMSのパフォーマンスを向上させることにますます焦点を当てています。
研究は、LLMが感情的な知性を示すことを示唆しており、ポジティブな感情と否定的な感情の両方がタスクのパフォーマンスを潜在的に強化する可能性があることを示唆しています。
ただし、以前の相互作用プロンプトは、主に単一の刺激タイプに集中しており、さまざまな刺激効果を比較したり、さまざまなタスクの難しさの影響を調べたり、基礎となるメカニズムを調査したりすることを怠っています。
この論文は、社会的認知理論における自己効力感とタスクのパフォーマンスとの正の相関に触発され、言葉による有効性刺激(VES)を導入します。
私たちのVESは、3種類の口頭プロンプトで構成されています。励まし、挑発的、批判的で、有用性や能力などの6つの側面に対処します。
また、さまざまなレベルの難易度で言語モデルの自己効力感とタスクの成果にどのように影響するかを広く調査することを目指して、タスクの難易度をさらに分類します。
実験結果は、3種類のVEがほとんどのタスクでのLLMのパフォーマンスを改善し、最も効果的なVEはモデルによって異なることを示しています。
広範な実験では、心理的理論と一致するいくつかの発見を得て、将来の研究のための新しい洞察を提供しました。

要約(オリジナル)

Significant improvements have been observed in the zero-shot capabilities of the Large Language Models (LLMs). Due to their high sensitivity to input, research has increasingly focused on enhancing LLMs’ performance via direct and simple prompt engineering rather than intricate domain adaptation. Studies suggest that LLMs exhibit emotional intelligence, and both positive and negative emotions can potentially enhance task performances. However, prior interaction prompts have predominantly concentrated on a single stimulus type, neglecting to compare different stimulus effects, examine the influence of varying task difficulties, or explore underlying mechanisms. This paper, inspired by the positive correlation between self-efficacy and task performance within the social cognitive theory, introduces Verbal Efficacy Stimulations (VES). Our VES comprises three types of verbal prompts: encouraging, provocative, and critical, addressing six aspects such as helpfulness and competence. And we further categorize task difficulty, aiming to extensively investigate how distinct VES influence the self-efficacy and task achievements of language models at varied levels of difficulty. The experimental results show that the three types of VES improve the performance of LLMs on most tasks, and the most effective VES varies for different models. In extensive experiments, we have obtained some findings consistent with psychological theories, providing novel insights for future research.

arxiv情報

著者 Rui Chen,Tailai Peng,Xinran Xie,Dekun Lin,Zhe Cui,Zheng Chen
発行日 2025-02-10 16:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Boosting Self-Efficacy and Performance of Large Language Models via Verbal Efficacy Stimulations はコメントを受け付けていません

Predicting Molecular Ground-State Conformation via Conformation Optimization

要約

Predicting molecular ground-state conformation (i.e., energy-minimized conformation) is crucial for many chemical applications such as molecular docking and property prediction.
Classic energy-based simulation is time-consuming when solving this problem while existing learning-based methods have advantages in computational efficiency but sacrifice accuracy and interpretability.
In this work, we propose a novel and effective method to bridge the energy-based simulation and the learning-based strategy, which designs and learns a Wasserstein gradient flow-driven SE(3)-Transformer, called WGFormer, for molecular ground-state
立体構造予測。
Specifically, our method tackles this task within an auto-encoding framework, which encodes low-quality conformations by the proposed WGFormer and decodes corresponding ground-state conformations by an MLP.
Wgformerのアーキテクチャは、Wasserstein勾配の流れに対応しています。原子の潜在混合モデルで定義されたエネルギー関数を最小化することにより、分子コンフォメーションを最適化し、それによりパフォーマンスと解釈性を大幅に改善します。
広範な実験は、私たちの方法が一貫して最先端の競合他社よりも優れていることを示しており、分子の基底状態の立体構造を予測するための新しい洞察力のあるパラダイムを提供します。

要約(オリジナル)

Predicting molecular ground-state conformation (i.e., energy-minimized conformation) is crucial for many chemical applications such as molecular docking and property prediction. Classic energy-based simulation is time-consuming when solving this problem while existing learning-based methods have advantages in computational efficiency but sacrifice accuracy and interpretability. In this work, we propose a novel and effective method to bridge the energy-based simulation and the learning-based strategy, which designs and learns a Wasserstein gradient flow-driven SE(3)-Transformer, called WGFormer, for molecular ground-state conformation prediction. Specifically, our method tackles this task within an auto-encoding framework, which encodes low-quality conformations by the proposed WGFormer and decodes corresponding ground-state conformations by an MLP. The architecture of WGFormer corresponds to Wasserstein gradient flows — it optimizes molecular conformations by minimizing an energy function defined on the latent mixture models of atoms, thereby significantly improving performance and interpretability. Extensive experiments show that our method consistently outperforms state-of-the-art competitors, providing a new and insightful paradigm to predict molecular ground-state conformation.

arxiv情報

著者 Fanmeng Wang,Minjie Cheng,Hongteng Xu
発行日 2025-02-10 16:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.chem-ph, q-bio.BM | Predicting Molecular Ground-State Conformation via Conformation Optimization はコメントを受け付けていません