CoE: Chain-of-Explanation via Automatic Visual Concept Circuit Description and Polysemanticity Quantification

要約

説明可能性は、ディープビジョンモデル(DVM)の幅広い展開に影響を与える重要な要因です。
コンセプトベースの事後説明方法は、モデルの決定に関するグローバルおよびローカルの両方の洞察を提供できます。
ただし、この分野の現在の方法は、グローバルな概念とローカル回路の正確で十分な言語説明を自動的に構築するために柔軟性がないという点で課題に直面しています。
特に、セマンティックビジュアルコンセプト(VC)の固有の多数性は、概念とDVMの解釈可能性を妨げ、これは厳しく過小評価されています。
この論文では、これらの問題に対処するために、概要(COE)アプローチを提案します。
具体的には、COEはVCSのデコードと説明を自動化して、グローバルな概念説明データセットを構築します。
さらに、モデルの説明可能性に対する多重化学性の効果を軽減するために、私たちは概念の多様性解体化とフィルタリングメカニズムを設計して、最も文脈的に関連する概念原子を区別します。
また、モデルの解釈可能性の尺度として、概念の多様性エントロピー(CPE)は、概念の不確実性の程度を定量化するために策定されています。
決定論的概念のモデリングは、不確実な概念原子分布にアップグレードされます。
最後に、COEは、コンセプト回路をトレースすることにより、DVMSの意思決定プロセスの言語局所的な説明を自動的に有効にします。
GPT-4Oおよびヒトベースの実験は、CPEの有効性とCOEの優位性を示しており、説明可能性スコアの点で36%の平均絶対改善を達成しています。

要約(オリジナル)

Explainability is a critical factor influencing the wide deployment of deep vision models (DVMs). Concept-based post-hoc explanation methods can provide both global and local insights into model decisions. However, current methods in this field face challenges in that they are inflexible to automatically construct accurate and sufficient linguistic explanations for global concepts and local circuits. Particularly, the intrinsic polysemanticity in semantic Visual Concepts (VCs) impedes the interpretability of concepts and DVMs, which is underestimated severely. In this paper, we propose a Chain-of-Explanation (CoE) approach to address these issues. Specifically, CoE automates the decoding and description of VCs to construct global concept explanation datasets. Further, to alleviate the effect of polysemanticity on model explainability, we design a concept polysemanticity disentanglement and filtering mechanism to distinguish the most contextually relevant concept atoms. Besides, a Concept Polysemanticity Entropy (CPE), as a measure of model interpretability, is formulated to quantify the degree of concept uncertainty. The modeling of deterministic concepts is upgraded to uncertain concept atom distributions. Finally, CoE automatically enables linguistic local explanations of the decision-making process of DVMs by tracing the concept circuit. GPT-4o and human-based experiments demonstrate the effectiveness of CPE and the superiority of CoE, achieving an average absolute improvement of 36% in terms of explainability scores.

arxiv情報

著者 Wenlong Yu,Qilong Wang,Chuang Liu,Dong Li,Qinghua Hu
発行日 2025-03-19 14:13:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | CoE: Chain-of-Explanation via Automatic Visual Concept Circuit Description and Polysemanticity Quantification はコメントを受け付けていません

DLPO: Towards a Robust, Efficient, and Generalizable Prompt Optimization Framework from a Deep-Learning Perspective

要約

大規模な言語モデル(LLM)は、主に適切に設計されたプロンプトによって駆動される多様なタスク全体で顕著な成功を収めています。
ただし、そのようなプロンプトを作成して選択するには、多くの場合、かなりの人間の努力が必要であり、そのスケーラビリティを大幅に制限します。
これを緩和するために、最近の研究では、有望なソリューションとして自動化された迅速な最適化が調査されています。
これらの努力にもかかわらず、既存の方法は依然として堅牢性、効率性、および一般化における重要な課題に直面しています。
これらの課題に体系的に対処するために、最初に経験的分析を実施して、現在の反射ベースの迅速な最適化パラダイムの制限を特定します。
これらの洞察に基づいて、私たちは、これらの概念をテキストベースのグラデーション最適化にシームレスに統合し、迅速な最適化のための従来の深い学習パラダイムに触発された7つの革新的なアプローチを提案します。
これらの進歩を通じて、私たちは前述の課題に徐々に取り組み、広範な実験を通じて方法を検証します。
私たちの研究は、将来の研究のための貴重なガイダンスを提供するだけでなく、迅速な最適化における課題と潜在的なソリューションの包括的な理解を提供することを願っています。
私たちのコードは、https://github.com/sfasfaffa/dlpoで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable success across diverse tasks, largely driven by well-designed prompts. However, crafting and selecting such prompts often requires considerable human effort, significantly limiting its scalability. To mitigate this, recent studies have explored automated prompt optimization as a promising solution. Despite these efforts, existing methods still face critical challenges in robustness, efficiency, and generalization. To systematically address these challenges, we first conduct an empirical analysis to identify the limitations of current reflection-based prompt optimization paradigm. Building on these insights, we propose 7 innovative approaches inspired by traditional deep learning paradigms for prompt optimization (DLPO), seamlessly integrating these concepts into text-based gradient optimization. Through these advancements, we progressively tackle the aforementioned challenges and validate our methods through extensive experimentation. We hope our study not only provides valuable guidance for future research but also offers a comprehensive understanding of the challenges and potential solutions in prompt optimization. Our code is available at https://github.com/sfasfaffa/DLPO.

arxiv情報

著者 Dengyun Peng,Yuhang Zhou,Qiguang Chen,Jinhao Liu,Jingjing Chen,Libo Qin
発行日 2025-03-19 14:18:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DLPO: Towards a Robust, Efficient, and Generalizable Prompt Optimization Framework from a Deep-Learning Perspective はコメントを受け付けていません

BigO(Bench) — Can LLMs Generate Code with Controlled Time and Space Complexity?

要約

指定された時間と空間の複雑さを伴うコードの理解と生成において、生成言語モデルの機能を評価するために設計された新しいコーディングベンチマークであるBigo(Bench)を紹介します。
このベンチマークは、モデルが計算の複雑さによって制約されたコードを理解および生成する能力をしばしば見落とす現在の評価のギャップに対処します。
BIGO(ベンチ)には、ヒトまたはLLM生成ソリューションを含むプロファイリング測定からのPython関数のアルゴリズムの複雑さを推測するためのツールが含まれています。
BIGO(Bench)には、3,105のコーディング問題のセットと、複雑さフレームワークから推測された(合成)時間と空間の複雑さが注釈が付けられたコードコンテストからの1,190,250のソリューション、および多数の入力サイズのセットの対応するランタイムとメモリフットプリント値も含まれています。
このベンチマークで複数の最先端の言語モデルを評価し、複雑さの要件を処理する際の長所と短所を強調した結果を示します。
特に、トークン空間推論モデルはコード生成では比類のないが、複雑さの理解ではないため、トレーニング時に報酬が与えられなかったタスクによく一般化できない可能性があることを示唆しています。

要約(オリジナル)

We introduce BigO(Bench), a novel coding benchmark designed to evaluate the capabilities of generative language models in understanding and generating code with specified time and space complexities. This benchmark addresses the gap in current evaluations that often overlook the ability of models to comprehend and produce code constrained by computational complexity. BigO(Bench) includes tooling to infer the algorithmic complexity of any Python function from profiling measurements, including human- or LLM-generated solutions. BigO(Bench) also includes of set of 3,105 coding problems and 1,190,250 solutions from Code Contests annotated with inferred (synthetic) time and space complexity labels from the complexity framework, as well as corresponding runtime and memory footprint values for a large set of input sizes. We present results from evaluating multiple state-of-the-art language models on this benchmark, highlighting their strengths and weaknesses in handling complexity requirements. In particular, token-space reasoning models are unrivaled in code generation but not in complexity understanding, hinting that they may not generalize well to tasks for which no reward was given at training time.

arxiv情報

著者 Pierre Chambon,Baptiste Roziere,Benoit Sagot,Gabriel Synnaeve
発行日 2025-03-19 14:19:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.CL | BigO(Bench) — Can LLMs Generate Code with Controlled Time and Space Complexity? はコメントを受け付けていません

Automated Non-Functional Requirements Generation in Software Engineering with Large Language Models: A Comparative Study

要約

ソフトウェア開発の早い段階で非機能的要件(NFR)を無視すると、重大な課題につながる可能性があります。
それらの重要性にもかかわらず、NFRはしばしば見落とされているか、特定が困難であり、ソフトウェアの品質に影響を与えます。
NFRを誘発する要件エンジニアをサポートするために、機能要件(FRS)から品質主導のNFRを導き出すために大規模な言語モデル(LLM)を活用するフレームワークを開発しました。
デノベースのパイプライン内でカスタムプロンプト手法を使用して、システムは各機能要件に関連する品質属性を識別し、対応するNFRを生成し、体系的な統合を支援します。
重要な側面は、これらの生成された要件の品質と適合性を評価することです。
LLMは高品質のNFRの提案を生成できますか?
34の機能要件を使用 – 3,964 FRS -LLMSの代表的なサブセットとして選択され、ISO/IEC 25010:2023標準に基づいて適用可能な属性を推測し、1,593 NFRを生成します。
水平評価では、NFRの妥当性、品質属性の適用可能性、および分類精度の3つの次元をカバーしました。
平均して13年の経験がある業界のソフトウェア品質評価者10人が、関連性と品質についてサブセットを評価しました。
この評価では、LLMが生成したNFRと専門家評価の間の強い整合性を示し、1〜5スケールで5.0(平均:4.63と4.59)の妥当性と適用性スコアの中央値と適用性スコアが示されました。
分類タスクでは、LLMが割り当てられた属性の80.4%が専門家の選択肢と一致し、8.3%のニアミスと11.3%のミスマッチがありました。
8つのLLMSの比較分析は、パフォーマンスの変動を強調し、Gemini-1.5-Proが最高の属性の精度を示し、Llama-3.3-70bはより高い妥当性と適用性スコアを達成しました。
これらの調査結果は、自動化されたNFR生成にLLMを使用する可能性に関する洞察を提供し、AIアシスト要件エンジニアリングのさらなる調査の基礎を築きます。

要約(オリジナル)

Neglecting non-functional requirements (NFRs) early in software development can lead to critical challenges. Despite their importance, NFRs are often overlooked or difficult to identify, impacting software quality. To support requirements engineers in eliciting NFRs, we developed a framework that leverages Large Language Models (LLMs) to derive quality-driven NFRs from functional requirements (FRs). Using a custom prompting technique within a Deno-based pipeline, the system identifies relevant quality attributes for each functional requirement and generates corresponding NFRs, aiding systematic integration. A crucial aspect is evaluating the quality and suitability of these generated requirements. Can LLMs produce high-quality NFR suggestions? Using 34 functional requirements – selected as a representative subset of 3,964 FRs-the LLMs inferred applicable attributes based on the ISO/IEC 25010:2023 standard, generating 1,593 NFRs. A horizontal evaluation covered three dimensions: NFR validity, applicability of quality attributes, and classification precision. Ten industry software quality evaluators, averaging 13 years of experience, assessed a subset for relevance and quality. The evaluation showed strong alignment between LLM-generated NFRs and expert assessments, with median validity and applicability scores of 5.0 (means: 4.63 and 4.59, respectively) on a 1-5 scale. In the classification task, 80.4% of LLM-assigned attributes matched expert choices, with 8.3% near misses and 11.3% mismatches. A comparative analysis of eight LLMs highlighted variations in performance, with gemini-1.5-pro exhibiting the highest attribute accuracy, while llama-3.3-70B achieved higher validity and applicability scores. These findings provide insights into the feasibility of using LLMs for automated NFR generation and lay the foundation for further exploration of AI-assisted requirements engineering.

arxiv情報

著者 Jomar Thomas Almonte,Santhosh Anitha Boominathan,Nathalia Nascimento
発行日 2025-03-19 14:23:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Automated Non-Functional Requirements Generation in Software Engineering with Large Language Models: A Comparative Study はコメントを受け付けていません

Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration

要約

嗜好ベースのフィードバックは、報酬機能の評価が実行不可能な機械学習における多くのアプリケーションにとって重要です。
注目すべき最近の例は、人間のフィードバック(RLHF)からの補強学習や直接選好最適化(DPO)を含む、大規模な言語モデルの優先アライメントで発生します。
優先アライメントの多くのアプリケーションでは、人間のフィードバックを取得するコストは相当な場合があります。
この作業では、多くの場合、人間のフィードバックを得るためのコンテキストを選択して、最も効率的に優れたポリシーを特定し、設定をアクティブなコンテキストの決闘の盗賊問題として形式化できるという事実を利用します。
データを効率的に選択し、多項式最悪のケース後悔があるという理論的証明を提供するためのアクティブな探索アルゴリズムを提案します。
大規模な言語モデルの好みのアラインメントにおいて、実践のための設定と方法論を拡張します。
オンラインとオフラインアプローチの2つの拡張機能を提供します。
私たちの方法は、いくつかの言語モデルでの人間の好みのサンプルが限られているベースラインと、文献に貢献する2つの新しいデータセットを含む4つの実際のデータセットを上回ります。

要約(オリジナル)

Preference-based feedback is important for many applications in machine learning where evaluation of a reward function is not feasible. Notable recent examples arise in preference alignment for large language models, including in reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO). For many applications of preference alignment, the cost of acquiring human feedback can be substantial. In this work, we take advantage of the fact that one can often choose contexts at which to obtain human feedback to most efficiently identify a good policy, and formalize the setting as an active contextual dueling bandit problem. We propose an active exploration algorithm to efficiently select the data and provide theoretical proof that it has a polynomial worst-case regret bound. We extend the setting and methodology for practical use in preference alignment of large language models. We provide two extensions, an online and an offline approach. Our method outperforms the baselines with limited samples of human preferences on several language models and four real-world datasets including two new datasets that we contribute to the literature.

arxiv情報

著者 Viraj Mehta,Syrine Belakaria,Vikramjeet Das,Ojash Neopane,Yijia Dai,Ilija Bogunovic,Barbara Engelhardt,Stefano Ermon,Jeff Schneider,Willie Neiswanger
発行日 2025-03-19 14:23:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration はコメントを受け付けていません

Do Chains-of-Thoughts of Large Language Models Suffer from Hallucinations, Cognitive Biases, or Phobias in Bayesian Reasoning?

要約

議論を推論し、慎重に説明することを学ぶことは、学生の認知、数学、および計算の思考開発の中心です。
これは、不確実性とベイジアンの推論における問題において特に困難です。
チェーンオブシャーチ(COT)を使用して推論できる新世代の大規模な言語モデル(LLM)により、人工的な内部声との対話を通して彼らの推論を説明する際に、彼らと一緒に学ぶ絶好の機会があります。
ベイジアンの推論を学ぶ魅力的で素晴らしい機会です。
さらに、異なるLLMが反対のソリューションに到達することがあることを考えると、COTは推論の詳細な比較により、深い学習の機会を生み出します。
しかし、人間とは異なり、自然周波数、オブジェクト全体、具体化されたヒューリスティックなどの生態学的に有効な戦略を使用して自律的に説明していないことがわかりました。
これらの戦略は、人間が批判的な間違いを避け、ベイジアンの推論において教育学的価値を証明するのに役立つため、これは残念です。
これらのバイアスを克服し、理解と学習を支援するために、LLMがこれらの戦略を使用するように誘導するプロンプトを含めました。
COTを備えたLLMはそれらを組み込んでいますが、一貫してではないことがわかりました。
それらは、生態学的に有効な戦略の象徴的な推論と回避または恐怖症に向けて持続的なバイアスを示しています。

要約(オリジナル)

Learning to reason and carefully explain arguments is central to students’ cognitive, mathematical, and computational thinking development. This is particularly challenging in problems under uncertainty and in Bayesian reasoning. With the new generation of large language models (LLMs) capable of reasoning using Chain-of-Thought (CoT), there is an excellent opportunity to learn with them as they explain their reasoning through a dialogue with their artificial internal voice. It is an engaging and excellent opportunity to learn Bayesian reasoning. Furthermore, given that different LLMs sometimes arrive at opposite solutions, CoT generates opportunities for deep learning by detailed comparisons of reasonings. However, unlike humans, we found that they do not autonomously explain using ecologically valid strategies like natural frequencies, whole objects, and embodied heuristics. This is unfortunate, as these strategies help humans avoid critical mistakes and have proven pedagogical value in Bayesian reasoning. In order to overcome these biases and aid understanding and learning, we included prompts that induce LLMs to use these strategies. We found that LLMs with CoT incorporate them but not consistently. They show persistent biases towards symbolic reasoning and avoidance or phobia of ecologically valid strategies.

arxiv情報

著者 Roberto Araya
発行日 2025-03-19 14:44:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, I.2.0 | Do Chains-of-Thoughts of Large Language Models Suffer from Hallucinations, Cognitive Biases, or Phobias in Bayesian Reasoning? はコメントを受け付けていません

MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration

要約

モデル間のマルチエージェントのコラボレーションは、推論タスクで有望であることを示していますが、要約や質問を回答するなどの長期的な生成タスクでは不足しています。
マルチエージェントマルチモデルの推論は、特に洗練による忠実さを改善するために、つまりモデル生成の出力を改訂して事実上の矛盾を除去するために拡張します。
複数のインスタンスとタイプの大規模な言語モデル(LLM)間の反復コラボレーションが、エラー検出、不誠実な文の批評、批評に基づいて修正を行うなど、改良プロセスのサブタスクをどのように強化するかを調査します。
各サブタスクの固有の評価を設計します。調査結果は、マルチエージェント(複数のインスタンス)とマルチモデル(多様なLLMタイプ)の両方が利益エラー検出と批評に近づくことを示しています。
さらに、批評と改良を生成タスクではなく再ランキングとして再構成すると、マルチエージェントのパフォーマンスが向上します。
これらの洞察を、マルチエージェントマルチモデル洗練(MAMM-Refine)と呼ばれる最終的な「レシピ」に統合します。マルチエージェントおよびマルチモデルコラボレーションは、3つの要約データセットのパフォーマンスを大幅に向上させ、長期の質問に応答し、レシピの有効性と一般化可能性を実証します。

要約(オリジナル)

Multi-agent collaboration among models has shown promise in reasoning tasks but is underexplored in long-form generation tasks like summarization and question-answering. We extend multi-agent multi-model reasoning to generation, specifically to improving faithfulness through refinement, i.e., revising model-generated outputs to remove factual inconsistencies. We investigate how iterative collaboration among multiple instances and types of large language models (LLMs) enhances subtasks in the refinement process, such as error detection, critiquing unfaithful sentences, and making corrections based on critiques. We design intrinsic evaluations for each subtask, with our findings indicating that both multi-agent (multiple instances) and multi-model (diverse LLM types) approaches benefit error detection and critiquing. Additionally, reframing critiquing and refinement as reranking rather than generation tasks improves multi-agent performance. We consolidate these insights into a final ‘recipe’ called Multi-Agent Multi-Model Refinement (MAMM-Refine), where multi-agent and multi-model collaboration significantly boosts performance on three summarization datasets as well as on long-form question answering, demonstrating the effectiveness and generalizability of our recipe.

arxiv情報

著者 David Wan,Justin Chih-Yao Chen,Elias Stengel-Eskin,Mohit Bansal
発行日 2025-03-19 14:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration はコメントを受け付けていません

AI-driven control of bioelectric signalling for real-time topological reorganization of cells

要約

生体電気シグナル伝達の理解と操作は、発達生物学、再生医療、および合成生物学の新しい進歩の波を提示する可能性があります。
イオン運動によって引き起こされる細胞膜全体の電圧勾配として定義される生体電気シグナルは、細胞分化、増殖、アポトーシス、および組織形態形成などの重要なプロセスの調節に役割を果たします。
最近の研究は、これらのシグナルを調節して、平面やカエルなどの生物の制御された組織の再生と形態学的転帰を達成する能力を示しています。
しかし、特に膜電位の空間的および時間的ダイナミクスを予測および制御し(V_MEM)、組織と臓器の発達における規制の役割を理解し、病気の治療潜在性を調査することにおいて、重要な知識のギャップが残ります。
この作業では、組織の再生と形態形成を導くための生体電気信号のリアルタイム操作のためのラボオートメーション技術とともに、深い強化学習(DRL)フレームワークを使用した実験を提案します。
提案されたフレームワークは、生物学的システムと継続的に相互作用し、直接的な生物学的フィードバックに基づいて戦略を適応させる必要があります。
DRLと、光遺伝学、電圧感受性染料、蛍光レポーター、高度な顕微鏡などのリアルタイム測定技術を組み合わせることで、正確な生体電気制御のための包括的なプラットフォームを提供し、形態形成、最小実験モデルの識別モデル、および定量的生物電気モデルの識別、および定量的生物電気モデルの同定の生物電気メカニズムの理解を改善することができます。
再生医療および癌療法に関連しています。
最終的に、この研究の目的は、生体電気シグナル伝達を利用して、新しい生物医学およびバイオエンジニアリングアプリケーションを開発することです。

要約(オリジナル)

Understanding and manipulating bioelectric signaling could present a new wave of progress in developmental biology, regenerative medicine, and synthetic biology. Bioelectric signals, defined as voltage gradients across cell membranes caused by ionic movements, play a role in regulating crucial processes including cellular differentiation, proliferation, apoptosis, and tissue morphogenesis. Recent studies demonstrate the ability to modulate these signals to achieve controlled tissue regeneration and morphological outcomes in organisms such as planaria and frogs. However, significant knowledge gaps remain, particularly in predicting and controlling the spatial and temporal dynamics of membrane potentials (V_mem), understanding their regulatory roles in tissue and organ development, and exploring their therapeutic potential in diseases. In this work we propose an experiment using Deep Reinforcement Learning (DRL) framework together with lab automation techniques for real-time manipulation of bioelectric signals to guide tissue regeneration and morphogenesis. The proposed framework should interact continuously with biological systems, adapting strategies based on direct biological feedback. Combining DRL with real-time measurement techniques — such as optogenetics, voltage-sensitive dyes, fluorescent reporters, and advanced microscopy — could provide a comprehensive platform for precise bioelectric control, leading to improved understanding of bioelectric mechanisms in morphogenesis, quantitative bioelectric models, identification of minimal experimental setups, and advancements in bioelectric modulation techniques relevant to regenerative medicine and cancer therapy. Ultimately, this research aims to utilize bioelectric signaling to develop new biomedical and bioengineering applications.

arxiv情報

著者 Gonçalo Hora de Carvalho
発行日 2025-03-19 14:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY, physics.bio-ph, q-bio.CB, q-bio.QM | AI-driven control of bioelectric signalling for real-time topological reorganization of cells はコメントを受け付けていません

Ensemble Knowledge Distillation for Machine Learning Interatomic Potentials

要約

機械学習間原子間ポテンシャル(MLIP)は、原子論的シミュレーションと分子特性予測を加速するための有望なツールです。
MLIPの品質は、利用可能なトレーニングデータの量と、そのデータを生成するために使用される理論の量子化学(QC)レベルに強く依存します。
結合クラスターなどの高忠実度QCメソッドで生成されたデータセットは、通常、小分子に制限されており、エネルギー勾配が欠落している可能性があります。
この量のデータが限られているため、優れたMLIPモデルをトレーニングすることはしばしば困難です。
エネルギーのみのデータセットまでトレーニングされたときにMLIP精度を改善するためのアンサンブルナレッジ蒸留(EKD)方法を提示します。
EKDアプローチでは、最初に、複数の教師モデルがQCエネルギーにトレーニングされ、次にデータセット内のすべての構成の原子力を生成するために使用されます。
次に、学生のMLIPは、QCエネルギーと教師モデルによって生成されたアンサンブル平均力の両方にトレーニングされます。
このワークフローは、組み合わせたクラスターレベルの理論で計算された構成エネルギーを備えた有機分子で構成されるANI-1CCXデータセットに適用します。
結果として得られる学生MLIPは、サンプル外のCOMP6ベンチマークで新しい最先端の精度を達成し、分子動力学シミュレーションの安定性が向上します。
MLIPのEKDアプローチは、化学、生体分子、材料の科学シミュレーションに広く適用されます。

要約(オリジナル)

Machine learning interatomic potentials (MLIPs) are a promising tool to accelerate atomistic simulations and molecular property prediction. The quality of MLIPs strongly depends on the quantity of available training data as well as the quantum chemistry (QC) level of theory used to generate that data. Datasets generated with high-fidelity QC methods, such as coupled cluster, are typically restricted to small molecules and may be missing energy gradients. With this limited quantity of data, it is often difficult to train good MLIP models. We present an ensemble knowledge distillation (EKD) method to improve MLIP accuracy when trained to energy-only datasets. In our EKD approach, first, multiple teacher models are trained to QC energies and then used to generate atomic forces for all configurations in the dataset. Next, a student MLIP is trained to both QC energies and to ensemble-averaged forces generated by the teacher models. We apply this workflow on the ANI-1ccx dataset which consists of organic molecules with configuration energies computed at the coupled cluster level of theory. The resulting student MLIPs achieve new state-of-the-art accuracy on the out-of-sample COMP6 benchmark and improved stability for molecular dynamics simulations. The EKD approach for MLIP is broadly applicable for chemical, biomolecular and materials science simulations.

arxiv情報

著者 Sakib Matin,Emily Shinkle,Yulia Pimonova,Galen T. Craven,Aleksandra Pachalieva,Ying Wai Li,Kipton Barros,Nicholas Lubbers
発行日 2025-03-19 15:03:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.chem-ph | Ensemble Knowledge Distillation for Machine Learning Interatomic Potentials はコメントを受け付けていません

Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics

要約

大規模な言語モデル(LLMS)の最近の進歩により、会話エージェントとしてのさまざまなドメインでの適応が生まれました。
私たちは疑問に思っています:人間と同様に、それらの行動を分析するために、これらのエージェントに性格テストを適用できますか?
LLMSの性格を評価するために設計された8Kマルチ選択質問で構成される新しいベンチマークである特性を紹介します。
特性は、2つの心理測定的に検証された小さな人間のアンケート、ビッグファイブインベントリ(BFI)と短いダークトライアド(SD-3)に基づいて構築され、Atomic-10Xナレッジグラフでさまざまな現実世界のシナリオに強化されています。
また、特性は、信頼性と妥当性の点でLLMの既存の人格テストを上回り、コンテンツの妥当性、内部妥当性、拒否率、信頼性の4つの重要なメトリックで最高のスコアを達成します。
特性を使用して、LLMSの性格に関する2つの顕著な洞察を明らかにします。1)LLMSは、トレーニングデータ(たとえば、アライメントチューニングに使用されるデータなど)に大きく影響され、現在のプロンプトテクニックが、この方向性の必要性の必要性を示唆する特定の特性や低い特性などの特定の特性を誘発する際に限られた有効性を示します。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have led to their adaptation in various domains as conversational agents. We wonder: can personality tests be applied to these agents to analyze their behavior, similar to humans? We introduce TRAIT, a new benchmark consisting of 8K multi-choice questions designed to assess the personality of LLMs. TRAIT is built on two psychometrically validated small human questionnaires, Big Five Inventory (BFI) and Short Dark Triad (SD-3), enhanced with the ATOMIC-10X knowledge graph to a variety of real-world scenarios. TRAIT also outperforms existing personality tests for LLMs in terms of reliability and validity, achieving the highest scores across four key metrics: Content Validity, Internal Validity, Refusal Rate, and Reliability. Using TRAIT, we reveal two notable insights into personalities of LLMs: 1) LLMs exhibit distinct and consistent personality, which is highly influenced by their training data (e.g., data used for alignment tuning), and 2) current prompting techniques have limited effectiveness in eliciting certain traits, such as high psychopathy or low conscientiousness, suggesting the need for further research in this direction.

arxiv情報

著者 Seungbeen Lee,Seungwon Lim,Seungju Han,Giyeong Oh,Hyungjoo Chae,Jiwan Chung,Minju Kim,Beong-woo Kwak,Yeonsoo Lee,Dongha Lee,Jinyoung Yeo,Youngjae Yu
発行日 2025-03-19 15:37:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics はコメントを受け付けていません