Fed-Joint: Joint Modeling of Nonlinear Degradation Signals and Failure Events for Remaining Useful Life Prediction using Federated Learning

要約

機械の多くの故障メカニズムは、条件監視(CM)信号の動作と密接に関連しています。
費用対効果の高い予防保守戦略を達成するために、信号に基づいた正確な残りの耐用年数(RUL)予測が最も重要です。
ただし、CM信号は、多くの場合、さまざまな工場と生産ラインで記録され、データは限られています。
残念ながら、これらのデータセットは、データの機密性と所有権の問題、コンピューティングとストレージ力の欠如、およびサイトとデータセンター間のデータ転送に関連する高い通信コストにより、サイト間で共有されることはめったにありません。
実際のアプリケーションのもう1つの課題は、CM信号が明示的に指定されていないことが多いことです。\ textit {a priori}は、通常はパラメトリック形式であることが多い既存の方法が適用できない可能性があることを意味します。
これらの課題に対処するために、連邦学習スキーム内の非線形分解信号と失敗データの共同モデリングを使用して、RUR予測の新しい予後フレームワークを提案します。
提案された方法は、フェデレートマルチアウトプットガウスプロセスを使用してノンパラメトリック分解モデルを構築し、フェデレーション生存モデルを採用して、職業機械の故障時間と確率を予測します。
他の代替案よりも提案された方法の優位性は、包括的なシミュレーション研究と、ランツーフェイルイベントを含むターボファンエンジン劣化信号データを使用したケーススタディを通じて実証されています。

要約(オリジナル)

Many failure mechanisms of machinery are closely related to the behavior of condition monitoring (CM) signals. To achieve a cost-effective preventive maintenance strategy, accurate remaining useful life (RUL) prediction based on the signals is of paramount importance. However, the CM signals are often recorded at different factories and production lines, with limited amounts of data. Unfortunately, these datasets have rarely been shared between the sites due to data confidentiality and ownership issues, a lack of computing and storage power, and high communication costs associated with data transfer between sites and a data center. Another challenge in real applications is that the CM signals are often not explicitly specified \textit{a priori}, meaning that existing methods, which often usually a parametric form, may not be applicable. To address these challenges, we propose a new prognostic framework for RUL prediction using the joint modeling of nonlinear degradation signals and time-to-failure data within a federated learning scheme. The proposed method constructs a nonparametric degradation model using a federated multi-output Gaussian process and then employs a federated survival model to predict failure times and probabilities for in-service machinery. The superiority of the proposed method over other alternatives is demonstrated through comprehensive simulation studies and a case study using turbofan engine degradation signal data that include run-to-failure events.

arxiv情報

著者 Cheoljoon Jeong,Xubo Yue,Seokhyun Chung
発行日 2025-03-17 17:34:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Fed-Joint: Joint Modeling of Nonlinear Degradation Signals and Failure Events for Remaining Useful Life Prediction using Federated Learning はコメントを受け付けていません

DLPO: Towards a Robust, Efficient, and Generalizable Prompt Optimization Framework from a Deep-Learning Perspective

要約

大規模な言語モデル(LLM)は、主に適切に設計されたプロンプトによって駆動される多様なタスク全体で顕著な成功を収めています。
ただし、そのようなプロンプトを作成して選択するには、多くの場合、かなりの人間の努力が必要であり、そのスケーラビリティを大幅に制限します。
これを緩和するために、最近の研究では、有望なソリューションとして自動化された迅速な最適化が調査されています。
これらの努力にもかかわらず、既存の方法は依然として堅牢性、効率性、および一般化における重要な課題に直面しています。
これらの課題に体系的に対処するために、最初に経験的分析を実施して、現在の反射ベースの迅速な最適化パラダイムの制限を特定します。
これらの洞察に基づいて、私たちは、これらの概念をテキストベースのグラデーション最適化にシームレスに統合し、迅速な最適化のための従来の深い学習パラダイムに触発された7つの革新的なアプローチを提案します。
これらの進歩を通じて、私たちは前述の課題に徐々に取り組み、広範な実験を通じて方法を検証します。
私たちの研究は、将来の研究のための貴重なガイダンスを提供するだけでなく、迅速な最適化における課題と潜在的なソリューションの包括的な理解を提供することを願っています。
私たちのコードは、https://github.com/sfasfaffa/dlpoで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable success across diverse tasks, largely driven by well-designed prompts. However, crafting and selecting such prompts often requires considerable human effort, significantly limiting its scalability. To mitigate this, recent studies have explored automated prompt optimization as a promising solution. Despite these efforts, existing methods still face critical challenges in robustness, efficiency, and generalization. To systematically address these challenges, we first conduct an empirical analysis to identify the limitations of current reflection-based prompt optimization paradigm. Building on these insights, we propose 7 innovative approaches inspired by traditional deep learning paradigms for prompt optimization (DLPO), seamlessly integrating these concepts into text-based gradient optimization. Through these advancements, we progressively tackle the aforementioned challenges and validate our methods through extensive experimentation. We hope our study not only provides valuable guidance for future research but also offers a comprehensive understanding of the challenges and potential solutions in prompt optimization. Our code is available at https://github.com/sfasfaffa/DLPO.

arxiv情報

著者 Dengyun Peng,Yuhang Zhou,Qiguang Chen,Jinhao Liu,Jingjing Chen,Libo Qin
発行日 2025-03-17 17:42:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DLPO: Towards a Robust, Efficient, and Generalizable Prompt Optimization Framework from a Deep-Learning Perspective はコメントを受け付けていません

Reward Adaptation Via Q-Manipulation

要約

この論文では、適応に報いる新しいソリューション(RA)を提案します。これは、学習エージェントが同じドメインダイナミクスの下で先験的に学習した1つまたは複数の既存の動作に基づいてターゲット報酬関数に適応する問題です。
ターゲットの動作をゼロから学ぶことは可能ですが、利用可能なソース動作を考えると、しばしば非効率的です。
私たちの仕事は、Q関数の操作を介したRAへの新しいアプローチを表しています。
ターゲット報酬関数がソース報酬関数の既知の関数であると仮定すると、RAへのアプローチはQ関数の境界を計算します。
値の反復と同様に、境界を引き締めるための反復プロセスを導入します。
これにより、学習が開始される前に、ターゲットドメインでのアクションプルーニングが可能になります。
そのような方法をQ操作(Q-M)と呼びます。
剪定戦略が返されたポリシーの最適性に影響を与えないことを正式に証明し、サンプルの複雑さを改善することを経験的に示しています。
Q-Mは、さまざまな合成およびシミュレーションドメインで評価され、その有効性、一般化、および実用性を実証します。

要約(オリジナル)

In this paper, we propose a new solution to reward adaptation (RA), the problem where the learning agent adapts to a target reward function based on one or multiple existing behaviors learned a priori under the same domain dynamics but different reward functions. Learning the target behavior from scratch is possible but often inefficient given the available source behaviors. Our work represents a new approach to RA via the manipulation of Q-functions. Assuming that the target reward function is a known function of the source reward functions, our approach to RA computes bounds of the Q function. We introduce an iterative process to tighten the bounds, similar to value iteration. This enables action pruning in the target domain before learning even starts. We refer to such a method as Q-Manipulation (Q-M). We formally prove that our pruning strategy does not affect the optimality of the returned policy while empirically show that it improves the sample complexity. Q-M is evaluated in a variety of synthetic and simulation domains to demonstrate its effectiveness, generalizability, and practicality.

arxiv情報

著者 Kevin Vora,Yu Zhang
発行日 2025-03-17 17:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Reward Adaptation Via Q-Manipulation はコメントを受け付けていません

A Comprehensive Survey on Multi-Agent Cooperative Decision-Making: Scenarios, Approaches, Challenges and Perspectives

要約

人工知能の急速な発展に伴い、インテリジェントな意思決定技術は、特に複雑なマルチエージェント協同組合タスクシナリオで、さまざまな人間マシン競技で徐々に人間レベルを上回っています。
マルチエージェントの協同組合の意思決定には、協力して確立されたタスクを完了し、特定の目的を達成するために協力して、複数のエージェントが含まれます。
これらの手法は、自律運転、ドローンナビゲーション、災害救助、軍事的対立のシミュレーションなど、実際のシナリオに広く適用されます。
このペーパーは、マルチエージェント協同組合の意思決定に使用される主要なシミュレーション環境とプラットフォームの包括的な調査から始まります。
具体的には、タスク形式、報酬の割り当て、採用されている基礎となるテクノロジーなど、さまざまな観点からこれらのシミュレーション環境の詳細な分析を提供します。
その後、マルチエージェントシステム(MAS)の主流のインテリジェントな意思決定アプローチ、アルゴリズム、モデルの包括的な概要を提供します。
これらのアプローチは、ルールベース(主にファジーロジック)、ゲーム理論ベースの進化的アルゴリズムベース、ディープマルチエージェント補強学習(MARL)ベース、および大規模な言語モデル(LLM)の推論ベースの5つのタイプに広く分類できます。
従来のルール、ゲーム理論、および進化的アルゴリズムに対するMarl andllmsベースの決定方法の重要な利点を考えると、このペーパーでは、MARLとLLMSベースのテクニックを利用するこれらのマルチエージェント方法に焦点を当てています。
これらのアプローチの詳細な議論を提供し、それらの方法論的な分類法、利点、および欠点を強調します。
さらに、将来のいくつかの顕著な研究の方向性と、複数エージェントの協同組合の意思決定の潜在的な課題も詳しく説明します。

要約(オリジナル)

With the rapid development of artificial intelligence, intelligent decision-making techniques have gradually surpassed human levels in various human-machine competitions, especially in complex multi-agent cooperative task scenarios. Multi-agent cooperative decision-making involves multiple agents working together to complete established tasks and achieve specific objectives. These techniques are widely applicable in real-world scenarios such as autonomous driving, drone navigation, disaster rescue, and simulated military confrontations. This paper begins with a comprehensive survey of the leading simulation environments and platforms used for multi-agent cooperative decision-making. Specifically, we provide an in-depth analysis for these simulation environments from various perspectives, including task formats, reward allocation, and the underlying technologies employed. Subsequently, we provide a comprehensive overview of the mainstream intelligent decision-making approaches, algorithms and models for multi-agent systems (MAS). Theseapproaches can be broadly categorized into five types: rule-based (primarily fuzzy logic), game theory-based, evolutionary algorithms-based, deep multi-agent reinforcement learning (MARL)-based, and large language models(LLMs)reasoning-based. Given the significant advantages of MARL andLLMs-baseddecision-making methods over the traditional rule, game theory, and evolutionary algorithms, this paper focuses on these multi-agent methods utilizing MARL and LLMs-based techniques. We provide an in-depth discussion of these approaches, highlighting their methodology taxonomies, advantages, and drawbacks. Further, several prominent research directions in the future and potential challenges of multi-agent cooperative decision-making are also detailed.

arxiv情報

著者 Weiqiang Jin,Hongyang Du,Biao Zhao,Xingwu Tian,Bohang Shi,Guang Yang
発行日 2025-03-17 17:45:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | A Comprehensive Survey on Multi-Agent Cooperative Decision-Making: Scenarios, Approaches, Challenges and Perspectives はコメントを受け付けていません

FLEX: A Framework for Learning Robot-Agnostic Force-based Skills Involving Sustained Contact Object Manipulation

要約

オブジェクトを効率的に操作すること、特に持続的な接触(プッシュ、スライドなど)および明確な部品(引き出し、ドアなど)を含むオブジェクトを操作することは、重大な課題を提示します。
ロボット中心の強化学習(RL)、模倣学習、ハイブリッド技術などの従来の方法には、大規模なトレーニングが必要であり、さまざまなオブジェクトやロボットプラットフォーム全体で一般化するのに苦労します。
オブジェクトからロボットを切り離し、力空間でオブジェクト中心の操作ポリシーを学習するための新しいフレームワークを提案します。
オブジェクトの選択された領域に力を直接適用することにより、私たちの方法はアクション空間を簡素化し、不必要な探索を減らし、シミュレーションオーバーヘッドを減らします。
このアプローチは、代表的なオブジェクトの小さなセットでシミュレーションでトレーニングされ、ジョイント構成などのオブジェクトのダイナミクスをキャプチャし、ポリシーが新しい目に見えないオブジェクトに効果的に一般化できるようにします。
これらのポリシーをロボット固有のダイナミクスから切り離すことで、再トレーニングなしで異なるロボットプラットフォーム(Kinova、Panda、UR5など)に直接転送できます。
私たちの評価は、この方法がベースラインを大幅に上回ることを示しており、他の最先端の方法と比較して、トレーニング効率を数桁改善することを実現しています。
さらに、空間で動作すると、多様なロボットプラットフォームとオブジェクトタイプ全体のポリシーの移転性が向上します。
さらに、実際のロボット設定でメソッドの適用性を紹介します。
補足資料やビデオについては、https://tufts-ai-robotics-group.github.io/flex/をご覧ください。

要約(オリジナル)

Learning to manipulate objects efficiently, particularly those involving sustained contact (e.g., pushing, sliding) and articulated parts (e.g., drawers, doors), presents significant challenges. Traditional methods, such as robot-centric reinforcement learning (RL), imitation learning, and hybrid techniques, require massive training and often struggle to generalize across different objects and robot platforms. We propose a novel framework for learning object-centric manipulation policies in force space, decoupling the robot from the object. By directly applying forces to selected regions of the object, our method simplifies the action space, reduces unnecessary exploration, and decreases simulation overhead. This approach, trained in simulation on a small set of representative objects, captures object dynamics — such as joint configurations — allowing policies to generalize effectively to new, unseen objects. Decoupling these policies from robot-specific dynamics enables direct transfer to different robotic platforms (e.g., Kinova, Panda, UR5) without retraining. Our evaluations demonstrate that the method significantly outperforms baselines, achieving over an order of magnitude improvement in training efficiency compared to other state-of-the-art methods. Additionally, operating in force space enhances policy transferability across diverse robot platforms and object types. We further showcase the applicability of our method in a real-world robotic setting. For supplementary materials and videos, please visit: https://tufts-ai-robotics-group.github.io/FLEX/

arxiv情報

著者 Shijie Fang,Wenchang Gao,Shivam Goel,Christopher Thierauf,Matthias Scheutz,Jivko Sinapov
発行日 2025-03-17 17:49:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | FLEX: A Framework for Learning Robot-Agnostic Force-based Skills Involving Sustained Contact Object Manipulation はコメントを受け付けていません

Securing Virtual Reality Experiences: Unveiling and Tackling Cybersickness Attacks with Explainable AI

要約

仮想現実(VR)と人工知能(AI)、特にディープラーニング(DL)ベースのサイバー柔らかさ検出モデルの相乗効果は、サイバーシックの重症度を自動的に検出し、さまざまな緩和技術を自動的に検出し、スムーズで快適なVR体験を提供することにより、没入感のない経験における前例のない進歩を導きました。
このDL対応のCyber​​sickness検出方法は、ユーザーエクスペリエンスを向上させるための有望なソリューションを提供しますが、これらのモデルは敵対的な攻撃に対して脆弱であるため、新しいリスクも導入します。
人間のオブザーバーにとって視覚的に検出できない入力データのわずかな摂動は、サイバースクリュー性検出モデルを欺き、予期しない緩和をトリガーし、ユーザーの没入型エクスペリエンス(UIX)を混乱させ、さらには安全リスクをもたらすことさえできます。
このホワイトペーパーでは、新しいタイプのVR攻撃、つまりサイバーシックネス攻撃を紹介します。これにより、DLベースのサイバー柔着検出モデルを欺き、UIXを劇的に妨げることにより、サイバーシック性緩和のトリガーを停止します。
次に、VRでのこのような攻撃を検出するために、uixと快適なVRエクスペリエンスを確保するために、新しい説明可能な人工知能(xai)ガーバースキックネス攻撃検出フレームワークを提案します。
提案された攻撃と検出フレームワークを評価します。2つの最先端のオープンソースVRサイバースキックネスデータセット(シミュレーション2021とゲームプレイデータセット)を評価します。
最後に、提案された方法の有効性を検証するために、HTC Vive Pro Eyeヘッドセットを使用したカスタムビルドVRローラーコースターシミュレーションを使用したテストベッドを使用して、攻撃とXaiベースの検出を実装し、ユーザー調査を実行します。
私たちの研究は、このような攻撃がUIXを劇的に妨げる可能性があることを示しています。
ただし、提案されているXai誘導サイバースキックネス攻撃の検出は、サイバースキックネス攻撃の検出を正常に検出し、適切な緩和を引き起こし、VRサイバー柔軟性を効果的に削減することができます。

要約(オリジナル)

The synergy between virtual reality (VR) and artificial intelligence (AI), specifically deep learning (DL)-based cybersickness detection models, has ushered in unprecedented advancements in immersive experiences by automatically detecting cybersickness severity and adaptively various mitigation techniques, offering a smooth and comfortable VR experience. While this DL-enabled cybersickness detection method provides promising solutions for enhancing user experiences, it also introduces new risks since these models are vulnerable to adversarial attacks; a small perturbation of the input data that is visually undetectable to human observers can fool the cybersickness detection model and trigger unexpected mitigation, thus disrupting user immersive experiences (UIX) and even posing safety risks. In this paper, we present a new type of VR attack, i.e., a cybersickness attack, which successfully stops the triggering of cybersickness mitigation by fooling DL-based cybersickness detection models and dramatically hinders the UIX. Next, we propose a novel explainable artificial intelligence (XAI)-guided cybersickness attack detection framework to detect such attacks in VR to ensure UIX and a comfortable VR experience. We evaluate the proposed attack and the detection framework using two state-of-the-art open-source VR cybersickness datasets: Simulation 2021 and Gameplay dataset. Finally, to verify the effectiveness of our proposed method, we implement the attack and the XAI-based detection using a testbed with a custom-built VR roller coaster simulation with an HTC Vive Pro Eye headset and perform a user study. Our study shows that such an attack can dramatically hinder the UIX. However, our proposed XAI-guided cybersickness attack detection can successfully detect cybersickness attacks and trigger the proper mitigation, effectively reducing VR cybersickness.

arxiv情報

著者 Ripan Kumar Kundu,Matthew Denton,Genova Mongalo,Prasad Calyam,Khaza Anuarul Hoque
発行日 2025-03-17 17:49:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.ET, cs.HC | Securing Virtual Reality Experiences: Unveiling and Tackling Cybersickness Attacks with Explainable AI はコメントを受け付けていません

xLSTM 7B: A Recurrent LLM for Fast and Efficient Inference

要約

推論モデル(LLM)の推論、数学、コーディングの問題の解決における最近のブレークスルーは、推論時間に実質的な計算予算を投資することにより有効になっています。
したがって、推論速度はLLMアーキテクチャの最も重要な特性の1つであり、推論で効率的かつ高速なLLMの必要性が高まっています。
最近、XLSTMアーキテクチャに基づいて構築されたLLMは、変圧器の強力な代替品として浮上しており、シーケンスの長さと一定のメモリ使用量を備えた線形計算スケーリングを提供します。
ただし、このようなXLSTMベースのLLMは、まだ大きなモデルに拡大されておらず、推論速度と効率に関して評価され、比較されています。
この作業では、XLSTMの建築上の利点を高速かつ効率的な推論のためのターゲットの最適化と組み合わせた70億パラメーターLLMであるXLSTM 7Bを紹介します。
我々の実験は、XLSTM 7Bが他の同様のサイズのLLMに匹敵する下流タスクのパフォーマンスを達成し、LlamaおよびMambaベースのLLMと比較して、推論速度と効率が大幅に増加することを示しています。
これらの結果は、XLSTM 7Bが最速かつ最も効率的な7B LLMとして確立され、大量のテスト時間計算を必要とするタスクのソリューションを提供します。
私たちの研究は、LLM推論の大量使用に基づいて構築する方法の基礎アーキテクチャとしてのXLSTMの可能性を強調しています。
モデルの重み、モデルコード、トレーニングコードはオープンソースです。

要約(オリジナル)

Recent breakthroughs in solving reasoning, math and coding problems with Large Language Models (LLMs) have been enabled by investing substantial computation budgets at inference time. Therefore, inference speed is one of the most critical properties of LLM architectures, and there is a growing need for LLMs that are efficient and fast at inference. Recently, LLMs built on the xLSTM architecture have emerged as a powerful alternative to Transformers, offering linear compute scaling with sequence length and constant memory usage, both highly desirable properties for efficient inference. However, such xLSTM-based LLMs have yet to be scaled to larger models and assessed and compared with respect to inference speed and efficiency. In this work, we introduce xLSTM 7B, a 7-billion-parameter LLM that combines xLSTM’s architectural benefits with targeted optimizations for fast and efficient inference. Our experiments demonstrate that xLSTM 7B achieves performance on downstream tasks comparable to other similar-sized LLMs, while providing significantly faster inference speeds and greater efficiency compared to Llama- and Mamba-based LLMs. These results establish xLSTM 7B as the fastest and most efficient 7B LLM, offering a solution for tasks that require large amounts of test-time computation. Our work highlights xLSTM’s potential as a foundational architecture for methods building on heavy use of LLM inference. Our model weights, model code and training code are open-source.

arxiv情報

著者 Maximilian Beck,Korbinian Pöppel,Phillip Lippe,Richard Kurle,Patrick M. Blies,Günter Klambauer,Sebastian Böck,Sepp Hochreiter
発行日 2025-03-17 17:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | xLSTM 7B: A Recurrent LLM for Fast and Efficient Inference はコメントを受け付けていません

Top General Performance = Top Domain Performance? DomainCodeBench: A Multi-domain Code Generation Benchmark

要約

大規模な言語モデル(LLMS)の急速な進歩により、LLMSのコード生成能力を調査するために広範な研究が行われました。
ただし、既存の取り組みは主に一般的なドメインタスクに焦点を当てており、現実世界のアプリケーションドメインでのLLMSのコード生成パフォーマンスを不足しています。
これは重要な疑問を提起します。モデルの一般的なドメインコーディング能力は、特殊なドメインでの能力を確実に表すことができますか?
このペーパーでは、12のソフトウェアアプリケーションドメインと15のプログラミング言語でLLMを体系的に評価するように設計されたマルチドメインコード生成ベンチマークであるDomainCodeBenchを紹介します。
DomainCodeBenchには、ドメイン固有の課題のカバレッジを確保するために、グラウンドトゥルース、ヒトが注目したドキュストリング、および細粒の依存関係情報を備えた2,400の手動検証されたタスクが含まれています。
具体的には、最初にトピックマイニングごとに最も人気のあるアプリケーションドメインを特定します。
次に、各ドメインで一般的に使用されるフレームワークとプラットフォームに基づいて、コーディングタスクをキュレートします。
10の主流LLMを使用して、DomainCodebenchでの広範な実験を通じていくつかの発見を得ます。
(1)パフォーマンス分離:実験では、最高の一般的なドメインモデルが特定のアプリケーションドメインで一貫して優れていないことが明らかになりました。
(2)ドメイン固有の弱点:LLMは、ドメインの知識のギャップとサードパーティライブラリの誤用のためにしばしば失敗します。
(3)コンテキストの強化:ドメイン固有の知識でプロンプトを増やすとパフォーマンスが約38.17%向上し、パフォーマンスの最適化のための実用的な洞察を提供することが示されます。
ベンチマーク、ソースコード、実験結果を含む当社の複製パッケージは、https://github.com/deepsoftwareanalytics/domaincodebenchで入手できます。

要約(オリジナル)

With the rapid advancement of large language models (LLMs), extensive research has been conducted to investigate the code generation capabilities of LLMs. However, existing efforts primarily focus on general-domain tasks, leaving LLMs’ code generation performance in real-world application domains underexplored. This raises a critical question: can a model’s general-domain coding ability reliably represent its ability in specialized domains? In this paper, we introduce DomainCodeBench, a multi-domain code generation benchmark designed to systematically evaluate LLMs across 12 software application domains and 15 programming languages. DomainCodeBench contains 2,400 manually verified tasks with ground truth, human-annotated docstrings, and fine-grained dependency information to ensure more coverage of domain-specific challenges. Specifically, we first identify the most popular application domains by topic mining. Then, we curate coding tasks based on commonly used frameworks and platforms in each domain. We obtain several findings through extensive experiments on DomainCodeBench with ten mainstream LLMs. (1) Performance decoupling: experiments reveal that top general-domain models do not consistently excel in specific application domains; (2) Domain-specific weaknesses: LLMs often fail due to domain knowledge gaps and third-party library misusage; (3) Contextual enhancement: we show that augmenting prompts with domain-specific knowledge improves performance by around 38.17%, providing actionable insights for performance optimization. Our replication package, including the benchmark, source code, and experimental results, is available at https://github.com/DeepSoftwareAnalytics/DomainCodeBench.

arxiv情報

著者 Dewu Zheng,Yanlin Wang,Ensheng Shi,Xilin Liu,Yuchi Ma,Hongyu Zhang,Zibin Zheng
発行日 2025-03-17 17:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | Top General Performance = Top Domain Performance? DomainCodeBench: A Multi-domain Code Generation Benchmark はコメントを受け付けていません

Deep Belief Markov Models for POMDP Inference

要約

この作業では、部分的に観察可能なマルコフ決定プロセス(POMDP)の問題で効率的なモデル形式の不可知論的推論を提供する深い信念マルコフモデル(DBMM)と呼ばれる新しいディープラーニングベースのアーキテクチャを紹介します。
POMDPフレームワークは、観察の不確実性の下での連続的な意思決定の問題をモデリングおよび解決することができます。
複雑で高次元の部分的に観察可能な環境では、正確な計算(たとえば、ベイズの定理を介して)またはサンプリングアルゴリズムに基づいて推論するための既存の方法は十分にスケーリングしません。
さらに、正確な遷移ダイナミクスを学習するために、グラウンドトゥルースの状態は利用できない場合があります。
DBMMSは、ディープマルコフモデルを部分的に観察可能な意思決定フレームワークに拡張し、変分推論方法を介した利用可能な観測データに完全に基づいて効率的な信念推論を可能にします。
ニューラルネットワークの効力を活用することにより、DBMMはシステムのダイナミクスにおける非線形関係を推測およびシミュレートし、自然に高次元性と離散または連続変数の問題に拡大することができます。
さらに、ニューラルネットワークパラメーターは、データの可用性に基づいて効率的に動的に更新できます。
したがって、DBMMは信念変数を推測するために使用できます。したがって、信念空間に対するPOMDPソリューションの導出を可能にします。
個別の変数と連続変数を含むベンチマーク問題におけるDBMMSのモデル形式の不可知論的推論の能力を評価することにより、提案された方法論の有効性を評価します。

要約(オリジナル)

This work introduces a novel deep learning-based architecture, termed the Deep Belief Markov Model (DBMM), which provides efficient, model-formulation agnostic inference in Partially Observable Markov Decision Process (POMDP) problems. The POMDP framework allows for modeling and solving sequential decision-making problems under observation uncertainty. In complex, high-dimensional, partially observable environments, existing methods for inference based on exact computations (e.g., via Bayes’ theorem) or sampling algorithms do not scale well. Furthermore, ground truth states may not be available for learning the exact transition dynamics. DBMMs extend deep Markov models into the partially observable decision-making framework and allow efficient belief inference entirely based on available observation data via variational inference methods. By leveraging the potency of neural networks, DBMMs can infer and simulate non-linear relationships in the system dynamics and naturally scale to problems with high dimensionality and discrete or continuous variables. In addition, neural network parameters can be dynamically updated efficiently based on data availability. DBMMs can thus be used to infer a belief variable, thus enabling the derivation of POMDP solutions over the belief space. We evaluate the efficacy of the proposed methodology by evaluating the capability of model-formulation agnostic inference of DBMMs in benchmark problems that include discrete and continuous variables.

arxiv情報

著者 Giacomo Arcieri,Konstantinos G. Papakonstantinou,Daniel Straub,Eleni Chatzi
発行日 2025-03-17 17:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Deep Belief Markov Models for POMDP Inference はコメントを受け付けていません

Faithfulness of LLM Self-Explanations for Commonsense Tasks: Larger Is Better, and Instruction-Tuning Allows Trade-Offs but Not Pareto Dominance

要約

大規模な言語モデル(LLM)がますます有能になるにつれて、自己生成された説明が内部の意思決定プロセスに忠実であることを保証することが、安全と監視に重要です。
この作業では、8つの家族の62のモデルで包括的な反事実的忠実な分析を実施し、前提条件と命令チューニングされたバリアントの両方を網羅し、反事実検査の以前の研究を大幅に拡張します。
相関反事実検定の単純化されたバリアントであるPHI-CCTを導入します。これは、元のテストのほとんどの分散を説明しながらトークン確率の必要性を回避します。
私たちの調査結果は、明確なスケーリングの傾向を明らかにしています。より大きなモデルは、私たちのメトリックに対して一貫してより忠実です。
ただし、命令と想像の説明を比較すると、観察された忠実さの違いは、しばしば説明の冗長に起因する可能性があり、真の陽性/偽陽性のパレートフロンティアに沿ったシフトにつながることがわかります。
命令調整とプロンプトはこのトレードオフに影響を与える可能性がありますが、同等のサイズの前提条件で達成可能なものを超えて、説明的な忠実さのフロンティアを根本的に拡大するという限られた証拠を見つけます。
私たちの分析は、モデル決定プロセスの命令調整、冗長性、および忠実な表現の間の微妙な関係を強調しています。

要約(オリジナル)

As large language models (LLMs) become increasingly capable, ensuring that their self-generated explanations are faithful to their internal decision-making process is critical for safety and oversight. In this work, we conduct a comprehensive counterfactual faithfulness analysis across 62 models from 8 families, encompassing both pretrained and instruction-tuned variants and significantly extending prior studies of counterfactual tests. We introduce phi-CCT, a simplified variant of the Correlational Counterfactual Test, which avoids the need for token probabilities while explaining most of the variance of the original test. Our findings reveal clear scaling trends: larger models are consistently more faithful on our metrics. However, when comparing instruction-tuned and human-imitated explanations, we find that observed differences in faithfulness can often be attributed to explanation verbosity, leading to shifts along the true-positive/false-positive Pareto frontier. While instruction-tuning and prompting can influence this trade-off, we find limited evidence that they fundamentally expand the frontier of explanatory faithfulness beyond what is achievable with pretrained models of comparable size. Our analysis highlights the nuanced relationship between instruction-tuning, verbosity, and the faithful representation of model decision processes.

arxiv情報

著者 Noah Y. Siegel,Nicolas Heess,Maria Perez-Ortiz,Oana-Maria Camburu
発行日 2025-03-17 17:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | Faithfulness of LLM Self-Explanations for Commonsense Tasks: Larger Is Better, and Instruction-Tuning Allows Trade-Offs but Not Pareto Dominance はコメントを受け付けていません