A Causal Convolutional Low-rank Representation Model for Imputation of Water Quality Data

要約

水質の監視は環境保護の重要な部分であり、水質を監視するために多数のモニターが広く展開されています。
データ収集の故障、センサー、通信の障害などの避けられない要因により、水質監視データは時間の経過とともに欠落値に苦しみ、高次元およびまばら(HDS)の水質データ(WQD)をもたらします。
欠損値の単純で大まかな充填は、結果の不正確な結果につながり、関連する尺度の実装に影響します。
したがって、このペーパーでは、欠落しているWQDの完全性を改善するために欠落しているWQDを誘発するための因果的な畳み込み低ランク表現(CLR)モデルを提案します。
b)モデルトレーニング中に最高のハイパーパラメーターを自動的に調整するためにハイパーパラメータ適応スキームを実装し、それにより、ハイパーパラメーターの退屈な手動調整を減らします。
3つの実世界の水質データセットに関する実験的研究は、提案されたCLRモデルが、代入の正確性と時間コストの観点から、既存の最先端の不整合モデルの一部よりも優れていることを示しており、提案されたモデルが環境監視のためのより信頼性の高い意思決定サポートを提供することを示しています。

要約(オリジナル)

The monitoring of water quality is a crucial part of environmental protection, and a large number of monitors are widely deployed to monitor water quality. Due to unavoidable factors such as data acquisition breakdowns, sensors and communication failures, water quality monitoring data suffers from missing values over time, resulting in High-Dimensional and Sparse (HDS) Water Quality Data (WQD). The simple and rough filling of the missing values leads to inaccurate results and affects the implementation of relevant measures. Therefore, this paper proposes a Causal convolutional Low-rank Representation (CLR) model for imputing missing WQD to improve the completeness of the WQD, which employs a two-fold idea: a) applying causal convolutional operation to consider the temporal dependence of the low-rank representation, thus incorporating temporal information to improve the imputation accuracy; and b) implementing a hyperparameters adaptation scheme to automatically adjust the best hyperparameters during model training, thereby reducing the tedious manual adjustment of hyper-parameters. Experimental studies on three real-world water quality datasets demonstrate that the proposed CLR model is superior to some of the existing state-of-the-art imputation models in terms of imputation accuracy and time cost, as well as indicating that the proposed model provides more reliable decision support for environmental monitoring.

arxiv情報

著者 Xin Liao,Bing Yang,Tan Dongli,Cai Yu
発行日 2025-04-21 16:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 65C60, cs.AI, cs.LG, I.2.7 | A Causal Convolutional Low-rank Representation Model for Imputation of Water Quality Data はコメントを受け付けていません

Integrating Symbolic Execution into the Fine-Tuning of Code-Generating LLMs

要約

コード生成の大規模な言語モデル(LLM)は、最新のソフトウェア開発に不可欠なツールになり、生産性を高め、開発を加速させます。
このペーパーは、強化学習と直接選好の最適化を使用して、コード生成LLMの微調整を調査し、パフォーマンスをさらに向上させることを目的としています。
これを達成するために、シンボリック実行技術の助けを借りて、報酬モデルのトレーニングデータを強化し、より包括的で客観的なデータを確保します。
シンボリック実行により、コード評価のニュアンスをより適切にキャプチャするカスタムデータセットを作成します。
このデータセットで微調整された報酬モデルは、生成されたコードの品質を推定する際に、ベースラインであるCoderlよりも大幅な改善を示しています。
報酬モデルフィードバックの助けを借りて訓練された私たちのコード生成LLMSは、Coderlベンチマークと比較して同様の結果を達成します。

要約(オリジナル)

Code-generating Large Language Models (LLMs) have become essential tools in modern software development, enhancing productivity and accelerating development. This paper aims to investigate the fine-tuning of code-generating LLMs using Reinforcement Learning and Direct Preference Optimization, further improving their performance. To achieve this, we enhance the training data for the reward model with the help of symbolic execution techniques, ensuring more comprehensive and objective data. With symbolic execution, we create a custom dataset that better captures the nuances in code evaluation. Our reward models, fine-tuned on this dataset, demonstrate significant improvements over the baseline, CodeRL, in estimating the quality of generated code. Our code-generating LLMs, trained with the help of reward model feedback, achieve similar results compared to the CodeRL benchmark.

arxiv情報

著者 Marina Sakharova,Abhinav Anand,Mira Mezini
発行日 2025-04-21 16:29:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Integrating Symbolic Execution into the Fine-Tuning of Code-Generating LLMs はコメントを受け付けていません

Position: Bayesian Statistics Facilitates Stakeholder Participation in Evaluation of Generative AI

要約

生成AI(GENAI)システムの評価は、公共政策と意思決定において重要な役割を果たしますが、既存の方法は、不確実性とより広範な社会的影響を捉えることができないベンチマーク主導のポイント推定の比較に依存することによって制限されることがよくあります。
このペーパーでは、これらの課題に対処するための原則的な枠組みとしてベイジアン統計を使用することについて主張しています。
ベイジアンの方法により、以前の誘発を通じてドメインの専門知識を統合し、新しいデータから継続的な学習を可能にし、事後推論を介して堅牢な不確実性の定量化を提供します。
特に利害関係者の視点を組み込んで、公平性、透明性、信頼性を高めるために、ベイジアンの推論をGenai評価に適用する方法を示します。
さらに、モデルの検証と改良のための反復プロセスとしてベイジアンワークフローについて説明し、動的で実世界のコンテキストでのGENAIシステムの堅牢な評価を確保します。

要約(オリジナル)

The evaluation of Generative AI (GenAI) systems plays a critical role in public policy and decision-making, yet existing methods are often limited by reliance on benchmark-driven, point-estimate comparisons that fail to capture uncertainty and broader societal impacts. This paper argues for the use of Bayesian statistics as a principled framework to address these challenges. Bayesian methods enable the integration of domain expertise through prior elicitation, allow for continuous learning from new data, and provide robust uncertainty quantification via posterior inference. We demonstrate how Bayesian inference can be applied to GenAI evaluation, particularly in incorporating stakeholder perspectives to enhance fairness, transparency, and reliability. Furthermore, we discuss Bayesian workflows as an iterative process for model validation and refinement, ensuring robust assessments of GenAI systems in dynamic, real-world contexts.

arxiv情報

著者 Yanan Long
発行日 2025-04-21 16:31:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, stat.AP | Position: Bayesian Statistics Facilitates Stakeholder Participation in Evaluation of Generative AI はコメントを受け付けていません

Potential Societal Biases of ChatGPT in Higher Education: A Scoping Review

要約

目的:CHATGPTなどの生成人工知能(GAI)モデルは、広範なデータセットでのトレーニングにより、社会的バイアスを継承または増幅する場合があります。
高等教育機関(HEI)の学生、教員、スタッフによるGAIの使用が増えているため、これらの技術に関連する倫理的問題と潜在的な偏見を調べることが緊急です。
設計/アプローチ/方法:このスコーピングレビューは、HEIのGAIに関連するバイアスが最近の学術出版物で研究および議論された方法を解明することを目的としています。
GAIが高等教育の分野で引き起こす可能性のある社会的偏見を分類しました。
私たちのレビューには、高等教育とバイアスでのGAIの使用に焦点を当てた4つの主要なデータベースにわたって英語、中国語、日本語で書かれた記事が含まれています。
調査結果:我々の調査結果は、AI分野のLLMに関するバイアスと差別に関する意味のある学術的議論があるが、高等教育に対処するほとんどの記事は表面的に問題に近づいていることを明らかにしています。
さまざまな状況下で特定のタイプのバイアスを特定する記事はほとんどなく、経験的研究が顕著に欠けています。
私たちのレビューのほとんどの論文は、主に医学と工学に関連する教育および研究分野に焦点を当てており、いくつかは英語教育に取り組んでいます。
しかし、人文科学と社会科学に関する議論はほとんどありません。
さらに、現在の談話の大部分は英語であり、主に英語圏のコンテキストに対処しています。
独創性/価値:私たちの知る限り、私たちの研究は、高等教育における潜在的な社会的偏見を要約した最初の研究です。
このレビューでは、GAIが教育環境で導入または増幅する可能性のある特定のバイアスを理解するためのより詳細な研究と経験的作業の必要性を強調し、高等教育におけるより倫理的なAIアプリケーションの開発を導きます。

要約(オリジナル)

Purpose:Generative Artificial Intelligence (GAI) models, such as ChatGPT, may inherit or amplify societal biases due to their training on extensive datasets. With the increasing usage of GAI by students, faculty, and staff in higher education institutions (HEIs), it is urgent to examine the ethical issues and potential biases associated with these technologies. Design/Approach/Methods:This scoping review aims to elucidate how biases related to GAI in HEIs have been researched and discussed in recent academic publications. We categorized the potential societal biases that GAI might cause in the field of higher education. Our review includes articles written in English, Chinese, and Japanese across four main databases, focusing on GAI usage in higher education and bias. Findings:Our findings reveal that while there is meaningful scholarly discussion around bias and discrimination concerning LLMs in the AI field, most articles addressing higher education approach the issue superficially. Few articles identify specific types of bias under different circumstances, and there is a notable lack of empirical research. Most papers in our review focus primarily on educational and research fields related to medicine and engineering, with some addressing English education. However, there is almost no discussion regarding the humanities and social sciences. Additionally, a significant portion of the current discourse is in English and primarily addresses English-speaking contexts. Originality/Value:To the best of our knowledge, our study is the first to summarize the potential societal biases in higher education. This review highlights the need for more in-depth studies and empirical work to understand the specific biases that GAI might introduce or amplify in educational settings, guiding the development of more ethical AI applications in higher education.

arxiv情報

著者 Ming Li,Ariunaa Enkhtur,Beverley Anne Yamamoto,Fei Cheng,Lilan Chen
発行日 2025-04-21 16:33:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Potential Societal Biases of ChatGPT in Higher Education: A Scoping Review はコメントを受け付けていません

Training on the Test Task Confounds Evaluation and Emergence

要約

テストタスクに関するトレーニングと呼ばれる大規模な言語モデルの評価において根本的な問題を研究しています。
テストデータ、漏れ、データの汚染などのトレーニングなどの不法なプラクティスとは異なり、テストタスクのトレーニングは医療過誤ではありません。
むしろ、この用語は、トレーニング時に評価タスクに関する知識を活用する一連の実践セットを説明しています。
テストタスクに関するトレーニングは、相対モデルの評価と、緊急能力に関する主張の両方を混乱させることを実証します。
あるモデルファミリーの一見優位性は、テストタスクに関する異なる程度のトレーニングによって説明される可能性があると主張します。
この目的のために、ベンチマーク評価に対するテストタスクに対するトレーニングの効果を調整する効果的な方法を提案します。
簡単に言えば、評価前に同じタスク関連データの比較で各モデルを微調整します。
次に、モデルがテストタスクでトレーニングするにつれて、緊急行動のインスタンスが徐々に消えることを示します。
私たちの仕事は、ベンチマークと緊急能力の研究に幅広い意味を持つ、大規模な言語モデルの評価に関する新しい視点を促進します。

要約(オリジナル)

We study a fundamental problem in the evaluation of large language models that we call training on the test task. Unlike wrongful practices like training on the test data, leakage, or data contamination, training on the test task is not a malpractice. Rather, the term describes a growing set of practices that utilize knowledge about evaluation tasks at training time. We demonstrate that training on the test task confounds both relative model evaluations and claims about emergent capabilities. We argue that the seeming superiority of one model family over another may be explained by a different degree of training on the test task. To this end, we propose an effective method to adjust for the effect of training on the test task on benchmark evaluations. Put simply, to fine-tune each model under comparison on the same task-relevant data prior to evaluation. We then show that instances of emergent behavior disappear gradually as models train on the test task. Our work promotes a new perspective on the evaluation of large language models, with broad implications for benchmarking and the study of emergent capabilities.

arxiv情報

著者 Ricardo Dominguez-Olmedo,Florian E. Dorner,Moritz Hardt
発行日 2025-04-21 16:43:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Training on the Test Task Confounds Evaluation and Emergence はコメントを受け付けていません

BlendRL: A Framework for Merging Symbolic and Neural Policy Learning

要約

人間は、象徴的な推論と直感的な反応の両方を活用できます。
対照的に、補強学習ポリシーは通常、ニューラルネットワークなどの不透明なシステムまたは事前に定義されたシンボルとルールに依存するシンボリックシステムでエンコードされます。
このばらばらのアプローチは、神経剤の柔軟な低レベルの反応とシンボリック薬剤の解釈可能な推論のいずれかを欠いているため、エージェントの能力を厳しく制限します。
この課題を克服するために、論理政策と神経政策の両方の混合物を使用するRLエージェント内の両方のパラダイムを調和させて統合するニューロ – シンボリックRLフレームワークであるBlendrlを紹介します。
Blendrlのエージェントは、標準的なAtari環境での神経と象徴的なベースラインよりも優れていることを経験的に実証し、環境の変化に対する堅牢性を示しています。
さらに、神経と象徴的なポリシーの相互作用を分析し、それらのハイブリッド使用がエージェントが互いの限界を克服するのに役立つ方法を示しています。

要約(オリジナル)

Humans can leverage both symbolic reasoning and intuitive reactions. In contrast, reinforcement learning policies are typically encoded in either opaque systems like neural networks or symbolic systems that rely on predefined symbols and rules. This disjointed approach severely limits the agents’ capabilities, as they often lack either the flexible low-level reaction characteristic of neural agents or the interpretable reasoning of symbolic agents. To overcome this challenge, we introduce BlendRL, a neuro-symbolic RL framework that harmoniously integrates both paradigms within RL agents that use mixtures of both logic and neural policies. We empirically demonstrate that BlendRL agents outperform both neural and symbolic baselines in standard Atari environments, and showcase their robustness to environmental changes. Additionally, we analyze the interaction between neural and symbolic policies, illustrating how their hybrid use helps agents overcome each other’s limitations.

arxiv情報

著者 Hikaru Shindo,Quentin Delfosse,Devendra Singh Dhami,Kristian Kersting
発行日 2025-04-21 16:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | BlendRL: A Framework for Merging Symbolic and Neural Policy Learning はコメントを受け付けていません

M$^2$AD: Multi-Sensor Multi-System Anomaly Detection through Global Scoring and Calibrated Thresholding

要約

産業および運用システム全体でセンサーデータが広く利用できるようになったため、複数のシステムから不均一な時系列に遭遇することがよくあります。
このようなシステムにとって、予測維持を促進するためには、異常検出が重要です。
ただし、ほとんどの既存の異常検出方法は、単変量または単一システムの多変量データのいずれかに対して設計されているため、これらの複雑なシナリオには不十分です。
これに対処するために、複数のシステムからの多変量時系列データにおける監視されていない異常検出のフレームワークであるM $^2 $ ADを紹介します。
M $^2 $ ADは、潜在的な異常の指標として残差を使用して、通常の条件下で予想される動作をキャプチャするために深いモデルを採用しています。
これらの残差は、ガウス混合モデルとガンマキャリブレーションを通じて、グローバルな異常スコアに集約されます。
このフレームワークは、センサーとシステム全体の不均一性と依存関係に効果的に対処できることを理論的に実証します。
経験的には、M $^2 $ ADは、広範な評価で既存の方法を平均21%上回り、その有効性は、Amazon Fulfillment Centersの130の資産に関する大規模な現実世界のケーススタディで実証されています。
私たちのコードと結果は、https://github.com/sarahmish/m2adで入手できます。

要約(オリジナル)

With the widespread availability of sensor data across industrial and operational systems, we frequently encounter heterogeneous time series from multiple systems. Anomaly detection is crucial for such systems to facilitate predictive maintenance. However, most existing anomaly detection methods are designed for either univariate or single-system multivariate data, making them insufficient for these complex scenarios. To address this, we introduce M$^2$AD, a framework for unsupervised anomaly detection in multivariate time series data from multiple systems. M$^2$AD employs deep models to capture expected behavior under normal conditions, using the residuals as indicators of potential anomalies. These residuals are then aggregated into a global anomaly score through a Gaussian Mixture Model and Gamma calibration. We theoretically demonstrate that this framework can effectively address heterogeneity and dependencies across sensors and systems. Empirically, M$^2$AD outperforms existing methods in extensive evaluations by 21% on average, and its effectiveness is demonstrated on a large-scale real-world case study on 130 assets in Amazon Fulfillment Centers. Our code and results are available at https://github.com/sarahmish/M2AD.

arxiv情報

著者 Sarah Alnegheimish,Zelin He,Matthew Reimherr,Akash Chandrayan,Abhinav Pradhan,Luca D’Angelo
発行日 2025-04-21 16:57:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | M$^2$AD: Multi-Sensor Multi-System Anomaly Detection through Global Scoring and Calibrated Thresholding はコメントを受け付けていません

A Genetic Fuzzy-Enabled Framework on Robotic Manipulation for In-Space Servicing

要約

軌道中の衛星の数が増えるにつれて、Cislunar空間でのサービスのためのロボットシステムの自動化は非常に重要になっています。
安全性は衛星メンテナンスを実行する際に重要であるため、利用される制御技術は、非常に効率的であることに加えて信頼する必要があります。
この作業では、遺伝的ファジーツリーは、Thalesの真のAIツールキットを介して広く使用されているLQR制御スキームと組み合わされ、理論的に衛星メンテナンスの実行に使用される2度の平面ロボットマニピュレーターの信頼できる効率的なコントローラーを作成します。
Genetic Fuzzy-LQRは、平均して最適なLQRよりも18.5%のパフォーマンスが高く、不確実性に対して非常に堅牢であることがわかりました。

要約(オリジナル)

Automation of robotic systems for servicing in cislunar space is becoming extremely important as the number of satellites in orbit increases. Safety is critical in performing satellite maintenance, so the control techniques utilized must be trusted in addition to being highly efficient. In this work, Genetic Fuzzy Trees are combined with the widely used LQR control scheme via Thales’ TrUE AI Toolkit to create a trusted and efficient controller for a two-degree-of-freedom planar robotic manipulator that would theoretically be used to perform satellite maintenance. It was found that Genetic Fuzzy-LQR is 18.5% more performant than optimal LQR on average, and that it is incredibly robust to uncertainty.

arxiv情報

著者 Nathan Steffen,Wilhelm Louw,Nicholas Ernest,Timothy Arnett,Kelly Cohen
発行日 2025-04-21 16:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | A Genetic Fuzzy-Enabled Framework on Robotic Manipulation for In-Space Servicing はコメントを受け付けていません

A Self-Improving Coding Agent

要約

基本的なコーディングツールを装備したLLMコーディングエージェントが自律的に編集し、それによりベンチマークタスクでのパフォーマンスを向上させることができることを実証します。
SWEベンチのランダムサブセットでパフォーマンスの向上が17%から53%で検証されており、LiveCodebenchでのパフォーマンスの追加利益と、合成的に生成されたエージェントベンチマークがあります。
私たちの作業は、エージェントシステムの自動化されたオープンエンドの設計の進歩を表しており、ツールの使用やその他のエージェントタスクに関するトレイン後のLLMSを求めている人に参照エージェントフレームワークを提供します。

要約(オリジナル)

We demonstrate that an LLM coding agent, equipped with basic coding tools, can autonomously edit itself, and thereby improve its performance on benchmark tasks. We find performance gains from 17% to 53% on a random subset of SWE Bench Verified, with additional performance gains on LiveCodeBench, as well as synthetically generated agent benchmarks. Our work represents an advancement in the automated and open-ended design of agentic systems, and provides a reference agent framework for those seeking to post-train LLMs on tool use and other agentic tasks.

arxiv情報

著者 Maxime Robeyns,Martin Szummer,Laurence Aitchison
発行日 2025-04-21 16:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A Self-Improving Coding Agent はコメントを受け付けていません

Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions

要約

AIアシスタントは、人々の決定や世界観を形作る価値判断を与えることができますが、これらのシステムが実際にどのような価値を依存しているかについては、経験的にはほとんど知られていません。
これに対処するために、クロード3および3.5モデルが数十万の実世界の相互作用で示す値(モデル応答で記載または実証された規範的な考慮事項)を抽出するためのボトムアップのプライバシー圧力方法を開発します。
3,307 AIの値を経験的に発見し、分類し、それらがコンテキストによってどのように変化するかを研究します。
クロードは多くの実用的で認識論的な価値を表現し、通常、「道徳的ニヒリズム」のような価値に抵抗しながら、向社会的人間の価値をサポートしていることがわかります。
コンテキスト全体で一貫して表示される一部の値(「透明性」など)は、人間の対話者の多様性とその多様なコンテキストを反映して、より専門的でコンテキスト依存性があります。
たとえば、Claudeがユーザーに抵抗すると、「Harm Prevention」は、論争の的となっている出来事についての質問に応答する際に「歴史的正確さ」、「関係のアドバイス」を求められたときの「健康的な境界」、技術倫理の議論における「人間の代理店」に抵抗すると現れます。
展開におけるAI値の最初の大規模な経験的マッピングを提供することにより、我々の作業は、AIシステムのより根拠のある評価と設計の基礎を作り出します。

要約(オリジナル)

AI assistants can impart value judgments that shape people’s decisions and worldviews, yet little is known empirically about what values these systems rely on in practice. To address this, we develop a bottom-up, privacy-preserving method to extract the values (normative considerations stated or demonstrated in model responses) that Claude 3 and 3.5 models exhibit in hundreds of thousands of real-world interactions. We empirically discover and taxonomize 3,307 AI values and study how they vary by context. We find that Claude expresses many practical and epistemic values, and typically supports prosocial human values while resisting values like ‘moral nihilism’. While some values appear consistently across contexts (e.g. ‘transparency’), many are more specialized and context-dependent, reflecting the diversity of human interlocutors and their varied contexts. For example, ‘harm prevention’ emerges when Claude resists users, ‘historical accuracy’ when responding to queries about controversial events, ‘healthy boundaries’ when asked for relationship advice, and ‘human agency’ in technology ethics discussions. By providing the first large-scale empirical mapping of AI values in deployment, our work creates a foundation for more grounded evaluation and design of values in AI systems.

arxiv情報

著者 Saffron Huang,Esin Durmus,Miles McCain,Kunal Handa,Alex Tamkin,Jerry Hong,Michael Stern,Arushi Somani,Xiuruo Zhang,Deep Ganguli
発行日 2025-04-21 17:13:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions はコメントを受け付けていません