A Comparative Evaluation of Quantification Methods

要約

定量化は、目に見えないデータ上のクラスラベルの分布を推定する問題を表します。
また、近年、多種多様な異なるアルゴリズムが提案されている監視された機械学習における研究分野の成長を表しています。
ただし、アルゴリズムの選択をサポートする定量化方法の包括的な経験的比較はまだ利用できません。
この作業では、バイナリとマルチクラスの定量化設定を考慮して、40を超えるデータセットで24の異なる定量化方法の徹底的な経験的パフォーマンス比較を実施することにより、この研究のギャップを埋めます。
単一のアルゴリズムは一般にすべての競合他社を上回ることはありませんが、しきい値選択ベースの中央値スイープとTSMAXメソッド、HDYメソッド、Formanの混合モデル、およびバイナリ設定で最適なフリードマンの方法を含むDYSフレームワークを含む方法のグループを特定します。
マルチクラス設定では、異なる幅広いアルゴリズムのグループが、HDXメソッド、一般化された確率的調整カウント、READMEメソッド、エネルギー距離最小化法、定量化のためのEMアルゴリズム、フリードマンの方法など、良好なパフォーマンスをもたらすことを観察します。
また、基礎となる分類子を調整すると、ほとんどの場合、定量化パフォーマンスに限られた影響しかありません。
より一般的には、マルチクラスの定量化のパフォーマンスは、バイナリ設定で得られた結果よりも劣っていることがわかります。
私たちの結果は、定量化アルゴリズムを適用する予定の開業医を導き、研究者が将来の研究の機会を特定するのに役立ちます。

要約(オリジナル)

Quantification represents the problem of estimating the distribution of class labels on unseen data. It also represents a growing research field in supervised machine learning, for which a large variety of different algorithms has been proposed in recent years. However, a comprehensive empirical comparison of quantification methods that supports algorithm selection is not available yet. In this work, we close this research gap by conducting a thorough empirical performance comparison of 24 different quantification methods on overall more than 40 data sets, considering binary as well as multiclass quantification settings. We observe that no single algorithm generally outperforms all competitors, but identify a group of methods including the threshold selection-based Median Sweep and TSMax methods, the DyS framework including the HDy method, Forman’s mixture model, and Friedman’s method that performs best in the binary setting. For the multiclass setting, we observe that a different, broad group of algorithms yields good performance, including the HDx method, the Generalized Probabilistic Adjusted Count, the readme method, the energy distance minimization method, the EM algorithm for quantification, and Friedman’s method. We also find that tuning the underlying classifiers has in most cases only a limited impact on the quantification performance. More generally, we find that the performance on multiclass quantification is inferior to the results obtained in the binary setting. Our results can guide practitioners who intend to apply quantification algorithms and help researchers to identify opportunities for future research.

arxiv情報

著者 Tobias Schumacher,Markus Strohmaier,Florian Lemmerich
発行日 2025-03-04 15:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG | A Comparative Evaluation of Quantification Methods はコメントを受け付けていません

Assistance or Disruption? Exploring and Evaluating the Design and Trade-offs of Proactive AI Programming Support

要約

AIプログラミングツールは強力なコード生成を可能にし、最近のプロトタイプはプロアクティブなAIエージェントとのユーザーの努力を減らしようとしますが、プログラミングワークフローへの影響は未開拓のままです。
編集者のアクティビティとタスクコンテキストに基づいてプログラミング支援を開始する設計プローブLLMエージェントであるCodellaboratorを紹介および評価します。
ますます顕著なAIサポートのトレードオフを評価するために、3つのインターフェイスバリアントを調査しました:存在感とコンテキストを備えたプロンプトのみ、プロアクティブなエージェント、プロアクティブエージェント(Codellaborator)。
被験者内の研究(n = 18)では、積極的なエージェントがプロンプトのみのパラダイムと比較して効率を高めるだけでなく、ワークフローの破壊も発生することがわかります。
ただし、存在指標と相互作用コンテキストは、混乱を軽減し、AIプロセスに対するユーザーの認識を改善することをサポートしています。
ユーザーコントロール、所有権、およびコード理解に関するCodellaboratorのトレードオフを強調し、プログラミングプロセスに積極性を適応させる必要性を強調します。
私たちの研究は、積極的なAIシステムの設計調査と評価に貢献し、AI統合プログラミングワークフローに設計上の意味を示しています。

要約(オリジナル)

AI programming tools enable powerful code generation, and recent prototypes attempt to reduce user effort with proactive AI agents, but their impact on programming workflows remains unexplored. We introduce and evaluate Codellaborator, a design probe LLM agent that initiates programming assistance based on editor activities and task context. We explored three interface variants to assess trade-offs between increasingly salient AI support: prompt-only, proactive agent, and proactive agent with presence and context (Codellaborator). In a within-subject study (N=18), we find that proactive agents increase efficiency compared to prompt-only paradigm, but also incur workflow disruptions. However, presence indicators and interaction context support alleviated disruptions and improved users’ awareness of AI processes. We underscore trade-offs of Codellaborator on user control, ownership, and code understanding, emphasizing the need to adapt proactivity to programming processes. Our research contributes to the design exploration and evaluation of proactive AI systems, presenting design implications on AI-integrated programming workflow.

arxiv情報

著者 Kevin Pu,Daniel Lazaro,Ian Arawjo,Haijun Xia,Ziang Xiao,Tovi Grossman,Yan Chen
発行日 2025-03-04 15:26:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.SE | Assistance or Disruption? Exploring and Evaluating the Design and Trade-offs of Proactive AI Programming Support はコメントを受け付けていません

Improving Semantic Understanding in Speech Language Models via Brain-tuning

要約

音声言語モデルは、自然言語に対する人間の脳の反応と印象的な程度まで整合しています。
ただし、現在のモデルは、低レベルの音声機能に大きく依存しており、脳内のセマンティック処理のモデル生物としての有用性を制限する脳関連のセマンティクスがないことを示しています。
この作業では、自然な物語を聞いている人々のfMRI録音を微調整することにより、脳に関連するバイアスをモデルに直接誘導することにより、この制限に対処します。
3つの異なる前提条件のモデルファミリでテストした後、脳の調整により、セマンティック言語領域での新しい脳記録との全体的な整合性が向上するだけでなく、このアライメントの低レベルの音声機能への依存も減少することが示されます。
エキサイティングなことに、脳調整が1)さまざまなダウンストリームタスクのパフォーマンスの一貫した改善と2)セマンティックの好みの増加を伴う表現空間につながることをさらに示します。
私たちの結果は、脳シグナルを言語モデルのトレーニングに組み込むことでモデルの意味理解が向上するという収束する証拠を初めて提供します。

要約(オリジナル)

Speech language models align with human brain responses to natural language to an impressive degree. However, current models rely heavily on low-level speech features, indicating they lack brain-relevant semantics which limits their utility as model organisms of semantic processing in the brain. In this work, we address this limitation by inducing brain-relevant bias directly into the models via fine-tuning with fMRI recordings of people listening to natural stories, a process we name brain-tuning. After testing it on 3 different pretrained model families, we show that brain-tuning not only improves overall alignment with new brain recordings in semantic language regions, but also reduces the reliance on low-level speech features for this alignment. Excitingly, we further show that brain-tuning leads to 1) consistent improvements in performance on a range of downstream tasks and 2) a representational space with increased semantic preference. Our results provide converging evidence, for the first time, that incorporating brain signals into the training of language models improves the models’ semantic understanding.

arxiv情報

著者 Omer Moussa,Dietrich Klakow,Mariya Toneva
発行日 2025-03-04 15:26:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Improving Semantic Understanding in Speech Language Models via Brain-tuning はコメントを受け付けていません

Vibration-Assisted Hysteresis Mitigation for Achieving High Compensation Efficiency

要約

腱鞘のメカニズム(TSM)は、低侵襲外科(MIS)アプリケーションで広く使用されていますが、摩擦、逆ラッシュ、および腱伸長のリードによって重大な追跡エラーに重点を置いている固有のヒステリシスが推測されます。
従来のモデリングと補償方法は、これらの非線形性と闘い、広範なパラメーターチューニングが必要です。
これに対処するために、腱の動きの方向に沿って制御された振動運動が適用され、摩擦を緩和して死んだゾーンを減らすために、振動支援のヒステリシス補償アプローチを提案します。
実験結果は、発揮された振動がすべてのテストされた周波数にわたって一貫してヒステリシスを減らし、RMSEを最大23.41%(2.2345 mmから1.7113 mm)に減らし、相関を改善し、より正確なトレーズトラッキングにつながることを示しています。
時間的畳み込みネットワーク(TCN)ベースの補償モデルと組み合わせると、振動はパフォーマンスをさらに向上させ、MAEで85.2%の減少を達成します(1.334 mmから0.1969 mm)。
振動がなければ、TCNベースのアプローチは、同じパラメーター設定でMAEを72.3%(1.334 mmから0.370 mm)削減します。
これらの発見は、振動がヒステリシスを効果的に軽減し、軌道の精度を改善し、より少ないトレーニング可能なパラメーターでより効率的な補償モデルを可能にすることを確認しています。
このアプローチは、TSMベースのロボットアプリケーション、特にMISのスケーラブルで実用的なソリューションを提供します。

要約(オリジナル)

Tendon-sheath mechanisms (TSMs) are widely used in minimally invasive surgical (MIS) applications, but their inherent hysteresis-caused by friction, backlash, and tendon elongation-leads to significant tracking errors. Conventional modeling and compensation methods struggle with these nonlinearities and require extensive parameter tuning. To address this, we propose a vibration-assisted hysteresis compensation approach, where controlled vibrational motion is applied along the tendon’s movement direction to mitigate friction and reduce dead zones. Experimental results demonstrate that the exerted vibration consistently reduces hysteresis across all tested frequencies, decreasing RMSE by up to 23.41% (from 2.2345 mm to 1.7113 mm) and improving correlation, leading to more accurate trajectory tracking. When combined with a Temporal Convolutional Network (TCN)-based compensation model, vibration further enhances performance, achieving an 85.2% reduction in MAE (from 1.334 mm to 0.1969 mm). Without vibration, the TCN-based approach still reduces MAE by 72.3% (from 1.334 mm to 0.370 mm) under the same parameter settings. These findings confirm that vibration effectively mitigates hysteresis, improving trajectory accuracy and enabling more efficient compensation models with fewer trainable parameters. This approach provides a scalable and practical solution for TSM-based robotic applications, particularly in MIS.

arxiv情報

著者 Myeongbo Park,Chunggil An,Junhyun Park,Jonghyun Kang,Minho Hwang
発行日 2025-03-04 15:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Vibration-Assisted Hysteresis Mitigation for Achieving High Compensation Efficiency はコメントを受け付けていません

Improving Oil Slick Trajectory Simulations with Bayesian Optimization

要約

油流出軌道の正確なシミュレーションは、実務家の対応をサポートし、環境的および社会経済的影響を緩和するために不可欠です。
Medslik-IIなどの数値モデルは、オイル粒子の移流、分散、および形質転換プロセスをシミュレートします。
ただし、シミュレーションは、専門知識と手動のキャリブレーションに基づいて、正確なパラメーターチューニングに大きく依存しています。
これらの制限を克服するために、Medslik-II数値油流出モデルをベイジアン最適化フレームワークと統合して、スリックの衛星観測に近いシミュレーションを生成する最適な物理パラメーター構成を繰り返し推定します。
水平方向の拡散率やドリフト係数などの重要なパラメーターに焦点を当て、シミュレートされたオイル分布と観察されたオイル分布の間の時空間的オーバーラップの尺度として、フラクションスキルスコア(FSS)を最大化します。
2021年8月23日から9月4日までにシリアで発生したバニヤの石油事件の枠組みを検証し、12,000ドル以上の石油を超えました。
提案されたアプローチは、デフォルトのパラメーターで初期化されたコントロールシミュレーションと比較して、平均してFSSを5.82%から11.07%に体系的に改善することを示しています。
最適化により、特にドリフトの変動が増加する期間中、複数の時間ステップで一貫した改善がもたらされ、動的環境条件における方法の堅牢性が示されます。

要約(オリジナル)

Accurate simulations of oil spill trajectories are essential for supporting practitioners’ response and mitigating environmental and socioeconomic impacts. Numerical models, such as MEDSLIK-II, simulate advection, dispersion, and transformation processes of oil particles. However, simulations heavily rely on accurate parameter tuning, still based on expert knowledge and manual calibration. To overcome these limitations, we integrate the MEDSLIK-II numerical oil spill model with a Bayesian optimization framework to iteratively estimate the best physical parameter configuration that yields simulation closer to satellite observations of the slick. We focus on key parameters, such as horizontal diffusivity and drift factor, maximizing the Fraction Skill Score (FSS) as a measure of spatio-temporal overlap between simulated and observed oil distributions. We validate the framework for the Baniyas oil incident that occurred in Syria between August 23 and September 4, 2021, which released over 12,000 $m^3$ of oil. We show that, on average, the proposed approach systematically improves the FSS from 5.82% to 11.07% compared to control simulations initialized with default parameters. The optimization results in consistent improvement across multiple time steps, particularly during periods of increased drift variability, demonstrating the robustness of our method in dynamic environmental conditions.

arxiv情報

著者 Gabriele Accarino,Marco M. De Carlo,Igor Atake,Donatello Elia,Anusha L. Dissanayake,Antonio Augusto Sepp Neves,Juan Peña Ibañez,Italo Epicoco,Paola Nassisi,Sandro Fiore,Giovanni Coppini
発行日 2025-03-04 16:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, G.3, physics.ao-ph | Improving Oil Slick Trajectory Simulations with Bayesian Optimization はコメントを受け付けていません

Simulating Human-like Daily Activities with Desire-driven Autonomy

要約

欲望は、人間が複雑な世界と自律的に相互作用するように動機付けます。
対照的に、現在のAIエージェントには、自律性と行動の多様性を制約する命令や報酬機能など、明示的なタスク仕様が必要です。
このホワイトペーパーでは、多次元の欲求を満たすことで動機付けられたタスクを自律的に提案および選択できるようにすることができる、欲望駆動型の自律剤(D2A)を紹介します。
具体的には、D2Aの動機付けフレームワークは、主にニーズの理論に触発された動的価値システムによって構築されています。
それは、社会的相互作用の必要性、個人的な充足、セルフケアなど、人間のような欲求の理解を取り入れています。
各ステップで、エージェントは現在の状態の価値を評価し、一連の候補活動を提案し、本質的な動機と最適な活動を選択します。
テキストベースのシミュレーターであるコンコルディアで実験を行い、エージェントが人間の行動と同様の変動性と適応性を示しながら、コヒーレントで文脈的に関連する日常活動を生成することを実証します。
他のLLMベースのエージェントとの比較分析は、私たちのアプローチがシミュレートされたアクティビティの合理性を大幅に向上させることを示しています。

要約(オリジナル)

Desires motivate humans to interact autonomously with the complex world. In contrast, current AI agents require explicit task specifications, such as instructions or reward functions, which constrain their autonomy and behavioral diversity. In this paper, we introduce a Desire-driven Autonomous Agent (D2A) that can enable a large language model (LLM) to autonomously propose and select tasks, motivated by satisfying its multi-dimensional desires. Specifically, the motivational framework of D2A is mainly constructed by a dynamic Value System, inspired by the Theory of Needs. It incorporates an understanding of human-like desires, such as the need for social interaction, personal fulfillment, and self-care. At each step, the agent evaluates the value of its current state, proposes a set of candidate activities, and selects the one that best aligns with its intrinsic motivations. We conduct experiments on Concordia, a text-based simulator, to demonstrate that our agent generates coherent, contextually relevant daily activities while exhibiting variability and adaptability similar to human behavior. A comparative analysis with other LLM-based agents demonstrates that our approach significantly enhances the rationality of the simulated activities.

arxiv情報

著者 Yiding Wang,Yuxuan Chen,Fangwei Zhong,Long Ma,Yizhou Wang
発行日 2025-03-04 16:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Simulating Human-like Daily Activities with Desire-driven Autonomy はコメントを受け付けていません

Large Language Models are Powerful EHR Encoders

要約

電子健康記録(EHR)は臨床的予測の豊富な可能性を提供しますが、それらの固有の複雑さと不均一性は、従来の機械学習アプローチに大きな課題をもたらします。
非標識EHRデータの大規模なコレクションで訓練されたドメイン固有のEHR基礎モデルは、予測精度と一般化の有望な改善を実証しています。
ただし、彼らのトレーニングは、コーディング基準とヘルスケア慣行における多様で高品質のデータセットと矛盾へのアクセスが制限されています。
この研究では、EHRエンコーダーとして汎用の大規模言語モデル(LLMS)ベースの埋め込み方法を使用する可能性を探ります。
患者の記録を構造化されたマークダウンテキストにシリアル化することにより、コードを人間の読み取り可能な記述子に変換することにより、広大な公共のコーパスで前処理されたLLMの広範な一般化能力を活用して、独自の医療データセットの必要性をバイパスします。
2つの最先端のLLM埋め込みモデル、GTE-QWEN2-7B-InstructおよびLLM2VEC-LLAMA3.1-8B-instructを体系的に評価します。
私たちの結果は、LLMベースの埋め込みが、少ないショット設定であっても、特殊なモデルのパフォーマンスに頻繁に一致するか、それを超えることを示しており、その有効性が基礎となるLLMのサイズと利用可能なコンテキストウィンドウのサイズを拡大していることを示しています。
全体として、我々の調査結果は、EHRエンコードのLLMを再利用することで、従来のEHRモデリングの制限を克服し、より操作可能で一般化可能なヘルスケアアプリケーションを促進することができる臨床予測のためのスケーラブルで効果的なアプローチを提供することを示しています。

要約(オリジナル)

Electronic Health Records (EHRs) offer rich potential for clinical prediction, yet their inherent complexity and heterogeneity pose significant challenges for traditional machine learning approaches. Domain-specific EHR foundation models trained on large collections of unlabeled EHR data have demonstrated promising improvements in predictive accuracy and generalization; however, their training is constrained by limited access to diverse, high-quality datasets and inconsistencies in coding standards and healthcare practices. In this study, we explore the possibility of using general-purpose Large Language Models (LLMs) based embedding methods as EHR encoders. By serializing patient records into structured Markdown text, transforming codes into human-readable descriptors, we leverage the extensive generalization capabilities of LLMs pretrained on vast public corpora, thereby bypassing the need for proprietary medical datasets. We systematically evaluate two state-of-the-art LLM-embedding models, GTE-Qwen2-7B-Instruct and LLM2Vec-Llama3.1-8B-Instruct, across 15 diverse clinical prediction tasks from the EHRSHOT benchmark, comparing their performance to an EHRspecific foundation model, CLIMBR-T-Base, and traditional machine learning baselines. Our results demonstrate that LLM-based embeddings frequently match or exceed the performance of specialized models, even in few-shot settings, and that their effectiveness scales with the size of the underlying LLM and the available context window. Overall, our findings demonstrate that repurposing LLMs for EHR encoding offers a scalable and effective approach for clinical prediction, capable of overcoming the limitations of traditional EHR modeling and facilitating more interoperable and generalizable healthcare applications.

arxiv情報

著者 Stefan Hegselmann,Georg von Arnim,Tillmann Rheude,Noel Kronenberg,David Sontag,Gerhard Hindricks,Roland Eils,Benjamin Wild
発行日 2025-03-04 16:36:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Large Language Models are Powerful EHR Encoders はコメントを受け付けていません

Shifting Power: Leveraging LLMs to Simulate Human Aversion in ABMs of Bilateral Financial Exchanges, A bond market study

要約

政府の債券のような二国間市場には、市場メーカー(MMS)とクライアントの間の分散型および不透明な取引が含まれ、従来のモデリングアプローチに大きな課題を提起します。
これらの複雑さに対処するために、Tribeは、大規模な言語モデル(LLM)で増強されたエージェントベースのモデルを導入して、取引環境での人間のような意思決定をシミュレートします。
Tribeは、公的に利用可能なデータと様式化された事実を活用して、現実的な取引のダイナミクスを捉え、リスク回避や曖昧さの感度などの人間のバイアスをエージェントの意思決定プロセスに統合します。
私たちの研究では、3つの重要な貢献が得られます。まず、LLMSをエージェントベースのモデルに統合してクライアント機関を強化することが実行可能であり、複雑な市場でのエージェント行動のシミュレーションを豊かにすることを実証します。
第二に、LLM内にエンコードされたわずかな貿易回避でさえ、取引活動の完全な停止につながり、エージェントのリスクプロファイルに対する市場のダイナミクスの感度を強調することがわかります。
第三に、人間のような変動性を組み込むことは、パワーダイナミクスをクライアントにシフトし、システム全体に不釣り合いに影響を与え、しばしばシミュレーション全体で体系的なエージェントの崩壊をもたらすことを示します。
これらの発見は、確率的で人間のような決定プロセスを導入するときに生じる緊急の特性を強調し、人工社会のリアリズムと複雑さを高める新しいシステム行動を明らかにします。

要約(オリジナル)

Bilateral markets, such as those for government bonds, involve decentralized and opaque transactions between market makers (MMs) and clients, posing significant challenges for traditional modeling approaches. To address these complexities, we introduce TRIBE an agent-based model augmented with a large language model (LLM) to simulate human-like decision-making in trading environments. TRIBE leverages publicly available data and stylized facts to capture realistic trading dynamics, integrating human biases like risk aversion and ambiguity sensitivity into the decision-making processes of agents. Our research yields three key contributions: first, we demonstrate that integrating LLMs into agent-based models to enhance client agency is feasible and enriches the simulation of agent behaviors in complex markets; second, we find that even slight trade aversion encoded within the LLM leads to a complete cessation of trading activity, highlighting the sensitivity of market dynamics to agents’ risk profiles; third, we show that incorporating human-like variability shifts power dynamics towards clients and can disproportionately affect the entire system, often resulting in systemic agent collapse across simulations. These findings underscore the emergent properties that arise when introducing stochastic, human-like decision processes, revealing new system behaviors that enhance the realism and complexity of artificial societies.

arxiv情報

著者 Alicia Vidler,Toby Walsh
発行日 2025-03-04 16:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, q-fin.TR | Shifting Power: Leveraging LLMs to Simulate Human Aversion in ABMs of Bilateral Financial Exchanges, A bond market study はコメントを受け付けていません

From homeostasis to resource sharing: Biologically and economically aligned multi-objective multi-agent AI safety benchmarks

要約

安全で整列したエージェントAIシステムを開発するには、包括的な経験的テストが必要ですが、多くの既存のベンチマークは、生物学と経済学に沿った重要なテーマを無視しています。
このギャップに対処するために、現在の研究は、AIの安全性に関する現在の主流の議論で無視されている生物学的および経済的に動機付けられたテーマの導入に焦点を当てています。
上記のテーマに8つの主要なベンチマーク環境を実装し、エージェントAI-Sの重要な落とし穴と課題を、恒常的に恒常性の目標を最大化したり、他の人を犠牲にして目的を過度に最適化したり、安全上の制約を無視したり、共有リソースを枯渇させたりすることを説明しました。

要約(オリジナル)

Developing safe, aligned agentic AI systems requires comprehensive empirical testing, yet many existing benchmarks neglect crucial themes aligned with biology and economics, both time-tested fundamental sciences describing our needs and preferences. To address this gap, the present work focuses on introducing biologically and economically motivated themes that have been neglected in current mainstream discussions on AI safety – namely a set of multi-objective, multi-agent alignment benchmarks that emphasize homeostasis for bounded and biological objectives, diminishing returns for unbounded, instrumental, and business objectives, sustainability principle, and resource sharing. We implemented eight main benchmark environments on the above themes, to illustrate key pitfalls and challenges in agentic AI-s, such as unboundedly maximizing a homeostatic objective, over-optimizing one objective at the expense of others, neglecting safety constraints, or depleting shared resources.

arxiv情報

著者 Roland Pihlakas,Joel Pyykkö
発行日 2025-03-04 16:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | From homeostasis to resource sharing: Biologically and economically aligned multi-objective multi-agent AI safety benchmarks はコメントを受け付けていません

Prime Convolutional Model: Breaking the Ground for Theoretical Explainability

要約

この論文では、説明可能なAIに対する新しい理論的アプローチを提案します。
科学的方法に従って、このアプローチは、神経ネットワークの行動を説明および予測する数学的モデルである経験的証拠に基づいて定式化することにあります。
この方法は、制御された環境で作成されたケーススタディに適用します。これは、プライムコンボリューションモデル(略してP-CONV)と呼ばれます。
P-CONVは、最初の100万の自然数で構成されるデータセットで動作し、特定の整数$ m $をmodulo asidulo moduloを特定するように訓練されています。
そのアーキテクチャは、各入力に対して連続した$ b $のシーケンスをコンテキスト的に処理する畳み込み型ニューラルネットワークを使用しています。
経験的アプローチを採用し、P-CONVを活用して、$ m $と$ b $の異なる値を使用して、検証セットの合同の数字クラスを特定します。
結果は、P-CONVの異なる動作(つまり、タスクを実行できるかどうか)を$ m $と$ b $の観点から数学的にモデル化できることを示しています。
推定された数学モデルは、P-CONVがタスクの実行に成功する時期と理由を説明できる興味深いパターンを明らかにします。

要約(オリジナル)

In this paper, we propose a new theoretical approach to Explainable AI. Following the Scientific Method, this approach consists in formulating on the basis of empirical evidence, a mathematical model to explain and predict the behaviors of Neural Networks. We apply the method to a case study created in a controlled environment, which we call Prime Convolutional Model (p-Conv for short). p-Conv operates on a dataset consisting of the first one million natural numbers and is trained to identify the congruence classes modulo a given integer $m$. Its architecture uses a convolutional-type neural network that contextually processes a sequence of $B$ consecutive numbers to each input. We take an empirical approach and exploit p-Conv to identify the congruence classes of numbers in a validation set using different values for $m$ and $B$. The results show that the different behaviors of p-Conv (i.e., whether it can perform the task or not) can be modeled mathematically in terms of $m$ and $B$. The inferred mathematical model reveals interesting patterns able to explain when and why p-Conv succeeds in performing task and, if not, which error pattern it follows.

arxiv情報

著者 Francesco Panelli,Doaa Almhaithawi,Tania Cerquitelli,Alessandro Bellini
発行日 2025-03-04 16:42:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Prime Convolutional Model: Breaking the Ground for Theoretical Explainability はコメントを受け付けていません