CONSTRUCTA: Automating Commercial Construction Schedules in Fabrication Facilities with Large Language Models

要約

LLMSで計画を自動化することは、伝統的な産業に変革的な機会をもたらしますが、未定の依然として存在しています。
商業建設では、自動化されたスケジューリングの複雑さには、精度を確保するために手動介入が必要になることがよくあります。
私たちは、半導体製造などの複雑なプロジェクトの建設スケジュールを最適化するためにLLMを活用する新しいフレームワークであるConstructaを提案します。
構築物は、以下によって重要な課題に対処します。(1)静的ぼろきれを介して建設固有の知識を統合する。
(2)関連する入力を提供するために、建築の専門知識に触発されたコンテキストサンプリング手法を採用する。
(3)RLHFを使用して、スケジュールを専門家の好みに合わせて建設DPOを展開する。
独自のデータの実験は、欠損値予測で +42.3%、依存関係分析で +79.1%、ベースライン方法と比較して自動計画で +28.9%のパフォーマンスの改善を示し、建設ワークフローに革命を起こし、ドメイン固有のLLM進歩を促す可能性を示しています。

要約(オリジナル)

Automating planning with LLMs presents transformative opportunities for traditional industries, yet remains underexplored. In commercial construction, the complexity of automated scheduling often requires manual intervention to ensure precision. We propose CONSTRUCTA, a novel framework leveraging LLMs to optimize construction schedules in complex projects like semiconductor fabrication. CONSTRUCTA addresses key challenges by: (1) integrating construction-specific knowledge through static RAG; (2) employing context-sampling techniques inspired by architectural expertise to provide relevant input; and (3) deploying Construction DPO to align schedules with expert preferences using RLHF. Experiments on proprietary data demonstrate performance improvements of +42.3% in missing value prediction, +79.1% in dependency analysis, and +28.9% in automated planning compared to baseline methods, showcasing its potential to revolutionize construction workflows and inspire domain-specific LLM advancements.

arxiv情報

著者 Yifan Zhang,Xue Yang
発行日 2025-02-17 17:35:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | CONSTRUCTA: Automating Commercial Construction Schedules in Fabrication Facilities with Large Language Models はコメントを受け付けていません

TokenSkip: Controllable Chain-of-Thought Compression in LLMs

要約

チェーンオブシュート(COT)は、大規模な言語モデル(LLM)の推論能力を高めるのに効果的であることが証明されています。
OpenaiのO1やDeepSeek-R1などの最近の進歩は、推論中にCOTシーケンスの長さを拡大すると、LLMの推論パフォーマンスをさらに高める可能性があることを示唆しています。
ただし、LLMデコードの自己網目上の性質により、COT出力が長くなると、特にCOTが10,000トークンを超える場合、ユーザーエクスペリエンスに悪影響を及ぼします。
この制限に対処するために、COT出力内のトークンのセマンティックの重要性を分析し、推論への貢献が異なることを明らかにします。
この洞察に基づいて、LLMSがより重要性の低いトークンを選択的にスキップし、制御可能なCOT圧縮を可能にするシンプルで効果的なアプローチであるTokenskipを提案します。
さまざまなモデルやタスクにわたる広範な実験は、強力な推論パフォーマンスを維持しながら、COTトークンの使用を削減する際のTokenskipの有効性を示しています。
特に、QWEN2.5-14B-Instructに適用すると、TokenSkipはGSM8Kで推論トークン(313から181)の推論トークンを40%(313から181)減少させ、パフォーマンスは0.4%未満です。

要約(オリジナル)

Chain-of-Thought (CoT) has been proven effective in enhancing the reasoning capabilities of large language models (LLMs). Recent advancements, such as OpenAI’s o1 and DeepSeek-R1, suggest that scaling up the length of CoT sequences during inference could further boost LLM reasoning performance. However, due to the autoregressive nature of LLM decoding, longer CoT outputs lead to a linear increase in inference latency, adversely affecting user experience, particularly when the CoT exceeds 10,000 tokens. To address this limitation, we analyze the semantic importance of tokens within CoT outputs and reveal that their contributions to reasoning vary. Building on this insight, we propose TokenSkip, a simple yet effective approach that enables LLMs to selectively skip less important tokens, allowing for controllable CoT compression. Extensive experiments across various models and tasks demonstrate the effectiveness of TokenSkip in reducing CoT token usage while preserving strong reasoning performance. Notably, when applied to Qwen2.5-14B-Instruct, TokenSkip reduces reasoning tokens by 40% (from 313 to 181) on GSM8K, with less than a 0.4% performance drop.

arxiv情報

著者 Heming Xia,Yongqi Li,Chak Tou Leong,Wenjie Wang,Wenjie Li
発行日 2025-02-17 17:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | TokenSkip: Controllable Chain-of-Thought Compression in LLMs はコメントを受け付けていません

Exploring the Effect of Explanation Content and Format on User Comprehension and Trust in Healthcare

要約

ヘルスケア用のAI駆動型ツールは、医療従事者や患者にとって潜在的に有益であると広く認められています。
がんリスク予測のためのQCANCER回帰ツール。
ただし、これらのツールを信頼するためには、説明が補足する必要があります。
QCancerの予測を説明する際に、説明のコンテンツとフォーマットがユーザーの理解と信頼にどのように影響するかを調べます。
コンテンツに関しては、ShapとOcclusion-1を展開します。
形式に関しては、従来、チャート(SC)およびオクルージョン-1の説明として、チャート(OC)、およびテキスト(OT)としてのSHAP説明を提示します。
私たちは、2セットの利害関係者を使用して実験を実施します。一般大衆(患者を代表する)と医学生(医療従事者を代表する)。
私たちの実験では、コンテンツに基づいたSHAP説明よりも、より高い主観的理解と閉塞1に対する信頼が示されました。
ただし、フォーマットを制御する場合、SCを上回ったOTのみが、この傾向がテキストの好みによって促進されることを示唆しています。
他の調査結果は、コンテンツではなく説明形式が多くの場合、重要な要因であると裏付けました。

要約(オリジナル)

AI-driven tools for healthcare are widely acknowledged as potentially beneficial to health practitioners and patients, e.g. the QCancer regression tool for cancer risk prediction. However, for these tools to be trusted, they need to be supplemented with explanations. We examine how explanations’ content and format affect user comprehension and trust when explaining QCancer’s predictions. Regarding content, we deploy SHAP and Occlusion-1. Regarding format, we present SHAP explanations, conventionally, as charts (SC) and Occlusion-1 explanations as charts (OC) as well as text (OT), to which their simpler nature lends itself. We conduct experiments with two sets of stakeholders: the general public (representing patients) and medical students (representing healthcare practitioners). Our experiments showed higher subjective comprehension and trust for Occlusion-1 over SHAP explanations based on content. However, when controlling for format, only OT outperformed SC, suggesting this trend is driven by preferences for text. Other findings corroborated that explanation format, rather than content, is often the critical factor.

arxiv情報

著者 Antonio Rago,Bence Palfi,Purin Sukpanichnant,Hannibal Nabli,Kavyesh Vivek,Olga Kostopoulou,James Kinross,Francesca Toni
発行日 2025-02-17 17:49:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Exploring the Effect of Explanation Content and Format on User Comprehension and Trust in Healthcare はコメントを受け付けていません

Conversation Routines: A Prompt Engineering Framework for Task-Oriented Dialog Systems

要約

この研究では、大規模な言語モデル(LLM)を使用してタスク指向のダイアログシステムを開発するための構造化されたプロンプトエンジニアリングフレームワークである会話ルーチン(CR)を紹介します。
LLMは顕著な自然言語理解能力を示していますが、複雑なビジネスワークフローを確実に実行するためにそれらを設計することは依然として困難です。
提案されたCRフレームワークにより、自然言語仕様を通じて会話エージェントシステム(CAS)の開発が可能になり、LLMプロンプトにタスク指向のロジックを埋め込みます。
このアプローチは、行動の一貫性を維持しながら、複雑な会話ワークフローを設計および実装するための体系的な方法論を提供します。
2つの概念実装の実装を通じてフレームワークの有効性を実証します:列車のチケット予約システムとインタラクティブなトラブルシューティングカピロー。
これらのケーススタディは、自然な会話の柔軟性を維持しながら、洗練された行動パターンと決定論理をエンコードするCRの能力を検証します。
結果は、CRがソフトウェアエンジニアによって開発されたカスタム関数(ツール)を活用しながら、ドメインの専門家が自然言語で会話のワークフローを設計できることを示しており、開発者がコアAPI実装に焦点を当て、ドメインの専門家が会話のデザインを処理する効率的な責任の分割を作成します。
フレームワークはアクセシビリティと適応性の有望を示していますが、計算オーバーヘッド、非決定論的行動、ドメイン固有のロジック最適化などの重要な課題を特定します。
将来の研究の方向性には、目標指向のグレーディング基準によって駆動されるプロンプトエンジニアリングフレームワークに基づくCR評価方法、複雑なマルチエージェント相互作用のスケーラビリティの向上、および多様なビジネスアプリケーション全体の特定された制限に対処するためのシステムの堅牢性を高めることが含まれます。

要約(オリジナル)

This study introduces Conversation Routines (CR), a structured prompt engineering framework for developing task-oriented dialog systems using Large Language Models (LLMs). While LLMs demonstrate remarkable natural language understanding capabilities, engineering them to reliably execute complex business workflows remains challenging. The proposed CR framework enables the development of Conversation Agentic Systems (CAS) through natural language specifications, embedding task-oriented logic within LLM prompts. This approach provides a systematic methodology for designing and implementing complex conversational workflows while maintaining behavioral consistency. We demonstrate the framework’s effectiveness through two proof-of-concept implementations: a Train Ticket Booking System and an Interactive Troubleshooting Copilot. These case studies validate CR’s capability to encode sophisticated behavioral patterns and decision logic while preserving natural conversational flexibility. Results show that CR enables domain experts to design conversational workflows in natural language while leveraging custom functions (tools) developed by software engineers, creating an efficient division of responsibilities where developers focus on core API implementation and domain experts handle conversation design. While the framework shows promise in accessibility and adaptability, we identify key challenges including computational overhead, non-deterministic behavior, and domain-specific logic optimization. Future research directions include CR evaluation methods based on prompt engineering frameworks driven by goal-oriented grading criteria, improving scalability for complex multi-agent interactions, and enhancing system robustness to address the identified limitations across diverse business applications.

arxiv情報

著者 Giorgio Robino
発行日 2025-02-17 17:55:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET, cs.HC, cs.PL | Conversation Routines: A Prompt Engineering Framework for Task-Oriented Dialog Systems はコメントを受け付けていません

Meta-Statistical Learning: Supervised Learning of Statistical Inference

要約

この作業は、大規模な言語モデル(LLM)の成功を促進するツールと原則を再利用して、個々のデータポイントのラベルではなくデータ生成分布のプロパティを予測することである分布レベルのタスクに取り組むために再利用できることを示しています。
これらのタスクには、パラメーターの推定、仮説テスト、相互情報の推定などの統計的推論の問題が含まれます。
監督は通常、個々のデータポイントに結び付けられるため、従来の機械学習パイプライン内でこれらのタスクをフレーミングすることは困難です。
統計的推論タスクを監視された学習問題として再定式化するマルチインスタンス学習に触発されたフレームワークであるメタ統計学習を提案します。
このアプローチでは、データセット全体が、分布レベルのパラメーターを予測するニューラルネットワークへの単一の入力として扱われます。
位置エンコーディングのない変圧器ベースのアーキテクチャは、順列不変性の特性により、自然に適合します。
大規模な合成データセットをトレーニングすることにより、メタ統計モデルは、変圧器ベースのLLMのスケーラビリティと最適化インフラストラクチャを活用できます。
仮説テストと相互情報の推定におけるアプリケーションでのフレームワークの汎用性を実証します。特に、従来のニューラル方法が苦労している小さなデータセットでは、強力なパフォーマンスを示しています。

要約(オリジナル)

This work demonstrates that the tools and principles driving the success of large language models (LLMs) can be repurposed to tackle distribution-level tasks, where the goal is to predict properties of the data-generating distribution rather than labels for individual datapoints. These tasks encompass statistical inference problems such as parameter estimation, hypothesis testing, or mutual information estimation. Framing these tasks within traditional machine learning pipelines is challenging, as supervision is typically tied to individual datapoint. We propose meta-statistical learning, a framework inspired by multi-instance learning that reformulates statistical inference tasks as supervised learning problems. In this approach, entire datasets are treated as single inputs to neural networks, which predict distribution-level parameters. Transformer-based architectures, without positional encoding, provide a natural fit due to their permutation-invariance properties. By training on large-scale synthetic datasets, meta-statistical models can leverage the scalability and optimization infrastructure of Transformer-based LLMs. We demonstrate the framework’s versatility with applications in hypothesis testing and mutual information estimation, showing strong performance, particularly for small datasets where traditional neural methods struggle.

arxiv情報

著者 Maxime Peyrard,Kyunghyun Cho
発行日 2025-02-17 18:04:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Meta-Statistical Learning: Supervised Learning of Statistical Inference はコメントを受け付けていません

Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning

要約

大規模な言語モデルは、数学などの複雑な数学的推論ベンチマークで大きな進歩を達成しています。
ただし、それらの実質的な計算要件は、実際の展開の課題を提示しています。
モデルの量子化は、より低い精度とビット幅の表現を使用することにより、メモリの使用量と計算コストを削減するための効果的な戦略として浮上しています。
この研究では、数学的推論タスクに対する量子化の影響を体系的に評価します。
我々の結果は、AWQやGPTQなどの積極的な量子化方法が、特に数値計算と推論計画において、LLAMA-3モデルで最大32.39%の精度分解(平均11.31%)を導入することを示しています。
これに対処するために、定性的能力分析と定量的エラー評価を組み合わせた多次元評価フレームワークを紹介します。
さらに、ターゲットを絞った回復戦略を開発し、4 GPUで3分間のみ545タスク固有の例で微調整された量子化モデルが、推論機能がほぼすべての精度レベルに効果的に回復することを示しています。
さらに、エラー評価パイプラインは、3,366の障害ケースにわたってエラーの診断と局所化の精度を98.9%の精度で達成し、量子化誘導分解を緩和するための実用的な洞察を提供します。

要約(オリジナル)

Large language models have achieved significant advancements in complex mathematical reasoning benchmarks, such as MATH. However, their substantial computational requirements present challenges for practical deployment. Model quantization has emerged as an effective strategy to reduce memory usage and computational costs by employing lower precision and bit-width representations. In this study, we systematically evaluate the impact of quantization on mathematical reasoning tasks. Our results demonstrate that aggressive quantization methods like AWQ and GPTQ introduce up to 32.39% accuracy degradation (average 11.31%) on Llama-3 models, particularly in numerical computation and reasoning planning. To address this, we introduce a multidimensional evaluation framework combining qualitative capability analysis and quantitative error assessment. We further develop targeted recovery strategies, showing that fine-tuning quantized models on only 545 task-specific examples for 3 minutes on 4 GPUs effectively restores reasoning capabilities to near full-precision levels. Additionally, our error assessment pipeline achieves 98.9% accuracy in diagnosing and localizing errors across 3,366 failure cases, providing actionable insights for mitigating quantization-induced degradation.

arxiv情報

著者 Zhen Li,Yupeng Su,Runming Yang,Congkai Xie,Zheng Wang,Zhongwei Xie,Ngai Wong,Hongxia Yang
発行日 2025-02-17 18:11:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning はコメントを受け付けていません

A Study on Leveraging Search and Self-Feedback for Agent Reasoning

要約

最近の作品は、推論中に検索を組み込むことで、言語エージェントの推論能力を大幅に改善できることを実証しています。
いくつかのアプローチは、グラウンドトゥルースを利用したり、モデル自身の生成されたフィードバックに依存したりする場合があります。
検索アルゴリズムは、このフィードバックを使用して、さまざまな推論パスを調査および悪用するための基準を更新する値を作成します。
この研究では、検索とモデルのセルフフィードバックを推論タスクに活用する方法を調査します。
まず、数学の推論の検索中に、地上の真実のフィードバックとセルフフィードバックの違いを探ります。
第二に、これらのギャップに対処するためのツールコールや設計ドメイン固有のアプローチなど、より複雑なタスクに検索技術を適用することの制限を観察します。
私たちの実験は、検索中にセルフフィードバックに依存する場合の一般化に関連する課題を明らかにしています。
検索が効果的に機能するには、接地の真実へのアクセスが必要か、特定のタスクのために慎重に設計する必要があります。

要約(オリジナル)

Recent works have demonstrated that incorporating search during inference can significantly improve reasoning capabilities of language agents. Some approaches may make use of the ground truth or rely on model’s own generated feedback. The search algorithm uses this feedback to then produce values that will update its criterion for exploring and exploiting various reasoning paths. In this study, we investigate how search and model’s self-feedback can be leveraged for reasoning tasks. First, we explore differences in ground-truth feedback and self-feedback during search for math reasoning. Second, we observe limitations in applying search techniques to more complex tasks like tool-calling and design domain-specific approaches to address these gaps. Our experiments reveal challenges related to generalization when solely relying on self-feedback during search. For search to work effectively, either access to the ground-truth is needed or feedback mechanisms need to be carefully designed for the specific task.

arxiv情報

著者 Karthikeyan K,Michelle Yuan,Elman Mansimov,Katerina Margatina,Anurag Pratik,Daniele Bonadiman,Monica Sunkara,Yi Zhang,Yassine Benajiba
発行日 2025-02-17 18:12:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Study on Leveraging Search and Self-Feedback for Agent Reasoning はコメントを受け付けていません

Machine Learning for Equitable Load Shedding: Real-time Solution via Learning Binding Constraints

要約

電力システムでのタイムリーで効果的な負荷削減は、供給需要のバランスを維持し、停電を防ぐために重要です。
システム内の特定の領域に対する負荷制限バイアスを排除するために、最適化ベースの方法は、経済的考慮事項と公平性の考慮事項のバランスをとるために独自に配置されています。
ただし、結果の最適化問題には複雑な制約が含まれます。これは、解決に時間がかかる可能性があるため、負荷制限のリアルタイム要件を満たすことができません。
この課題に取り組むために、このペーパーでは、最適化ベースの負荷制限問題のミリ秒レベルの計算を有効にするための効率的な機械学習アルゴリズムを提示します。
3バスのおもちゃの例とリアルなRTS-GMLCシステムの両方に関する数値研究により、公平でリアルタイムの負荷制限決定を提供するための提案されたアルゴリズムの妥当性と効率が実証されています。

要約(オリジナル)

Timely and effective load shedding in power systems is critical for maintaining supply-demand balance and preventing cascading blackouts. To eliminate load shedding bias against specific regions in the system, optimization-based methods are uniquely positioned to help balance between economical and equity considerations. However, the resulting optimization problem involves complex constraints, which can be time-consuming to solve and thus cannot meet the real-time requirements of load shedding. To tackle this challenge, in this paper we present an efficient machine learning algorithm to enable millisecond-level computation for the optimization-based load shedding problem. Numerical studies on both a 3-bus toy example and a realistic RTS-GMLC system have demonstrated the validity and efficiency of the proposed algorithm for delivering equitable and real-time load shedding decisions.

arxiv情報

著者 Yuqi Zhou,Joseph Severino,Sanjana Vijayshankar,Juliette Ugirumurera,Jibo Sanyal
発行日 2025-02-17 18:19:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY | Machine Learning for Equitable Load Shedding: Real-time Solution via Learning Binding Constraints はコメントを受け付けていません

Relational Norms for Human-AI Cooperation

要約

社会的人工知能を設計および対話する方法は、AIがエミュレートまたは占有することを意図している社会関係の役割に依存します。
人間社会では、教師の学生、親子、隣人、兄弟、または雇用主と従業員などの関係は、階層、ケア、取引、交尾などの協同機能を処方または禁止する特定の規範に支配されています。
これらの規範は、各パートナーに適切なものの判断を形作ります。
たとえば、職場の規範により、上司は従業員に注文を行うことができますが、その逆ではなく、階層的および取引の期待を反映することができます。
大規模な言語モデルを搭載したAIエージェントとチャットボットは、アシスタント、メンタルヘルスプロバイダー、チューター、またはロマンチックなパートナーなどの人間の立場に類似した役割を果たすようにますます設計されているため、人間の関係規範が人間に拡張すべきかどうか、どのように拡張すべきかを調べることが不可欠です。
– AIインタラクション。
私たちの分析では、意識的な経験や疲労に対する免疫の欠如など、AIシステムと人間の違いが、関係固有の機能を果たし、対応する規範を順守するAIの能力にどのように影響するかを探ります。
この分析は、哲学者、心理学者、関係科学者、倫理学者、法律専門家、AIの研究者による協力的な努力であり、AIシステムの設計、ユーザー行動、および規制に重要な意味を持ちます。
AIシステムは、特定の社会関係の役割における可用性の向上や一貫性などの大きな利点を提供できることを受け入れますが、不健康な依存関係や非現実的な期待を促進するリスクもあり、人間の人間の関係に波及する可能性があります。
私たちは、人間との相互作用が倫理的で、信頼できる、そして人間の幸福にとって有利であることを保証するために、適切な人間とaiの関係規範を理解し、思慮深く形作る(または実装)することを提案します。

要約(オリジナル)

How we should design and interact with social artificial intelligence depends on the socio-relational role the AI is meant to emulate or occupy. In human society, relationships such as teacher-student, parent-child, neighbors, siblings, or employer-employee are governed by specific norms that prescribe or proscribe cooperative functions including hierarchy, care, transaction, and mating. These norms shape our judgments of what is appropriate for each partner. For example, workplace norms may allow a boss to give orders to an employee, but not vice versa, reflecting hierarchical and transactional expectations. As AI agents and chatbots powered by large language models are increasingly designed to serve roles analogous to human positions – such as assistant, mental health provider, tutor, or romantic partner – it is imperative to examine whether and how human relational norms should extend to human-AI interactions. Our analysis explores how differences between AI systems and humans, such as the absence of conscious experience and immunity to fatigue, may affect an AI’s capacity to fulfill relationship-specific functions and adhere to corresponding norms. This analysis, which is a collaborative effort by philosophers, psychologists, relationship scientists, ethicists, legal experts, and AI researchers, carries important implications for AI systems design, user behavior, and regulation. While we accept that AI systems can offer significant benefits such as increased availability and consistency in certain socio-relational roles, they also risk fostering unhealthy dependencies or unrealistic expectations that could spill over into human-human relationships. We propose that understanding and thoughtfully shaping (or implementing) suitable human-AI relational norms will be crucial for ensuring that human-AI interactions are ethical, trustworthy, and favorable to human well-being.

arxiv情報

著者 Brian D. Earp,Sebastian Porsdam Mann,Mateo Aboy,Edmond Awad,Monika Betzler,Marietjie Botes,Rachel Calcott,Mina Caraccio,Nick Chater,Mark Coeckelbergh,Mihaela Constantinescu,Hossein Dabbagh,Kate Devlin,Xiaojun Ding,Vilius Dranseika,Jim A. C. Everett,Ruiping Fan,Faisal Feroz,Kathryn B. Francis,Cindy Friedman,Orsolya Friedrich,Iason Gabriel,Ivar Hannikainen,Julie Hellmann,Arasj Khodadade Jahrome,Niranjan S. Janardhanan,Paul Jurcys,Andreas Kappes,Maryam Ali Khan,Gordon Kraft-Todd,Maximilian Kroner Dale,Simon M. Laham,Benjamin Lange,Muriel Leuenberger,Jonathan Lewis,Peng Liu,David M. Lyreskog,Matthijs Maas,John McMillan,Emilian Mihailov,Timo Minssen,Joshua Teperowski Monrad,Kathryn Muyskens,Simon Myers,Sven Nyholm,Alexa M. Owen,Anna Puzio,Christopher Register,Madeline G. Reinecke,Adam Safron,Henry Shevlin,Hayate Shimizu,Peter V. Treit,Cristina Voinea,Karen Yan,Anda Zahiu,Renwen Zhang,Hazem Zohny,Walter Sinnott-Armstrong,Ilina Singh,Julian Savulescu,Margaret S. Clark
発行日 2025-02-17 18:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET | Relational Norms for Human-AI Cooperation はコメントを受け付けていません

Using the Path of Least Resistance to Explain Deep Networks

要約

広く使用されている公理パスベースの属性法である統合勾配(IG)は、ベースラインから入力までの直線パスに沿ってモデル勾配を統合することにより、入力機能に重要性スコアを割り当てます。
場合によっては効果的ですが、まっすぐな経路が欠陥のある帰属につながる可能性があることを示します。
このホワイトペーパーでは、これらの誤った違いの原因を特定し、入力空間をリーマニアの多様体として扱う代替アプローチを提案します。測地測定に沿って勾配を統合することにより、属性を計算します。
この方法と呼びますGeodeSic Integrated Gradients(ギグ)。
測地線パスを近似するために、2つの手法を紹介します。小さなモデルのためのK-Nearest Neighboursベースのアプローチと、より大きなモデルの確率的変異推論ベースの方法です。
さらに、新しい公理、強い完全性を提案し、IGによって満たされた公理を拡張します。
このプロパティは、帰属方法に望ましいものであり、ギグがそれを満たす唯一の方法であることを示します。
合成データと現実世界の両方のデータの実験を通じて、ギグがIGを含む既存の説明可能性方法を上回ることを実証します。

要約(オリジナル)

Integrated Gradients (IG), a widely used axiomatic path-based attribution method, assigns importance scores to input features by integrating model gradients along a straight path from a baseline to the input. While effective in some cases, we show that straight paths can lead to flawed attributions. In this paper, we identify the cause of these misattributions and propose an alternative approach that treats the input space as a Riemannian manifold, computing attributions by integrating gradients along geodesics. We call this method Geodesic Integrated Gradients (GIG). To approximate geodesic paths, we introduce two techniques: a k-Nearest Neighbours-based approach for smaller models and a Stochastic Variational Inference-based method for larger ones. Additionally, we propose a new axiom, Strong Completeness, extending the axioms satisfied by IG. We show that this property is desirable for attribution methods and that GIG is the only method that satisfies it. Through experiments on both synthetic and real-world data, we demonstrate that GIG outperforms existing explainability methods, including IG.

arxiv情報

著者 Sina Salek,Joseph Enguehard
発行日 2025-02-17 18:29:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Using the Path of Least Resistance to Explain Deep Networks はコメントを受け付けていません