Learning to Generate Unit Tests for Automated Debugging

要約

ユニットテスト(UT)は、コードの正確性を評価したり、大規模な言語モデル(LLM)にフィードバックを提供したり、自動テスト生成の動機付けにフィードバックを提供したりするのに役立ちます。
ただし、障害のあるコードが与えられたときにエラーを明らかにするユニットテスト入力の生成と、ゴールドソリューションにアクセスせずにユニットテスト出力を正しく予測する間のトレードオフを明らかにします。
このトレードオフに対処するために、utgenを提案します。これは、タスクの説明に基づいて正しい予想出力とともにエラーを明らかにするユニットテスト入力を生成することをLLMSに教えることを提案します。
モデル生成テストはノイズの多いシグナルを提供できるため(例:誤った予測出力から)、UTDEBUGを提案します。(i)テストタイム計算を介してUTの出力予測を改善し、(ii)過剰発電されたUTに基づいて編集を検証し、バックトラックし、オーバーメッキを避け、LLMSデバッグを効果的に助けます。
UTGENは、エラーを反映するUT入力と正しいUT出力の両方の存在を測定するメトリックに基づいて、他のLLMベースのベースラインを7.59%上回ることを示します。
Utdebugで使用すると、Utgenの単体テストからのフィードバックは、HumanEvalfixでのQWEN2.5 32Bのパス@1の精度を改善し、MBPP+を他のLLMベースのUTジェネレーションベースラインよりも3.17%および12.35%(それぞれ)以上(それぞれ)削減することができます。
最後に、Utgenはコードの正確性のより良い裁判官であり、最先端の訓練された8B報酬モデルをHumaneval+で4.43%上回ることを実証します。

要約(オリジナル)

Unit tests (UTs) play an instrumental role in assessing code correctness as well as providing feedback to large language models (LLMs), motivating automated test generation. However, we uncover a trade-off between generating unit test inputs that reveal errors when given a faulty code and correctly predicting the unit test output without access to the gold solution. To address this trade-off, we propose UTGen, which teaches LLMs to generate unit test inputs that reveal errors along with their correct expected outputs based on task descriptions. Since model-generated tests can provide noisy signals (e.g., from incorrectly predicted outputs), we propose UTDebug that (i) scales UTGen via test-time compute to improve UT output prediction, and (ii) validates and backtracks edits based on multiple generated UTs to avoid overfitting, and helps LLMs debug effectively. We show that UTGen outperforms other LLM-based baselines by 7.59% based on a metric measuring the presence of both error-revealing UT inputs and correct UT outputs. When used with UTDebug, we find that feedback from UTGen’s unit tests improves pass@1 accuracy of Qwen2.5 32B on HumanEvalFix and our own harder debugging split of MBPP+ by over 3.17% and 12.35% (respectively) over other LLM-based UT generation baselines. Lastly, we demonstrate that UTGen is a better judge for code correctness, outperforming a state-of-the-art trained 8B reward model by 4.43% on HumanEval+ with best-of-10 sampling using Qwen2.5 7B.

arxiv情報

著者 Archiki Prasad,Elias Stengel-Eskin,Justin Chih-Yao Chen,Zaid Khan,Mohit Bansal
発行日 2025-02-26 18:03:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | Learning to Generate Unit Tests for Automated Debugging はコメントを受け付けていません

Diagrammatization and Abduction to Improve AI Interpretability With Domain-Aligned Explanations for Medical Diagnosis

要約

多くの視覚化が説明可能なAI(XAI)のために開発されていますが、多くの場合、ユーザーが解釈するためのさらなる推論が必要です。
ハイステークの医学的診断のためにXaiを調査すると、解釈可能性のギャップを減らすために、図式的および誘ductiveな推論とのドメインの整合性を改善することを提案します。
心臓の聴診から心臓診断を予測するための図を開発し、基準評価に基づいて最適な仮説を選択し、臨床的に関連するつぶやき図で説明しました。
アンテホック解釈可能なモデルは、ドメインに関連するオントロジー、表現、および推論プロセスをレバレッジして、専門家ユーザーへの信頼を高めます。
モデリングの研究では、Diagramnetは忠実なつぶやきの形状の説明を提供するだけでなく、ベースラインモデルよりもパフォーマンスが向上することがわかりました。
医学生との定性的なユーザー研究における図式的で誘惑的な説明の解釈可能性と信頼性を示し、臨床的に関連する図式的な説明が技術的顕著性の地図の説明よりも好ましいことを示しています。
この作業は、複雑なドメインにおけるユーザー中心のXAIのドメインに並べられた説明を提供する洞察を提供します。

要約(オリジナル)

Many visualizations have been developed for explainable AI (XAI), but they often require further reasoning by users to interpret. Investigating XAI for high-stakes medical diagnosis, we propose improving domain alignment with diagrammatic and abductive reasoning to reduce the interpretability gap. We developed DiagramNet to predict cardiac diagnoses from heart auscultation, select the best-fitting hypothesis based on criteria evaluation, and explain with clinically-relevant murmur diagrams. The ante-hoc interpretable model leverages domain-relevant ontology, representation, and reasoning process to increase trust in expert users. In modeling studies, we found that DiagramNet not only provides faithful murmur shape explanations, but also has better performance than baseline models. We demonstrate the interpretability and trustworthiness of diagrammatic, abductive explanations in a qualitative user study with medical students, showing that clinically-relevant, diagrammatic explanations are preferred over technical saliency map explanations. This work contributes insights into providing domain-aligned explanations for user-centric XAI in complex domains.

arxiv情報

著者 Brian Y. Lim,Joseph P. Cahaly,Chester Y. F. Sng,Adam Chew
発行日 2025-02-26 18:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG | Diagrammatization and Abduction to Improve AI Interpretability With Domain-Aligned Explanations for Medical Diagnosis はコメントを受け付けていません

Stronger Models are NOT Stronger Teachers for Instruction Tuning

要約

命令チューニングは、大規模な言語モデル(LLM)がユーザーの指示に効果的に従うようにするために広く採用されています。
結果として生じるLLMの命令に従う機能は、チューニングに使用される命令データセットに大きく依存しています。
最近、合成命令データセットは、LLMSの多様で高品質の命令を提供するための経済的に実行可能なソリューションとして浮上しています。
ただし、既存のアプローチでは、通常、より大きなモデルまたはより強力なモデルが指導の調整のためのより強力な教師であると想定しているため、これらのモデルを合成指示の応答ジェネレーターとして採用します。
この論文では、この一般的に採用されている仮定に挑戦します。
5つのベースモデルと20の応答ジェネレーターにわたる広範な実験は、より大きくより強力なモデルが必ずしも小規模モデルの教師を強くしているわけではないことを明らかにしています。
この現象を、より大きなモデルのパラドックスと呼びます。
既存のメトリックは、教師と微調整されている基本モデルの間の互換性を無視するため、応答ジェネレーターの有効性を正確に予測できないことがわかります。
したがって、応答ジェネレーターの有効性を測定するために、互換性調整された報酬(CAR)と名付けられた新しいメトリックを開発します。
5つのベースモデルにわたる実験は、車がほぼすべてのベースラインよりも優れていることを示しています。

要約(オリジナル)

Instruction tuning has been widely adopted to ensure large language models (LLMs) follow user instructions effectively. The resulting instruction-following capabilities of LLMs heavily rely on the instruction datasets used for tuning. Recently, synthetic instruction datasets have emerged as an economically viable solution to provide LLMs diverse and high-quality instructions. However, existing approaches typically assume that larger or stronger models are stronger teachers for instruction tuning, and hence simply adopt these models as response generators to the synthetic instructions. In this paper, we challenge this commonly-adopted assumption. Our extensive experiments across five base models and twenty response generators reveal that larger and stronger models are not necessarily stronger teachers of smaller models. We refer to this phenomenon as the Larger Models’ Paradox. We observe that existing metrics cannot precisely predict the effectiveness of response generators since they ignore the compatibility between teachers and base models being fine-tuned. We thus develop a novel metric, named as Compatibility-Adjusted Reward (CAR) to measure the effectiveness of response generators. Our experiments across five base models demonstrate that CAR outperforms almost all baselines.

arxiv情報

著者 Zhangchen Xu,Fengqing Jiang,Luyao Niu,Bill Yuchen Lin,Radha Poovendran
発行日 2025-02-26 18:10:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Stronger Models are NOT Stronger Teachers for Instruction Tuning はコメントを受け付けていません

Unlock Reliable Skill Inference for Quadruped Adaptive Behavior by Skill Graph

要約

目に見えない野生の状況に迅速に適応できるロボットインテリジェントシステムの開発は、自律的なロボット工学を追求する上で重要な課題の1つです。
足のロボットの分野での歩行安定性とスキル学習におけるいくつかの印象的な進歩がなされてきましたが、迅速な適応能力は自然の動物の能力よりも依然として劣っています。
動物は、生き残るために必要な膨大なスキルセットで生まれ、経験が限られている基本的なスキルを構成することで、すぐに新しいスキルを獲得することができます。
これに触発されて、ロボットの基本的なスキルを整理し、迅速に適応のためにそれらを巧みに再利用するためのロボットスキルグラフ(RSG)という名前の新しいフレームワークを提案します。
ナレッジグラフ(kg)に似た構造を持つRSGは、KGの静的な知識ではなく大規模な動的行動スキルで構成され、ロボットの学習コンテキストと習得スキルの間に存在する暗黙の関係を発見し、ロボットのスキル学習に存在する微妙なパターンを理解するための出発点として機能します。
大規模な実験結果は、RSGが新しいタスクや環境に信頼できるスキル推論を提供し、4倍のロボットが新しいシナリオに適応し、迅速に新しいスキルを学ぶことができることを示しています。

要約(オリジナル)

Developing robotic intelligent systems that can adapt quickly to unseen wild situations is one of the critical challenges in pursuing autonomous robotics. Although some impressive progress has been made in walking stability and skill learning in the field of legged robots, their ability for fast adaptation is still inferior to that of animals in nature. Animals are born with a massive set of skills needed to survive, and can quickly acquire new ones, by composing fundamental skills with limited experience. Inspired by this, we propose a novel framework, named Robot Skill Graph (RSG) for organizing a massive set of fundamental skills of robots and dexterously reusing them for fast adaptation. Bearing a structure similar to the Knowledge Graph (KG), RSG is composed of massive dynamic behavioral skills instead of static knowledge in KG and enables discovering implicit relations that exist in between the learning context and acquired skills of robots, serving as a starting point for understanding subtle patterns existing in robots’ skill learning. Extensive experimental results demonstrate that RSG can provide reliable skill inference upon new tasks and environments, and enable quadruped robots to adapt to new scenarios and quickly learn new skills.

arxiv情報

著者 Hongyin Zhang,Diyuan Shi,Zifeng Zhuang,Han Zhao,Zhenyu Wei,Feng Zhao,Sibo Gai,Shangke Lyu,Donglin Wang
発行日 2025-02-26 18:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Unlock Reliable Skill Inference for Quadruped Adaptive Behavior by Skill Graph はコメントを受け付けていません

InductionBench: LLMs Fail in the Simplest Complexity Class

要約

大規模な言語モデル(LLM)は推論の顕著な改善を示しており、多くの既存のベンチマークは、O1やO3などのモデルによって完全または部分的に対処されています。
ただし、これらのベンチマークの大部分は、数学的公理やプログラミング構文などのルールが明確に定義されている数学的およびコーディングタスクを含む、LLMSがこれらのルールを計画および適用してソリューションに到達できることを明確に定義していることを強調しています。
対照的に、観察されたデータから根本的なルールを推測する帰納的推論は、あまり探求されていません。
このような帰納的プロセスは、研究者が経験的観察から一般的な原則を抽出できるようにするため、科学的発見の中心にあります。
LLMSがこの能力を持っているかどうかを評価するために、LLMSの帰納的推論能力を評価するために設計された新しいベンチマークである誘導ベンチを導入します。
私たちの実験的調査結果は、最も先進的なモデルでさえ、機能のサブレギュラー階層内の最も単純な複雑さクラスを習得するのに苦労しており、現在のLLMSの帰納的推論能力の顕著な不足を強調していることが明らかになりました。
CODAとデータは、https://github.com/wenyueh/inductive_reasoning_benchmarkを利用できます。

要約(オリジナル)

Large language models (LLMs) have shown remarkable improvements in reasoning and many existing benchmarks have been addressed by models such as o1 and o3 either fully or partially. However, a majority of these benchmarks emphasize deductive reasoning, including mathematical and coding tasks in which rules such as mathematical axioms or programming syntax are clearly defined, based on which LLMs can plan and apply these rules to arrive at a solution. In contrast, inductive reasoning, where one infers the underlying rules from observed data, remains less explored. Such inductive processes lie at the heart of scientific discovery, as they enable researchers to extract general principles from empirical observations. To assess whether LLMs possess this capacity, we introduce InductionBench, a new benchmark designed to evaluate the inductive reasoning ability of LLMs. Our experimental findings reveal that even the most advanced models available struggle to master the simplest complexity classes within the subregular hierarchy of functions, highlighting a notable deficiency in current LLMs’ inductive reasoning capabilities. Coda and data are available https://github.com/Wenyueh/inductive_reasoning_benchmark.

arxiv情報

著者 Wenyue Hua,Tyler Wong,Sun Fei,Liangming Pan,Adam Jardine,William Yang Wang
発行日 2025-02-26 18:13:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.FL, cs.LG | InductionBench: LLMs Fail in the Simplest Complexity Class はコメントを受け付けていません

Towards an AI Accountability Policy

要約

商用AIシステムの説明可能性とベンチマーク要件の階層化システムを導入することにより、AIシステムを監督するオフィスを確立することを提案します。
私たちは、全国レベルでどのように複雑なハイリスク技術が正常に規制されてきたかを調べます。
具体的には、米国の医療機器産業と製薬業界(FDAによって規制されている)の既存の規制、欧州連合(AI法)のAIの提案された法律、および既存の米国の差別化法律との類似点を引き出します。
説明責任とユーザーの信頼を促進するために、AIの説明責任メカニズムは、AIシステムの意図された高リスク使用の各カテゴリの範囲化された測定を導入し、そのようなAIシステム間の構造化された比較を可能にします。
入力の影響測定値、公平性統計や高リスクAIシステムのその他のパフォーマンス測定など、説明可能なAI技術を使用することをお勧めします。
リスクの高いAIシステムを透過的に特徴付けるために、内部ベンチマークと自動監査を標準化することを提案します。
このような監査とベンチマークの結果は、パブリックAIレジストリを介して競合するAIシステムの意味のある比較を可能にするために、明確かつ透過的に伝達され、説明されます。
このような標準化された監査、ベンチマーク、および証明書は、それぞれのAIシステムのリスクの高い使用に固有のものとし、欧州連合のAI法におけるAIシステムの適合性評価を構成する可能性があります。

要約(オリジナル)

We propose establishing an office to oversee AI systems by introducing a tiered system of explainability and benchmarking requirements for commercial AI systems. We examine how complex high-risk technologies have been successfully regulated at the national level. Specifically, we draw parallels to the existing regulation for the U.S. medical device industry and the pharmaceutical industry (regulated by the FDA), the proposed legislation for AI in the European Union (the AI Act), and the existing U.S. anti-discrimination legislation. To promote accountability and user trust, AI accountability mechanisms shall introduce standarized measures for each category of intended high-risk use of AI systems to enable structured comparisons among such AI systems. We suggest using explainable AI techniques, such as input influence measures, as well as fairness statistics and other performance measures of high-risk AI systems. We propose to standardize internal benchmarking and automated audits to transparently characterize high-risk AI systems. The results of such audits and benchmarks shall be clearly and transparently communicated and explained to enable meaningful comparisons of competing AI systems via a public AI registry. Such standardized audits, benchmarks, and certificates shall be specific to intended high-risk use of respective AI systems and could constitute conformity assessment for AI systems, e.g., in the European Union’s AI Act.

arxiv情報

著者 Przemyslaw Grabowicz,Adrian Byrne,Cyrus Cousins,Nicholas Perello,Yair Zick
発行日 2025-02-26 18:17:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | Towards an AI Accountability Policy はコメントを受け付けていません

Preference-Based Gradient Estimation for ML-Based Approximate Combinatorial Optimization

要約

組み合わせの最適化(CO)の問題は、医学から物流や製造まで、広範囲の分野で発生します。
多くの場合、正確なソリューションは必要ありませんが、多くのアプリケーションでは高品質のソリューションを迅速に見つける必要があります。
この目的のために、COの既存の非学習非学習近似アルゴリズムを改善するためのデータ駆動型アプローチを提案します。近似アルゴリズムをパラメーター化し、グラフニューラルネットワーク(GNN)をトレーニングして、可能な限り最良のソリューションにつながるパラメーター値を予測します。
私たちのパイプラインは、グラデーション推定を使用して自己監視された方法でエンドツーエンドを訓練し、近似アルゴリズムをブラックボックスとして扱います。
この目的のための新しい勾配推定スキームを提案します。これは、優先順位に基づいた勾配推定と呼ばれます。
私たちのアプローチは、ニューラルネットワークと非学習近似アルゴリズムの利点を組み合わせています。GNNはデータセットから情報を活用して、近似アルゴリズムがより良いソリューションを見つけることを可能にしますが、近似アルゴリズムはソリューションが実現可能であることを保証します。
私たちは、2つのよく知られている組み合わせ最適化の問題、旅行セールスマンの問題と最小Kカットの問題に関するアプローチを検証し、私たちの方法が最先端の学習COソルバーと競争していることを示しています。

要約(オリジナル)

Combinatorial optimization (CO) problems arise in a wide range of fields from medicine to logistics and manufacturing. While exact solutions are often not necessary, many applications require finding high-quality solutions quickly. For this purpose, we propose a data-driven approach to improve existing non-learned approximation algorithms for CO. We parameterize the approximation algorithm and train a graph neural network (GNN) to predict parameter values that lead to the best possible solutions. Our pipeline is trained end-to-end in a self-supervised fashion using gradient estimation, treating the approximation algorithm as a black box. We propose a novel gradient estimation scheme for this purpose, which we call preference-based gradient estimation. Our approach combines the benefits of the neural network and the non-learned approximation algorithm: The GNN leverages the information from the dataset to allow the approximation algorithm to find better solutions, while the approximation algorithm guarantees that the solution is feasible. We validate our approach on two well-known combinatorial optimization problems, the travelling salesman problem and the minimum k-cut problem, and show that our method is competitive with state of the art learned CO solvers.

arxiv情報

著者 Arman Mielke,Uwe Bauknecht,Thilo Strauss,Mathias Niepert
発行日 2025-02-26 18:23:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Preference-Based Gradient Estimation for ML-Based Approximate Combinatorial Optimization はコメントを受け付けていません

Efficient 4D fMRI ASD Classification using Spatial-Temporal-Omics-based Learning Framework

要約

自閉症スペクトラム障害(ASD)は、社会的および行動発達に影響を与える神経発達障害です。
脳の接続性パターンをキャプチャするための非侵襲的ツールである安静状態のfMRIは、早期のASD診断と典型的なコントロール(TC)との分化を支援します。
ただし、平均時系列または完全な4Dデータのいずれかに依存する以前の方法は、空間情報の不足または高い計算コストによって制限されます。
これは、空間情報と時間的情報の両方を保存する効率的なソリューションの必要性を強調しています。
この論文では、ASD分類のためにFMRIから時空間的特徴を効率的に抽出するように設計された、斬新でシンプルで効率的な空間的オミクス学習フレームワークを提案します。
私たちのアプローチは、3D時間ドメイン誘導体を空間的なボクセル間OMICSとして利用することにより、これらの制限に対処します。これは、各ボクセルで時系列の多様な統計的特性をキャプチャしながら、完全な空間分解能を維持します。
一方、機能的な接続性の特徴は、空間的領域間のオミクスとして機能し、脳領域全体の相関をキャプチャします。
ABIDEデータセットに関する広範な実験とアブレーション研究は、私たちのフレームワークが計算効率を維持しながら以前の方法を大幅に上回ることを示しています。
私たちの研究は、特に空間的オミクスベースの学習の領域において、将来のASD研究を通知および前進させる貴重な洞察を提供すると考えています。

要約(オリジナル)

Autism Spectrum Disorder (ASD) is a neurodevelopmental disorder impacting social and behavioral development. Resting-state fMRI, a non-invasive tool for capturing brain connectivity patterns, aids in early ASD diagnosis and differentiation from typical controls (TC). However, previous methods, which rely on either mean time series or full 4D data, are limited by a lack of spatial information or by high computational costs. This underscores the need for an efficient solution that preserves both spatial and temporal information. In this paper, we propose a novel, simple, and efficient spatial-temporal-omics learning framework designed to efficiently extract spatio-temporal features from fMRI for ASD classification. Our approach addresses these limitations by utilizing 3D time-domain derivatives as the spatial-temporal inter-voxel omics, which preserve full spatial resolution while capturing diverse statistical characteristics of the time series at each voxel. Meanwhile, functional connectivity features serve as the spatial-temporal inter-regional omics, capturing correlations across brain regions. Extensive experiments and ablation studies on the ABIDE dataset demonstrate that our framework significantly outperforms previous methods while maintaining computational efficiency. We believe our research offers valuable insights that will inform and advance future ASD studies, particularly in the realm of spatial-temporal-omics-based learning.

arxiv情報

著者 Ziqiao Weng,Weidong Cai,Bo Zhou
発行日 2025-02-26 18:31:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Efficient 4D fMRI ASD Classification using Spatial-Temporal-Omics-based Learning Framework はコメントを受け付けていません

Beyond Linear Approximations: A Novel Pruning Approach for Attention Matrix

要約

大規模な言語モデル(LLM)は、会話型AIから検索やAIアシスタントまで、私たちの日常生活のさまざまな側面を強化する大きな可能性を示しています。
ただし、成長する機能は非常に大きなモデルサイズを犠牲にして提供され、メモリと計算上の制約のためにエッジデバイスへの展開が困難になります。
このペーパーでは、変圧器アーキテクチャのコアコンポーネントである注意マトリックスを近似するために直接最適化するLLM重量プルーニングへの新しいアプローチを紹介します。
線形近似に焦点を当てた既存の方法とは異なり、私たちのアプローチは、ソフトマックス注意メカニズムの非線形性を説明しています。
勾配降下ベースの最適化方法の収束の理論的保証を最適に近い剪定マスクソリューションに提供します。
私たちの経験的結果は、モデルのパフォーマンスを維持しながら、現在の最先端の方法、つまりSparsegptとWandaを大幅に削減しながら、モデルのパフォーマンスを維持する際の非線形剪定アプローチの有効性を示しています。
この作業は、LLMSにおける剪定アルゴリズム設計のための新しい理論的基盤を確立し、リソース制約のデバイスでより効率的なLLM推論への道を開く可能性があります。

要約(オリジナル)

Large Language Models (LLMs) have shown immense potential in enhancing various aspects of our daily lives, from conversational AI to search and AI assistants. However, their growing capabilities come at the cost of extremely large model sizes, making deployment on edge devices challenging due to memory and computational constraints. This paper introduces a novel approach to LLM weight pruning that directly optimizes for approximating the attention matrix, a core component of transformer architectures. Unlike existing methods that focus on linear approximations, our approach accounts for the non-linear nature of the Softmax attention mechanism. We provide theoretical guarantees for the convergence of our Gradient Descent-based optimization method to a near-optimal pruning mask solution. Our empirical results demonstrate the effectiveness of our non-linear pruning approach in maintaining model performance while significantly reducing computational costs, which is beyond the current state-of-the-art methods, i.e., SparseGPT and Wanda, by a large margin. This work establishes a new theoretical foundation for pruning algorithm design in LLMs, potentially paving the way for more efficient LLM inference on resource-constrained devices.

arxiv情報

著者 Yingyu Liang,Jiangxuan Long,Zhenmei Shi,Zhao Song,Yufa Zhou
発行日 2025-02-26 18:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Beyond Linear Approximations: A Novel Pruning Approach for Attention Matrix はコメントを受け付けていません

Less or More: Towards Glanceable Explanations for LLM Recommendations Using Ultra-Small Devices

要約

大規模な言語モデル(LLM)は、日常のアクションを個人AIアシスタントとして推奨する際に顕著な可能性を示していますが、説明可能なAI(XAI)技術がますます利用されており、ユーザーが推奨が与えられる理由を理解するのに役立ちます。
今日のAIアシスタントは、多くの場合、スクリーンスペースが限られているスマートウォッチなどの超小型デバイスにあります。
しかし、LLM生成された説明の冗長性は、このような超小型デバイスでグランス可能なLLMの説明を提供することを困難にします。
これに対処するために、1)プロンプト中に定義されたコンテキストコンポーネントを使用してLLMの説明テキストを空間的に構成し、2)信頼レベルに基づいてユーザーに一時的に適応的な説明を提示しました。
ユーザー調査を実施して、これらのアプローチが、超小型デバイスでLLMの推奨事項と説明と対話する際にユーザーエクスペリエンスにどのように影響したかを理解しました。
結果は、構造化された説明が、説明を読むときにユーザーのアクションへの時間と認知負荷を短縮することを示しました。
常に構造化された説明により、ユーザーのAI推奨事項の受け入れが増加しました。
ただし、ユーザーは、十分で読みやすい詳細がないため、構造化された説明と比較して構造化された説明に満足していませんでした。
さらに、適応的に提示する構造化された説明は、常にオンになっている構造化された説明と比較して、AIのユーザー認識を改善するのにあまり効果的ではありませんでした。
ユーザーのインタビューのフィードバックとともに、結果は、超小型デバイスに表示されるLLM説明のコンテンツとタイミングをパーソナライズする際に留意するようにデザインの影響をもたらしました。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable potential in recommending everyday actions as personal AI assistants, while Explainable AI (XAI) techniques are being increasingly utilized to help users understand why a recommendation is given. Personal AI assistants today are often located on ultra-small devices such as smartwatches, which have limited screen space. The verbosity of LLM-generated explanations, however, makes it challenging to deliver glanceable LLM explanations on such ultra-small devices. To address this, we explored 1) spatially structuring an LLM’s explanation text using defined contextual components during prompting and 2) presenting temporally adaptive explanations to users based on confidence levels. We conducted a user study to understand how these approaches impacted user experiences when interacting with LLM recommendations and explanations on ultra-small devices. The results showed that structured explanations reduced users’ time to action and cognitive load when reading an explanation. Always-on structured explanations increased users’ acceptance of AI recommendations. However, users were less satisfied with structured explanations compared to unstructured ones due to their lack of sufficient, readable details. Additionally, adaptively presenting structured explanations was less effective at improving user perceptions of the AI compared to the always-on structured explanations. Together with users’ interview feedback, the results led to design implications to be mindful of when personalizing the content and timing of LLM explanations that are displayed on ultra-small devices.

arxiv情報

著者 Xinru Wang,Mengjie Yu,Hannah Nguyen,Michael Iuzzolino,Tianyi Wang,Peiqi Tang,Natasha Lynova,Co Tran,Ting Zhang,Naveen Sendhilnathan,Hrvoje Benko,Haijun Xia,Tanya Jonker
発行日 2025-02-26 18:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Less or More: Towards Glanceable Explanations for LLM Recommendations Using Ultra-Small Devices はコメントを受け付けていません