Uncertainty Comes for Free: Human-in-the-Loop Policies with Diffusion Models

要約

Human-in-the-Loop(HITL)ロボットの展開は、人間のオペレーターが展開時にロボット行動を介入して調整し、成功率を改善できる半自律的なパラダイムとして、学界と産業の両方で大きな注目を集めています。
ただし、継続的な人間の監視と介入は、多数のロボットを展開する際に非常に労働集約的で非実用的である可能性があります。
この制限に対処するために、拡散ポリシーが必要な場合にのみ積極的に人間の援助を求めることを可能にする方法を提案し、絶え間ない人間の監視への依存を減らします。
これを達成するために、拡散ポリシーの生成プロセスを活用して、トレーニング中にオペレーターの相互作用を必要とせずに、自律剤が展開時間にオペレーターの支援を要求することを決定できる不確実性ベースのメトリックを計算します。
さらに、自律性のパフォーマンスを向上させるために、微調整拡散ポリシーの効率的なデータ収集に同じ方法を使用できることを示します。
シミュレートされた現実世界環境からの実験結果は、さまざまなシナリオの展開中のポリシーパフォーマンスを強化することを示しています。

要約(オリジナル)

Human-in-the-loop (HitL) robot deployment has gained significant attention in both academia and industry as a semi-autonomous paradigm that enables human operators to intervene and adjust robot behaviors at deployment time, improving success rates. However, continuous human monitoring and intervention can be highly labor-intensive and impractical when deploying a large number of robots. To address this limitation, we propose a method that allows diffusion policies to actively seek human assistance only when necessary, reducing reliance on constant human oversight. To achieve this, we leverage the generative process of diffusion policies to compute an uncertainty-based metric based on which the autonomous agent can decide to request operator assistance at deployment time, without requiring any operator interaction during training. Additionally, we show that the same method can be used for efficient data collection for fine-tuning diffusion policies in order to improve their autonomous performance. Experimental results from simulated and real-world environments demonstrate that our approach enhances policy performance during deployment for a variety of scenarios.

arxiv情報

著者 Zhanpeng He,Yifeng Cao,Matei Ciocarlie
発行日 2025-05-08 17:10:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Uncertainty Comes for Free: Human-in-the-Loop Policies with Diffusion Models はコメントを受け付けていません

Barren Plateaus in Variational Quantum Computing

要約

変分量子コンピューティングは、多様な地域にアプリケーションを備えた柔軟な計算パラダイムを提供します。
しかし、彼らの可能性を実現するための重要な障害は、不毛のプラトー(BP)現象です。
モデルがBPを示すと、そのパラメーター最適化ランドスケープは指数関数的にフラットになり、問題のサイズが大きくなるにつれて機能しません。
重要なことに、アルゴリズムのすべての感動的な部分 – アンサッツの選択、初期状態、観察可能、損失関数、ハードウェアノイズ – は、不適切にBPSにつながる可能性があります。
BPSが訓練可能性に大きな影響を与えるため、研究者は、その効果を理解し、軽減するための理論的およびヒューリスティックな方法を開発するためにかなりの努力を捧げてきました。
その結果、BPSの研究は、量子最適制御、テンソルネットワーク、学習理論など、他の分野に影響を与え、交差する研究の繁栄した研究分野になりました。
この記事では、BP現象の現在の理解に関する包括的なレビューを提供します。

要約(オリジナル)

Variational quantum computing offers a flexible computational paradigm with applications in diverse areas. However, a key obstacle to realizing their potential is the Barren Plateau (BP) phenomenon. When a model exhibits a BP, its parameter optimization landscape becomes exponentially flat and featureless as the problem size increases. Importantly, all the moving pieces of an algorithm — choices of ansatz, initial state, observable, loss function and hardware noise — can lead to BPs when ill-suited. Due to the significant impact of BPs on trainability, researchers have dedicated considerable effort to develop theoretical and heuristic methods to understand and mitigate their effects. As a result, the study of BPs has become a thriving area of research, influencing and cross-fertilizing other fields such as quantum optimal control, tensor networks, and learning theory. This article provides a comprehensive review of the current understanding of the BP phenomenon.

arxiv情報

著者 Martin Larocca,Supanut Thanasilp,Samson Wang,Kunal Sharma,Jacob Biamonte,Patrick J. Coles,Lukasz Cincio,Jarrod R. McClean,Zoë Holmes,M. Cerezo
発行日 2025-05-08 17:14:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph, stat.ML | Barren Plateaus in Variational Quantum Computing はコメントを受け付けていません

RL-DAUNCE: Reinforcement Learning-Driven Data Assimilation with Uncertainty-Aware Constrained Ensembles

要約

機械学習は、データ同化を強化するための強力なツールになりました。
監督された学習は依然として標準的な方法ですが、Rehnection Learning(RL)は、モデルの予測と観測と動的にバランスをとることにより、データ同化の反復性に自然に適合する順次意思決定フレームワークを通じて独自の利点を提供します。
RL-Daunceを開発します。RL-Daunceは、3つの重要な側面を通じて物理的制約を伴うデータ同化を強化する新しいRLベースの方法です。
第一に、RL-Daunceは機械学習の計算効率を継承し、従来のデータ同化方法でアンサンブルメンバーをミラーリングするためにエージェントを独自に構成します。
第二に、RL-Daunceは、複数のアンサンブルメンバーを進めて、単純な平均状態の最適化を超えて移動することにより、不確実性の定量化を強調しています。
第三に、RL-Daunceのエージェントとしてのアンサンブルデザインは、同化プロセス中の物理的制約の施行を促進します。これは、状態の推定とその後の予測を改善するために重要です。
原始的な最適化戦略は、制約を強制するために開発されており、学習プロセス全体で制約の満足度を確保するために報酬機能を動的に罰します。
また、状態の可変境界は、RLアクション空間を制約することにより尊重されます。
一緒に、これらの機能は、効率を犠牲にすることなく物理的な一貫性を確保します。
RL-Daunceは、強く非ガウスの特徴と複数の物理的制約を特徴とする断続的な大気現象であるMadden-Julian振動に適用されます。
RL-Daunceは、標準のアンサンブルカルマンフィルター(ENKF)を上回ります。これは、物理的な制約の違反により壊滅的に失敗します。
特に、RL-Daunceは、特に断続的な信号の回復、極端なイベントのキャプチャ、不確実性の定量化において、制約されたENKFのパフォーマンスと一致します。

要約(オリジナル)

Machine learning has become a powerful tool for enhancing data assimilation. While supervised learning remains the standard method, reinforcement learning (RL) offers unique advantages through its sequential decision-making framework, which naturally fits the iterative nature of data assimilation by dynamically balancing model forecasts with observations. We develop RL-DAUNCE, a new RL-based method that enhances data assimilation with physical constraints through three key aspects. First, RL-DAUNCE inherits the computational efficiency of machine learning while it uniquely structures its agents to mirror ensemble members in conventional data assimilation methods. Second, RL-DAUNCE emphasizes uncertainty quantification by advancing multiple ensemble members, moving beyond simple mean-state optimization. Third, RL-DAUNCE’s ensemble-as-agents design facilitates the enforcement of physical constraints during the assimilation process, which is crucial to improving the state estimation and subsequent forecasting. A primal-dual optimization strategy is developed to enforce constraints, which dynamically penalizes the reward function to ensure constraint satisfaction throughout the learning process. Also, state variable bounds are respected by constraining the RL action space. Together, these features ensure physical consistency without sacrificing efficiency. RL-DAUNCE is applied to the Madden-Julian Oscillation, an intermittent atmospheric phenomenon characterized by strongly non-Gaussian features and multiple physical constraints. RL-DAUNCE outperforms the standard ensemble Kalman filter (EnKF), which fails catastrophically due to the violation of physical constraints. Notably, RL-DAUNCE matches the performance of constrained EnKF, particularly in recovering intermittent signals, capturing extreme events, and quantifying uncertainties, while requiring substantially less computational effort.

arxiv情報

著者 Pouria Behnoudfar,Nan Chen
発行日 2025-05-08 17:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math-ph, math.MP | RL-DAUNCE: Reinforcement Learning-Driven Data Assimilation with Uncertainty-Aware Constrained Ensembles はコメントを受け付けていません

Multi-objective optimisation via the R2 utilities

要約

多目的最適化の目標は、複数の目標間の可能な限り最高のトレードオフを説明するポイントのコレクションを特定することです。
このベクトル値の最適化問題を解決するために、実践者はしばしば、多目的問題を単一客観的な問題のコレクションに変換するために、スカラ化関数の使用に訴えます。
この一連のスカラリッシュされた問題は、従来の単一目的の最適化手法を使用して解決できます。
この作業では、この条約を一般的な数学的枠組みに形式化します。
この戦略が、元の多目的最適化問題を、セットで定義された単一の客観的最適化問題にどのように効果的に再astする方法を示します。
この新しい問題の適切なクラスの目的関数は、R2ユーティリティです。これは、規模の最適化問題にわたって加重積分として定義されるユーティリティ関数です。
私たちの作業の一環として、これらのユーティリティは、貪欲な最適化アルゴリズムを使用して効果的に最適化できる単調および亜式セット機能であることを示しています。
次に、これらの貪欲なアルゴリズムのパフォーマンスを理論的および経験的に分析します。
私たちの分析は、主にベイジアンの最適化に焦点を当てています。これは、ブラックボックスの最適化のための人気のある確率的枠組みです。

要約(オリジナル)

The goal of multi-objective optimisation is to identify a collection of points which describe the best possible trade-offs between the multiple objectives. In order to solve this vector-valued optimisation problem, practitioners often appeal to the use of scalarisation functions in order to transform the multi-objective problem into a collection of single-objective problems. This set of scalarised problems can then be solved using traditional single-objective optimisation techniques. In this work, we formalise this convention into a general mathematical framework. We show how this strategy effectively recasts the original multi-objective optimisation problem into a single-objective optimisation problem defined over sets. An appropriate class of objective functions for this new problem are the R2 utilities, which are utility functions that are defined as a weighted integral over the scalarised optimisation problems. As part of our work, we show that these utilities are monotone and submodular set functions which can be optimised effectively using greedy optimisation algorithms. We then analyse the performance of these greedy algorithms both theoretically and empirically. Our analysis largely focusses on Bayesian optimisation, which is a popular probabilistic framework for black-box optimisation.

arxiv情報

著者 Ben Tu,Nikolas Kantas,Robert M. Lee,Behrang Shafei
発行日 2025-05-08 17:48:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Multi-objective optimisation via the R2 utilities はコメントを受け付けていません

Facets of Disparate Impact: Evaluating Legally Consistent Bias in Machine Learning

要約

現在の法的基準を活用して、斬新なメトリック「客観的公平性インデックス」を使用して、限界利益と客観的テストのレンズを通してバイアスを定義します。
このインデックスは、客観的テストのコンテキストニュアンスとメトリックの安定性を組み合わせて、法的に一貫した信頼できる尺度を提供します。
客観的な公平性インデックスを利用して、メトリックの実用的および理論的意義を強調して、COMPAS(再犯予測)などの機密性の高い機械学習アプリケーションに関する新たな洞察を提供します。
客観的な公平性インデックスにより、差別的なテストと全身性格差を区別できます。

要約(オリジナル)

Leveraging current legal standards, we define bias through the lens of marginal benefits and objective testing with the novel metric ‘Objective Fairness Index’. This index combines the contextual nuances of objective testing with metric stability, providing a legally consistent and reliable measure. Utilizing the Objective Fairness Index, we provide fresh insights into sensitive machine learning applications, such as COMPAS (recidivism prediction), highlighting the metric’s practical and theoretical significance. The Objective Fairness Index allows one to differentiate between discriminatory tests and systemic disparities.

arxiv情報

著者 Jarren Briscoe,Assefaw Gebremedhin
発行日 2025-05-08 17:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG | Facets of Disparate Impact: Evaluating Legally Consistent Bias in Machine Learning はコメントを受け付けていません

A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency

要約

大規模な言語モデル(LLM)は、チャットボット、コードジェネレーター、および検索エンジンに広く適用されています。
考え方、複雑な推論、エージェントサービスなどのワークロードは、モデルを繰り返し呼び出すことにより、推論コストを大幅に増加させます。
並列性、圧縮、キャッシュなどの最適化方法が採用されてコストを削減していますが、多様なサービス要件により、適切な方法を選択することが困難になります。
最近、特殊なLLM推論エンジンが、最適化方法をサービス指向のインフラストラクチャに統合するための重要なコンポーネントとして浮上しています。
ただし、推論エンジンに関する体系的な研究はまだ不足しています。
このペーパーでは、25のオープンソースと商業的推論エンジンの包括的な評価を提供します。
使いやすさ、展開の容易さ、汎用サポート、スケーラビリティ、およびスループットおよびレイテンシー認識の計算の適合性の観点から、各推論エンジンを調べます。
さらに、サポートする最適化技術を調査することにより、各推論エンジンの設計目標を探ります。
さらに、オープンソースの推論エンジンの生態系の成熟度を評価し、商業ソリューションのパフォーマンスとコストポリシーを処理します。
複雑なLLMベースのサービスのサポート、さまざまなハードウェアのサポート、および強化されたセキュリティを含む将来の研究の方向性を概説し、最適化されたLLM推論エンジンを選択および設計する際に研究者と開発者に実用的なガイダンスを提供します。
また、この急速に進化する分野の開発を継続的に追跡するためのパブリックリポジトリを提供します:https://github.com/sihyeong/awesome-llm-inference-enference-enferenc

要約(オリジナル)

Large language models (LLMs) are widely applied in chatbots, code generators, and search engines. Workloads such as chain-of-thought, complex reasoning, and agent services significantly increase the inference cost by invoking the model repeatedly. Optimization methods such as parallelism, compression, and caching have been adopted to reduce costs, but the diverse service requirements make it hard to select the right method. Recently, specialized LLM inference engines have emerged as a key component for integrating the optimization methods into service-oriented infrastructures. However, a systematic study on inference engines is still lacking. This paper provides a comprehensive evaluation of 25 open-source and commercial inference engines. We examine each inference engine in terms of ease-of-use, ease-of-deployment, general-purpose support, scalability, and suitability for throughput- and latency-aware computation. Furthermore, we explore the design goals of each inference engine by investigating the optimization techniques it supports. In addition, we assess the ecosystem maturity of open source inference engines and handle the performance and cost policy of commercial solutions. We outline future research directions that include support for complex LLM-based services, support of various hardware, and enhanced security, offering practical guidance to researchers and developers in selecting and designing optimized LLM inference engines. We also provide a public repository to continually track developments in this fast-evolving field: https://github.com/sihyeong/Awesome-LLM-Inference-Engine

arxiv情報

著者 Sihyeong Park,Sungryeol Jeon,Chaelyn Lee,Seokhun Jeon,Byung-Soo Kim,Jemin Lee
発行日 2025-05-08 07:08:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency はコメントを受け付けていません

E2E-AFG: An End-to-End Model with Adaptive Filtering for Retrieval-Augmented Generation

要約

検索された生成方法は、多くの場合、外部の知識ベースから取得されたコンテンツの品質を無視し、その結果、無関係な情報または大規模な言語モデルの生成結果に悪影響を与える潜在的な誤った情報をもたらします。
このホワイトペーパーでは、回答の存在とテキスト生成を単一のエンドツーエンドフレームワークに統合する検索された生成(E2E-AFG)の適応フィルタリングを備えたエンドツーエンドモデルを提案します。
これにより、関連するコンテンツにモデルがより効果的に焦点を合わせ、無関係な情報の影響を減らし、正確な回答を生成することができます。
6つの代表的な知識集約型言語データセットでE2E-AFGを評価し、結果は、すべてのタスクでベースラインモデルを常に上回ることを示しており、提案されたアプローチの有効性と堅牢性を示しています。

要約(オリジナル)

Retrieval-augmented generation methods often neglect the quality of content retrieved from external knowledge bases, resulting in irrelevant information or potential misinformation that negatively affects the generation results of large language models. In this paper, we propose an end-to-end model with adaptive filtering for retrieval-augmented generation (E2E-AFG), which integrates answer existence judgment and text generation into a single end-to-end framework. This enables the model to focus more effectively on relevant content while reducing the influence of irrelevant information and generating accurate answers. We evaluate E2E-AFG on six representative knowledge-intensive language datasets, and the results show that it consistently outperforms baseline models across all tasks, demonstrating the effectiveness and robustness of the proposed approach.

arxiv情報

著者 Yun Jiang,Zilong Xie,Wei Zhang,Yun Fang,Shuai Pan
発行日 2025-05-08 07:29:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | E2E-AFG: An End-to-End Model with Adaptive Filtering for Retrieval-Augmented Generation はコメントを受け付けていません

The Pitfalls of Growing Group Complexity: LLMs and Social Choice-Based Aggregation for Group Recommendations

要約

大規模な言語モデル(LLM)は、個人とグループの両方を対象とした推奨システムにますます適用されています。
以前は、グループ推奨システム(GRS)は、多くの場合、複数の人々の好みに基づいて単一の推奨事項を導き出すために、ソーシャル選択ベースの集約戦略を使用することがよくありました。
このホワイトペーパーでは、言語モデルがゼロショット学習に基づいてこれらの戦略を正しく実行できる条件を調査し、プロンプトのグループシナリオのフォーマットが精度に影響するかどうかを分析します。
私たちは、グループの複雑さ(ユーザーとアイテムの数)、異なるLLMの影響、コンテキスト内学習や説明の生成など、さまざまなプロンプト条件、およびグループ設定のフォーマットに特に焦点を当てました。
私たちの結果は、100以上の評価を考慮すると、パフォーマンスが悪化し始めることを示しています。
ただし、すべての言語モデルがグループの複雑さの成長に等しく敏感であるわけではありません。
さらに、コンテキスト内学習(ICL)がより高い程度のグループの複雑さでパフォーマンスを大幅に向上させることができることを示しましたが、他の迅速な変更を追加し、ドメインのキューを指定するか、説明をプロンプトしても精度に影響を与えませんでした。
将来の研究には、LLMのパフォーマンスへの影響により、GRS評価の要因としてグループの複雑さを含める必要があると結論付けています。
さらに、ユーザーあたりの評価リストやアイテムごとの評価リストなど、グループシナリオを異なる方法でフォーマットすることを示しました。
全体として、我々の研究は、LLMが少ないことが適切な条件下でグループの推奨事項を生成できることを意味し、コンピューティングのパワーとコストを必要とする小さなモデルを使用することをお勧めします。

要約(オリジナル)

Large Language Models (LLMs) are increasingly applied in recommender systems aimed at both individuals and groups. Previously, Group Recommender Systems (GRS) often used social choice-based aggregation strategies to derive a single recommendation based on the preferences of multiple people. In this paper, we investigate under which conditions language models can perform these strategies correctly based on zero-shot learning and analyse whether the formatting of the group scenario in the prompt affects accuracy. We specifically focused on the impact of group complexity (number of users and items), different LLMs, different prompting conditions, including In-Context learning or generating explanations, and the formatting of group preferences. Our results show that performance starts to deteriorate when considering more than 100 ratings. However, not all language models were equally sensitive to growing group complexity. Additionally, we showed that In-Context Learning (ICL) can significantly increase the performance at higher degrees of group complexity, while adding other prompt modifications, specifying domain cues or prompting for explanations, did not impact accuracy. We conclude that future research should include group complexity as a factor in GRS evaluation due to its effect on LLM performance. Furthermore, we showed that formatting the group scenarios differently, such as rating lists per user or per item, affected accuracy. All in all, our study implies that smaller LLMs are capable of generating group recommendations under the right conditions, making the case for using smaller models that require less computing power and costs.

arxiv情報

著者 Cedric Waterschoot,Nava Tintarev,Francesco Barile
発行日 2025-05-08 07:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | The Pitfalls of Growing Group Complexity: LLMs and Social Choice-Based Aggregation for Group Recommendations はコメントを受け付けていません

Scalable Multi-Stage Influence Function for Large Language Models via Eigenvalue-Corrected Kronecker-Factored Parameterization

要約

事前に訓練された大規模な言語モデル(LLM)は、一般的にダウンストリームタスクに適応するように微調整されています。
知識の大部分はトレーニング前に獲得されるため、微調整されたLLMの予測をトレーニング前のデータに起因すると、貴重な洞察が得られる可能性があります。
影響関数は、トレーニングデータに基づいてモデルの予測を説明する手段として提案されています。
ただし、既存のアプローチでは、「マルチステージ」の影響を計算できず、10億規模のLLMに対するスケーラビリティがありません。
この論文では、多段階の影響関数を提案して、微調整されたLLMの下流の予測をフルパラメーターの微調整パラダイムの下でのトレーニング前のデータに起因させます。
マルチステージの影響関数の効率と実用性を高めるために、効率的な近似のために固有値補正クロネッカーファクター(EK-FAC)パラメーター化を活用します。
経験的結果は、EK-FAC近似の優れたスケーラビリティと、マルチステージの影響関数の有効性を検証します。
さらに、現実世界のLLMであるDolly-V2-3Bに関するケーススタディは、その解釈力を示しており、模範が多段階の影響推定値によって提供される洞察を示しています。
私たちのコードはhttps://github.com/colored-dye/multi_stage_influence_functionで公開されています。

要約(オリジナル)

Pre-trained large language models (LLMs) are commonly fine-tuned to adapt to downstream tasks. Since the majority of knowledge is acquired during pre-training, attributing the predictions of fine-tuned LLMs to their pre-training data may provide valuable insights. Influence functions have been proposed as a means to explain model predictions based on training data. However, existing approaches fail to compute “multi-stage” influence and lack scalability to billion-scale LLMs. In this paper, we propose the multi-stage influence function to attribute the downstream predictions of fine-tuned LLMs to pre-training data under the full-parameter fine-tuning paradigm. To enhance the efficiency and practicality of our multi-stage influence function, we leverage Eigenvalue-corrected Kronecker-Factored (EK-FAC) parameterization for efficient approximation. Empirical results validate the superior scalability of EK-FAC approximation and the effectiveness of our multi-stage influence function. Additionally, case studies on a real-world LLM, dolly-v2-3b, demonstrate its interpretive power, with exemplars illustrating insights provided by multi-stage influence estimates. Our code is public at https://github.com/colored-dye/multi_stage_influence_function.

arxiv情報

著者 Yuntai Bao,Xuhong Zhang,Tianyu Du,Xinkui Zhao,Jiang Zong,Hao Peng,Jianwei Yin
発行日 2025-05-08 07:43:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Scalable Multi-Stage Influence Function for Large Language Models via Eigenvalue-Corrected Kronecker-Factored Parameterization はコメントを受け付けていません

G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness

要約

ユーザーインターフェイス(UI)のデザインの有効性を評価することは、美学を超えて、説得力の設計の中心であるユーザーの行動に影響を与えるまで拡張されます。
A/Bテストは、どのUIの変動がより高いユーザーエンゲージメントを促進するかを決定するための主な方法ですが、費用がかかり、時間がかかります。
最近のビジョン言語モデル(VLM)は自動化されたUI分析を処理できますが、現在のアプローチは、比較説得力ではなく、孤立した設計属性に焦点を当てています。ユーザーインタラクションを最適化する重要な要因です。
これに対処するために、A/Bテスト結果と専門家の理論的根拠にラベルを付ける300の実世界のUI画像ペアを特徴とするペアワイズUI設計説得力評価タスク用に設計されたベンチマークであるWiserui-Benchを紹介します。
さらに、ポジションバイアスを削減し、評価の精度を向上させることにより、VLMベースの説得力評価を強化する新しい推論時間推論戦略であるG-Focusを提案します。
実験結果は、GフォーカスがペアワイズUI評価の一貫性と精度で既存の推論戦略を上回ることを示しています。
UI説得力のVLM駆動型評価を促進することにより、私たちの研究は、A/Bテストを補完するアプローチを提供し、スケーラブルなUI優先モデリングの進捗状況を推進し、設計最適化を提供します。
コードとデータは公開されます。

要約(オリジナル)

Evaluating user interface (UI) design effectiveness extends beyond aesthetics to influencing user behavior, a principle central to Design Persuasiveness. A/B testing is the predominant method for determining which UI variations drive higher user engagement, but it is costly and time-consuming. While recent Vision-Language Models (VLMs) can process automated UI analysis, current approaches focus on isolated design attributes rather than comparative persuasiveness-the key factor in optimizing user interactions. To address this, we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled with A/B test results and expert rationales. Additionally, we propose G-FOCUS, a novel inference-time reasoning strategy that enhances VLM-based persuasiveness assessment by reducing position bias and improving evaluation accuracy. Experimental results show that G-FOCUS surpasses existing inference strategies in consistency and accuracy for pairwise UI evaluation. Through promoting VLM-driven evaluation of UI persuasiveness, our work offers an approach to complement A/B testing, propelling progress in scalable UI preference modeling and design optimization. Code and data will be released publicly.

arxiv情報

著者 Jaehyun Jeon,Janghan Yoon,Minsoo Kim,Sumin Shim,Yejin Choi,Hanbin Kim,Youngjae Yu
発行日 2025-05-08 08:00:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness はコメントを受け付けていません