Topo-VM-UNetV2: Encoding Topology into Vision Mamba UNet for Polyp Segmentation

要約

畳み込みニューラルネットワーク(CNN)とトランスベースのアーキテクチャは、ポリープセグメンテーションの2つの支配的なディープラーニングモデルです。
ただし、CNNは長距離依存関係をモデル化する能力が限られていますが、トランスは二次計算の複雑さを負います。
最近、マンバなどの状態空間モデルは、長距離相互作用を効果的にモデル化するだけでなく、線形計算の複雑さを維持するため、ポリープセグメンテーションの有望なアプローチとして認識されています。
ただし、Mambaベースのアーキテクチャは、トポロジーの特徴(接続されたコンポーネント、ループ、ボイドなど)をキャプチャするのに苦労しており、不正確な境界描写とポリープのセグメンテーションにつながります。
これらの制限に対処するために、TOPO-VM-UNETV2と呼ばれる新しいアプローチを提案します。これは、トポロジー特性をMAMBAベースの最先端のポリープセグメンテーションモデルVM-UNETV2にコードします。
私たちの方法は、ステージ1:VM-UNETV2を使用して、トレーニング画像とテスト画像の確率マップ(PMS)を生成するために使用され、トポロジの注意マップを計算するために使用されます。
具体的には、最初にPMSの永続性図を計算し、次に各トポロジー特徴の持続性値(つまり、死亡時間と出生時の違い)を出生場所に割り当てることにより、持続性スコアマップを生成します。最後に、シグモイド機能を使用して永続性スコアを注意力に変換します。
ステージ2:これらのトポロジの注意マップは、VM-UNETV2のセマンティクスと詳細注入(SDI)モジュールに統合されており、セグメンテーション結果を強化するためのトポロジ誘導セマンティクスとディテール注入(TOPO-SDI)モジュールを形成します。
5つの公開ポリープセグメンテーションデータセットに関する広範な実験は、提案された方法の有効性を示しています。
コードは公開されます。

要約(オリジナル)

Convolutional neural network (CNN) and Transformer-based architectures are two dominant deep learning models for polyp segmentation. However, CNNs have limited capability for modeling long-range dependencies, while Transformers incur quadratic computational complexity. Recently, State Space Models such as Mamba have been recognized as a promising approach for polyp segmentation because they not only model long-range interactions effectively but also maintain linear computational complexity. However, Mamba-based architectures still struggle to capture topological features (e.g., connected components, loops, voids), leading to inaccurate boundary delineation and polyp segmentation. To address these limitations, we propose a new approach called Topo-VM-UNetV2, which encodes topological features into the Mamba-based state-of-the-art polyp segmentation model, VM-UNetV2. Our method consists of two stages: Stage 1: VM-UNetV2 is used to generate probability maps (PMs) for the training and test images, which are then used to compute topology attention maps. Specifically, we first compute persistence diagrams of the PMs, then we generate persistence score maps by assigning persistence values (i.e., the difference between death and birth times) of each topological feature to its birth location, finally we transform persistence scores into attention weights using the sigmoid function. Stage 2: These topology attention maps are integrated into the semantics and detail infusion (SDI) module of VM-UNetV2 to form a topology-guided semantics and detail infusion (Topo-SDI) module for enhancing the segmentation results. Extensive experiments on five public polyp segmentation datasets demonstrate the effectiveness of our proposed method. The code will be made publicly available.

arxiv情報

著者 Diego Adame,Jose A. Nunez,Fabian Vazquez,Nayeli Gurrola,Huimin Li,Haoteng Tang,Bin Fu,Pengfei Gu
発行日 2025-05-09 17:41:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Topo-VM-UNetV2: Encoding Topology into Vision Mamba UNet for Polyp Segmentation はコメントを受け付けていません

Distributional Drift Detection in Medical Imaging with Sketching and Fine-Tuned Transformer

要約

分布ドリフト検出は、機械学習モデルの予測結果に影響を与える可能性のある基礎となるデータ分布の変化を特定することにより、モデルの精度と信頼性を確保するのに役立つため、医療用途で重要です。
ただし、現在の方法には、ドリフトの検出に制限があります。たとえば、異常なデータセットを含めると不公平な比較につながる可能性があります。
このホワイトペーパーでは、データスケッチングと微調整技術を活用することにより、CTスキャンの医療画像の分布ドリフトを検出するための正確で敏感なアプローチを提示します。
リアルタイムの異常検出のための堅牢なベースラインライブラリモデルを開発し、着信画像の効率的な比較と異常の識別を可能にしました。
さらに、事前に訓練されたビジョントランスモデルを微調整して、マンモグラフィをケーススタディとして使用して、モデルの精度を99.11%に大幅に向上させるために、関連する機能を抽出しました。
データスケッチと微調整と組み合わせて、機能抽出評価は、同様のデータセット間のコサインの類似性スコアが約50%から99.1%に増加してより大きな改善を提供することを示しました。
最後に、感度の評価は、私たちのソリューションが1%の塩と豆類やスペックルのノイズに非常に敏感であり、照明ノイズに敏感ではないことを示しています(たとえば、照明条件はデータドリフトに影響を与えません)。
提案された方法は、動的な臨床環境で診断モデルの精度を維持するためのスケーラブルで信頼できるソリューションを提供します。

要約(オリジナル)

Distributional drift detection is important in medical applications as it helps ensure the accuracy and reliability of models by identifying changes in the underlying data distribution that could affect the prediction results of machine learning models. However, current methods have limitations in detecting drift, for example, the inclusion of abnormal datasets can lead to unfair comparisons. This paper presents an accurate and sensitive approach to detect distributional drift in CT-scan medical images by leveraging data-sketching and fine-tuning techniques. We developed a robust baseline library model for real-time anomaly detection, allowing for efficient comparison of incoming images and identification of anomalies. Additionally, we fine-tuned a pre-trained Vision Transformer model to extract relevant features, using mammography as a case study, significantly enhancing model accuracy to 99.11%. Combining with data-sketches and fine-tuning, our feature extraction evaluation demonstrated that cosine similarity scores between similar datasets provide greater improvements, from around 50% increased to 99.1%. Finally, the sensitivity evaluation shows that our solutions are highly sensitive to even 1% salt-and-pepper and speckle noise, and it is not sensitive to lighting noise (e.g., lighting conditions have no impact on data drift). The proposed methods offer a scalable and reliable solution for maintaining the accuracy of diagnostic models in dynamic clinical environments.

arxiv情報

著者 Yusen Wu,Phuong Nguyen,Rose Yesha,Yelena Yesha
発行日 2025-05-09 17:46:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | Distributional Drift Detection in Medical Imaging with Sketching and Fine-Tuned Transformer はコメントを受け付けていません

Adapting a Segmentation Foundation Model for Medical Image Classification

要約

セグメントAnyny Model(SAM)などの基礎モデルの最近の進歩は、印象的なゼロショットセグメンテーション機能により、さまざまなビジョンタスク、特に画像セグメンテーションで強力なパフォーマンスを示しています。
ただし、医療画像分類のためにこのようなモデルを効果的に適応させることは、依然としてあまり探求されていないトピックです。
この論文では、医療画像分類にSAMを適応させるための新しいフレームワークを紹介します。
まず、SAMイメージエンコーダーを機能抽出器として利用して、画像の重要な空間的およびコンテキストの詳細を伝えるセグメンテーションベースの機能をキャプチャし、トレーニング中の不必要なオーバーヘッドを避けるために重みを凍結します。
次に、機能マップの空間的に局在する注意力を計算するための空間的に局在するチャネル注意(SLCA)メカニズムを提案します。
SAMの画像エンコーダーから抽出された機能は、SLCAを介して処理され、注意重量を計算します。これにより、深い学習分類モデルに統合され、画像の空間的に関連するまたは意味のある領域への焦点が強化され、分類パフォーマンスが向上します。
3つの公開医療画像分類データセットの実験結果は、アプローチの有効性とデータ効率を示しています。

要約(オリジナル)

Recent advancements in foundation models, such as the Segment Anything Model (SAM), have shown strong performance in various vision tasks, particularly image segmentation, due to their impressive zero-shot segmentation capabilities. However, effectively adapting such models for medical image classification is still a less explored topic. In this paper, we introduce a new framework to adapt SAM for medical image classification. First, we utilize the SAM image encoder as a feature extractor to capture segmentation-based features that convey important spatial and contextual details of the image, while freezing its weights to avoid unnecessary overhead during training. Next, we propose a novel Spatially Localized Channel Attention (SLCA) mechanism to compute spatially localized attention weights for the feature maps. The features extracted from SAM’s image encoder are processed through SLCA to compute attention weights, which are then integrated into deep learning classification models to enhance their focus on spatially relevant or meaningful regions of the image, thus improving classification performance. Experimental results on three public medical image classification datasets demonstrate the effectiveness and data-efficiency of our approach.

arxiv情報

著者 Pengfei Gu,Haoteng Tang,Islam A. Ebeid,Jose A. Nunez,Fabian Vazquez,Diego Adame,Marcus Zhan,Huimin Li,Bin Fu,Danny Z. Chen
発行日 2025-05-09 17:51:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Adapting a Segmentation Foundation Model for Medical Image Classification はコメントを受け付けていません

Let Humanoids Hike! Integrative Skill Development on Complex Trails

要約

複雑なトレイルでのハイキングには、予測不可能な地形に対するバランス、敏ility性、適応的な意思決定が必要です。
現在のヒューマノイドの研究は、ハイキングには断片化され、不十分なままです。移動は、長期的な目標や状況認識なしに運動能力に焦点を当てていますが、セマンティックナビゲーションは現実世界の具体化と地域の地形の変動を見落としています。
複雑なトレイルでハイキングするためのヒューマノイドのトレーニングを提案し、視覚的認識、意思決定、および運動の実行を介して統合的なスキル開発を促進します。
視覚装備のヒューマノイドロボットが複雑なトレイルを自律的にハイキングできるようにする学習フレームワークであるLEGO-Hを開発します。
2つの技術的な革新を紹介します。1)階層補強学習フレームワークに合わせた時間的視覚変圧器のバリアントは、将来のローカル目標を予想して、運動を導き、運動を目標指向のナビゲーションとシームレスに統合します。
2)階層的なメトリック学習と組み合わせた関節運動パターンの潜在的表現 – 特権学習スキームの強化 – 特権トレーニングからオンボード実行へのスムーズな政策転送を可能にします。
これらのコンポーネントにより、LEGO-Hは、事前定義されたモーションパターンに依存することなく、多様な物理的および環境的課題に対処できます。
さまざまなシミュレートされたトレイルとロボットの形態にわたる実験は、LEGO-Hの汎用性と堅牢性を強調し、具体化された自律性とLEGO-Hの説得力のあるテストベッドとしてのハイキングを、将来のヒューマノイド開発のベースラインとして位置づけています。

要約(オリジナル)

Hiking on complex trails demands balance, agility, and adaptive decision-making over unpredictable terrain. Current humanoid research remains fragmented and inadequate for hiking: locomotion focuses on motor skills without long-term goals or situational awareness, while semantic navigation overlooks real-world embodiment and local terrain variability. We propose training humanoids to hike on complex trails, driving integrative skill development across visual perception, decision making, and motor execution. We develop a learning framework, LEGO-H, that enables a vision-equipped humanoid robot to hike complex trails autonomously. We introduce two technical innovations: 1) A temporal vision transformer variant – tailored into Hierarchical Reinforcement Learning framework – anticipates future local goals to guide movement, seamlessly integrating locomotion with goal-directed navigation. 2) Latent representations of joint movement patterns, combined with hierarchical metric learning – enhance Privileged Learning scheme – enable smooth policy transfer from privileged training to onboard execution. These components allow LEGO-H to handle diverse physical and environmental challenges without relying on predefined motion patterns. Experiments across varied simulated trails and robot morphologies highlight LEGO-H’s versatility and robustness, positioning hiking as a compelling testbed for embodied autonomy and LEGO-H as a baseline for future humanoid development.

arxiv情報

著者 Kwan-Yee Lin,Stella X. Yu
発行日 2025-05-09 17:53:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Let Humanoids Hike! Integrative Skill Development on Complex Trails はコメントを受け付けていません

VIN-NBV: A View Introspection Network for Next-Best-View Selection for Resource-Efficient 3D Reconstruction

要約

次のBest View(NBV)アルゴリズムは、シーンの効率的な3D再構築を可能にするために、最小限のリソース、時間、またはキャプチャ数を使用して最適な画像セットを取得することを目的としています。
既存のアプローチは、多くの場合、以前のシーンの知識や追加の画像キャプチャに依存し、カバレッジを最大化するポリシーを開発することがよくあります。
しかし、複雑なジオメトリと自己閉塞を備えた多くの実際のシーンでは、カバレッジの最大化は、直接再構築品質の向上につながることはありません。
このホワイトペーパーでは、ビュー内省ネットワーク(VIN)を提案します。これは、ビューの再構築品質の改善を直接予測するように訓練されています。
貪欲なシーケンシャルサンプリングベースのポリシー。各取得ステップで複数のクエリビューをサンプリングし、VIN予測改善スコアが最も高いものを選択します。
VINを設計して、以前の買収から構築された再構築の3D認識の機能を実行し、クエリビューごとに改善スコアにデコードできる機能を作成します。
次に、模倣学習を使用してVINをトレーニングして、再構成改善スコアを予測します。
VIN-NBVは、買収の数または動きの時間を制約して動作する場合、カバレッジの最大化ベースラインで再構成の品質を改善することを示しています。

要約(オリジナル)

Next Best View (NBV) algorithms aim to acquire an optimal set of images using minimal resources, time, or number of captures to enable efficient 3D reconstruction of a scene. Existing approaches often rely on prior scene knowledge or additional image captures and often develop policies that maximize coverage. Yet, for many real scenes with complex geometry and self-occlusions, coverage maximization does not lead to better reconstruction quality directly. In this paper, we propose the View Introspection Network (VIN), which is trained to predict the reconstruction quality improvement of views directly, and the VIN-NBV policy. A greedy sequential sampling-based policy, where at each acquisition step, we sample multiple query views and choose the one with the highest VIN predicted improvement score. We design the VIN to perform 3D-aware featurization of the reconstruction built from prior acquisitions, and for each query view create a feature that can be decoded into an improvement score. We then train the VIN using imitation learning to predict the reconstruction improvement score. We show that VIN-NBV improves reconstruction quality by ~30% over a coverage maximization baseline when operating with constraints on the number of acquisitions or the time in motion.

arxiv情報

著者 Noah Frahm,Dongxu Zhao,Andrea Dunn Beltran,Ron Alterovitz,Jan-Michael Frahm,Junier Oliva,Roni Sengupta
発行日 2025-05-09 17:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2.10 | VIN-NBV: A View Introspection Network for Next-Best-View Selection for Resource-Efficient 3D Reconstruction はコメントを受け付けていません

Anymate: A Dataset and Baselines for Learning 3D Object Rigging

要約

リギングとスキニングは、現実的な3Dアニメーションを作成するための不可欠な手順であり、多くの場合、重要な専門知識と手動の努力が必要です。
これらのプロセスを自動化する従来の試みは、幾何学的ヒューリスティックに大きく依存しており、しばしば複雑なジオメトリのオブジェクトと格闘しています。
最近のデータ駆動型アプローチは、より良い一般性の可能性を示していますが、しばしば限られたトレーニングデータによって制約されています。
既存のデータセットの70倍大きい専門家で作られたリギングおよびスキニング情報と組み合わせた230k 3Dアセットの大規模なデータセットであるAnymateデータセットを提示します。
このデータセットを使用して、ジョイント、接続性、およびスキニング重量予測のための3つのシーケンシャルモジュールを備えた学習ベースの自動リギングフレームワークを提案します。
各モジュールのベースラインとしてさまざまなアーキテクチャを体系的に設計および実験し、データセットで包括的な評価を実施してパフォーマンスを比較します。
私たちのモデルは、既存の方法を大幅に上回り、自動リギングとスキニングの将来の方法を比較するための基盤を提供します。
コードとデータセットはhttps://anymate3d.github.io/にあります。

要約(オリジナル)

Rigging and skinning are essential steps to create realistic 3D animations, often requiring significant expertise and manual effort. Traditional attempts at automating these processes rely heavily on geometric heuristics and often struggle with objects of complex geometry. Recent data-driven approaches show potential for better generality, but are often constrained by limited training data. We present the Anymate Dataset, a large-scale dataset of 230K 3D assets paired with expert-crafted rigging and skinning information — 70 times larger than existing datasets. Using this dataset, we propose a learning-based auto-rigging framework with three sequential modules for joint, connectivity, and skinning weight prediction. We systematically design and experiment with various architectures as baselines for each module and conduct comprehensive evaluations on our dataset to compare their performance. Our models significantly outperform existing methods, providing a foundation for comparing future methods in automated rigging and skinning. Code and dataset can be found at https://anymate3d.github.io/.

arxiv情報

著者 Yufan Deng,Yuhao Zhang,Chen Geng,Shangzhe Wu,Jiajun Wu
発行日 2025-05-09 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Anymate: A Dataset and Baselines for Learning 3D Object Rigging はコメントを受け付けていません

LiTransProQA: an LLM-based Literary Translation evaluation metric with Professional Question Answering

要約

大規模な言語モデル(LLMS)の影響は、文学の領域に拡張されています。
ただし、既存の評価メトリックは、芸術的表現よりも機械的精度を優先し、経験豊富な専門的な人間の翻訳よりも優れていると機械翻訳(MT)を過大評価する傾向があります。
長期的には、このバイアスは翻訳の質と文化的信頼性の永続的な低下をもたらす可能性があります。
専門の文学的評価メトリックの緊急の必要性に応じて、文学的翻訳評価のために特別に設計された、リファレンスフリーのLLMベースの質問アンウェーのフレームワークであるLitransproqaを紹介します。
Litransproqaは、専門的な文学翻訳者や研究者からの洞察を独自に統合し、文学的なデバイス、文化的理解、著者の声などの文学品質評価の重要な要素に焦点を当てています。
私たちの広範な評価によると、文学的に導入されたXcomet-XLは限界的な利益をもたらしますが、Litransproqaは現在のメトリックを大幅に上回り、相関(ACC-EQとKendallのTau)で最大0.07の増加を達成し、15ポイント以上の最新のメトリックを超えることを示しています。
プロフェッショナルな翻訳者の洞察を組み込んで、ウェイトがパフォーマンスを改善し、翻訳者の入力の価値を強調します。
特に、Litransproqaは、訓練された言語アノテーターに匹敵する人間レベルの評価パフォーマンスにアプローチします。
llama3.3-70bやqwen2.5-32bなどのオープンソースモデルへの幅広い適用性を示しており、アクセス可能でトレーニングのない文学評価メトリックとしての可能性と、著作権や倫理的な考慮事項のためにローカル処理を必要とするテキストを評価するための貴重なツールを示しています。

要約(オリジナル)

The impact of Large Language Models (LLMs) has extended into literary domains. However, existing evaluation metrics prioritize mechanical accuracy over artistic expression and tend to overrate machine translation (MT) as being superior to experienced professional human translation. In the long run, this bias could result in a permanent decline in translation quality and cultural authenticity. In response to the urgent need for a specialized literary evaluation metric, we introduce LiTransProQA, a novel, reference-free, LLM-based question-answering framework designed specifically for literary translation evaluation. LiTransProQA uniquely integrates insights from professional literary translators and researchers, focusing on critical elements in literary quality assessment such as literary devices, cultural understanding, and authorial voice. Our extensive evaluation shows that while literary-finetuned XCOMET-XL yields marginal gains, LiTransProQA substantially outperforms current metrics, achieving up to 0.07 gain in correlation (ACC-EQ and Kendall’s tau) and surpassing the best state-of-the-art metrics by over 15 points in adequacy assessments. Incorporating professional translator insights as weights further improves performance, highlighting the value of translator inputs. Notably, LiTransProQA approaches human-level evaluation performance comparable to trained linguistic annotators. It demonstrates broad applicability to open-source models such as LLaMA3.3-70b and Qwen2.5-32b, indicating its potential as an accessible and training-free literary evaluation metric and a valuable tool for evaluating texts that require local processing due to copyright or ethical considerations.

arxiv情報

著者 Ran Zhang,Wei Zhao,Lieve Macken,Steffen Eger
発行日 2025-05-09 17:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LiTransProQA: an LLM-based Literary Translation evaluation metric with Professional Question Answering はコメントを受け付けていません

Threshold Modulation for Online Test-Time Adaptation of Spiking Neural Networks

要約

最近、神経変動チップに展開されたスパイクニューラルネットワーク(SNN)は、さまざまなシナリオでエッジデバイスで非常に効率的なソリューションを提供します。
ただし、展開後に流通シフトに適応する能力は、重要な課題になりました。
オンラインテスト時間適応(OTTA)は、ソースデータやラベル付きターゲットサンプルを必要とせずに、モデルが新しいデータ分布に動的に調整できるようにすることにより、有望なソリューションを提供します。
それにもかかわらず、既存のOTTAメソッドは、主に従来の人工ニューラルネットワーク向けに設計されており、SNNには適していません。
このギャップに対処するために、流通シフトの下でモデルの一般化を強化することを目的とした、低電力の神経形態に優しいオンラインテスト時間適応フレームワークを提案します。
提案されたアプローチは、しきい値変調(TM)と呼ばれます。これは、ニューロンダイナミクスにインスパイアされた正規化を介して発火しきい値を動的に調整し、神経形態のハードウェアとより互換性があります。
ベンチマークデータセットの実験結果は、低い計算コストを維持しながら、分布シフトに対するSNNの堅牢性を改善する際のこの方法の有効性を示しています。
提案された方法は、SNNのオンラインテスト時間適応のための実用的なソリューションを提供し、将来の神経型チップの設計にインスピレーションを提供します。
デモコードは、github.com/nneurotransmitterr/tm-otta-snnで入手できます。

要約(オリジナル)

Recently, spiking neural networks (SNNs), deployed on neuromorphic chips, provide highly efficient solutions on edge devices in different scenarios. However, their ability to adapt to distribution shifts after deployment has become a crucial challenge. Online test-time adaptation (OTTA) offers a promising solution by enabling models to dynamically adjust to new data distributions without requiring source data or labeled target samples. Nevertheless, existing OTTA methods are largely designed for traditional artificial neural networks and are not well-suited for SNNs. To address this gap, we propose a low-power, neuromorphic chip-friendly online test-time adaptation framework, aiming to enhance model generalization under distribution shifts. The proposed approach is called Threshold Modulation (TM), which dynamically adjusts the firing threshold through neuronal dynamics-inspired normalization, being more compatible with neuromorphic hardware. Experimental results on benchmark datasets demonstrate the effectiveness of this method in improving the robustness of SNNs against distribution shifts while maintaining low computational cost. The proposed method offers a practical solution for online test-time adaptation of SNNs, providing inspiration for the design of future neuromorphic chips. The demo code is available at github.com/NneurotransmitterR/TM-OTTA-SNN.

arxiv情報

著者 Kejie Zhao,Wenjia Hua,Aiersi Tuerhong,Luziwei Leng,Yuxin Ma,Qinghai Guo
発行日 2025-05-09 10:51:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE | Threshold Modulation for Online Test-Time Adaptation of Spiking Neural Networks はコメントを受け付けていません

G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness

要約

ユーザーインターフェイス(UI)のデザインの有効性を評価することは、美学を超えて、説得力の設計の中心であるユーザーの行動に影響を与えるまで拡張されます。
A/Bテストは、どのUIの変動がより高いユーザーエンゲージメントを促進するかを決定するための主な方法ですが、費用がかかり、時間がかかります。
最近のビジョン言語モデル(VLM)は自動化されたUI分析を処理できますが、現在のアプローチは、比較説得力ではなく、孤立した設計属性に焦点を当てています。ユーザーインタラクションを最適化する重要な要因です。
これに対処するために、A/Bテスト結果と専門家の理論的根拠にラベルを付ける300の実世界のUI画像ペアを特徴とするペアワイズUI設計説得力評価タスク用に設計されたベンチマークであるWiserui-Benchを紹介します。
さらに、ポジションバイアスを削減し、評価の精度を向上させることにより、VLMベースの説得力評価を強化する新しい推論時間推論戦略であるG-Focusを提案します。
実験結果は、GフォーカスがペアワイズUI評価の一貫性と精度で既存の推論戦略を上回ることを示しています。
UI説得力のVLM駆動型評価を促進することにより、私たちの研究は、A/Bテストを補完するアプローチを提供し、スケーラブルなUI優先モデリングの進捗状況を推進し、設計最適化を提供します。
コードとデータは公開されます。

要約(オリジナル)

Evaluating user interface (UI) design effectiveness extends beyond aesthetics to influencing user behavior, a principle central to Design Persuasiveness. A/B testing is the predominant method for determining which UI variations drive higher user engagement, but it is costly and time-consuming. While recent Vision-Language Models (VLMs) can process automated UI analysis, current approaches focus on isolated design attributes rather than comparative persuasiveness-the key factor in optimizing user interactions. To address this, we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled with A/B test results and expert rationales. Additionally, we propose G-FOCUS, a novel inference-time reasoning strategy that enhances VLM-based persuasiveness assessment by reducing position bias and improving evaluation accuracy. Experimental results show that G-FOCUS surpasses existing inference strategies in consistency and accuracy for pairwise UI evaluation. Through promoting VLM-driven evaluation of UI persuasiveness, our work offers an approach to complement A/B testing, propelling progress in scalable UI preference modeling and design optimization. Code and data will be released publicly.

arxiv情報

著者 Jaehyun Jeon,Jang Han Yoon,Min Soo Kim,Sumin Shim,Yejin Choi,Hanbin Kim,Youngjae Yu
発行日 2025-05-09 04:56:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness はコメントを受け付けていません

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

要約

コード大規模な言語モデル(Codellms)とエージェントは、従来のソフトウェアエンジニアリング方法と格付けされた複雑なソフトウェアエンジニアリングタスクに取り組むことに大きな期待を示しており、Codellmsとエージェントはより強力な能力を提供し、自然とコードの両方で入力と出力を柔軟に処理できます。
ベンチマークは、Codellmsとエージェントの機能を評価し、開発と展開を導く上で重要な役割を果たします。
しかし、その重要性の高まりにもかかわらず、Codellmsとエージェントのベンチマークの包括的なレビューが残っています。
このギャップを埋めるために、このペーパーでは、Codellmsとエージェントの既存のベンチマークの包括的なレビューを提供し、461の関連する論文から181のベンチマークを研究および分析し、ソフトウェア開発ライフサイクル(SDLC)のさまざまなフェーズをカバーします。
私たちの調査結果は、現在のベンチマークのカバレッジにおける顕著な不均衡を明らかにし、SDLCのソフトウェア開発フェーズに約60%焦点を合わせていますが、要件エンジニアリングとソフトウェアの設計フェーズは、それぞれ5%と3%のみで最小限の注目を集めています。
さらに、Pythonは、レビューされたベンチマーク全体で支配的なプログラミング言語として登場します。
最後に、このペーパーでは、現在の研究の課題を強調し、将来の方向性を提案し、Codellmsとエージェントの理論的能力と現実世界のシナリオでの適用の間のギャップを狭めることを目指しています。

要約(オリジナル)

Code large language models (CodeLLMs) and agents have shown great promise in tackling complex software engineering tasks.Compared to traditional software engineering methods, CodeLLMs and agents offer stronger abilities, and can flexibly process inputs and outputs in both natural and code. Benchmarking plays a crucial role in evaluating the capabilities of CodeLLMs and agents, guiding their development and deployment. However, despite their growing significance, there remains a lack of comprehensive reviews of benchmarks for CodeLLMs and agents. To bridge this gap, this paper provides a comprehensive review of existing benchmarks for CodeLLMs and agents, studying and analyzing 181 benchmarks from 461 relevant papers, covering the different phases of the software development life cycle (SDLC). Our findings reveal a notable imbalance in the coverage of current benchmarks, with approximately 60% focused on the software development phase in SDLC, while requirements engineering and software design phases receive minimal attention at only 5% and 3%, respectively. Additionally, Python emerges as the dominant programming language across the reviewed benchmarks. Finally, this paper highlights the challenges of current research and proposes future directions, aiming to narrow the gap between the theoretical capabilities of CodeLLMs and agents and their application in real-world scenarios.

arxiv情報

著者 Kaixin Wang,Tianlin Li,Xiaoyu Zhang,Chong Wang,Weisong Sun,Yang Liu,Bin Shi
発行日 2025-05-09 03:39:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents はコメントを受け付けていません