Greedy Restart Schedules: A Baseline for Dynamic Algorithm Selection on Numerical Black-box Optimization Problems

要約

多くの最適化ドメインでは、全体的な最先端に貢献する複数の異なるソルバーがあり、それぞれがいくつかでより良いパフォーマンスを発揮し、他のタイプの問題インスタンスではさらに悪いことです。
インスタンスベースのアルゴリズムの選択、構成、スケジューリングなどのメタアルゴリズムアプローチは、(構成可能な)オプティマイザーのセットから可能なパフォーマンスを抽出することにより、このギャップを閉じることを目指しています。
これに関連して、最高のパフォーマンスを発揮する個々のアルゴリズムは、多くの場合、高速ローカル最適化アプローチの多くの再起動を実行する手作りのハイブリッドヒューリスティックです。
ただし、最適化された再起動スケジュールを作成するためのデータ駆動型の手法は、まだ広範囲に研究されていません。
ここでは、選択時に未解決のトレーニング問題の分布を最適に実行するアルゴリズムを繰り返し選択する簡単なスケジューリングアプローチを提示し、問題に依存しないソルバースケジュールになります。
BBOBテストベッドの数値ブラックボックス最適化からよく知られているオプティマーを使用して、さまざまな評価プロトコルにわたって元のポートフォリオからのシングルと仮想ベストソルバーのギャップの多くを埋めるアプローチを実証します。
貪欲な再起動スケジュールは、より複雑な動的アルゴリズム選択モデルの強力なベースラインを提供します。

要約(オリジナル)

In many optimization domains, there are multiple different solvers that contribute to the overall state-of-the-art, each performing better on some, and worse on other types of problem instances. Meta-algorithmic approaches, such as instance-based algorithm selection, configuration and scheduling, aim to close this gap by extracting the most performance possible from a set of (configurable) optimizers. In this context, the best performing individual algorithms are often hand-crafted hybrid heuristics which perform many restarts of fast local optimization approaches. However, data-driven techniques to create optimized restart schedules have not yet been extensively studied. Here, we present a simple scheduling approach that iteratively selects the algorithm performing best on the distribution of unsolved training problems at time of selection, resulting in a problem-independent solver schedule. We demonstrate our approach using well-known optimizers from numerical black-box optimization on the BBOB testbed, bridging much of the gap between single and virtual best solver from the original portfolio across various evaluation protocols. Our greedy restart schedule presents a powerful baseline for more complex dynamic algorithm selection models.

arxiv情報

著者 Lennart Schäpermeier
発行日 2025-04-15 17:54:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, math.OC | Greedy Restart Schedules: A Baseline for Dynamic Algorithm Selection on Numerical Black-box Optimization Problems はコメントを受け付けていません

TextArena

要約

Textarenaは、大規模な言語モデル(LLM)におけるエージェント行動のトレーニングと評価のための競争力のあるテキストベースのゲームのオープンソースコレクションです。
57以上の一意の環境(シングルプレイヤー、2人のプレイヤー、マルチプレイヤーのセットアップを含む)にまたがって、リアルタイムのトリュースキルスコアを使用して、オンラインプレイシステム(人間やその他の提出されたモデルに対して)を介してモデル機能を簡単に評価できるようになります。
従来のベンチマークは、交渉、心の理論、欺ceptionなどの動的なソーシャルスキルをめったに評価し、テキストアレナが対処するギャップを作成します。
研究、コミュニティ、拡張性を念頭に置いて設計されたTextarenaは、新しいゲームの追加、フレームワークの適応、モデルのテスト、モデルに対抗する、トレーニングモデルの容易さを強調しています。
環境、ゲーム、リーダーボード、および例の詳細なドキュメントは、https://github.com/leonguertler/textarenaおよびhttps://www.textarena.ai/で入手できます。

要約(オリジナル)

TextArena is an open-source collection of competitive text-based games for training and evaluation of agentic behavior in Large Language Models (LLMs). It spans 57+ unique environments (including single-player, two-player, and multi-player setups) and allows for easy evaluation of model capabilities via an online-play system (against humans and other submitted models) with real-time TrueSkill scores. Traditional benchmarks rarely assess dynamic social skills such as negotiation, theory of mind, and deception, creating a gap that TextArena addresses. Designed with research, community and extensibility in mind, TextArena emphasizes ease of adding new games, adapting the framework, testing models, playing against the models, and training models. Detailed documentation of environments, games, leaderboard, and examples are available on https://github.com/LeonGuertler/TextArena and https://www.textarena.ai/.

arxiv情報

著者 Leon Guertler,Bobby Cheng,Simon Yu,Bo Liu,Leshem Choshen,Cheston Tan
発行日 2025-04-15 17:55:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MA | TextArena はコメントを受け付けていません

A Clean Slate for Offline Reinforcement Learning

要約

オフライン強化学習(RL)の進歩は、あいまいな問題の定義と絡み合ったアルゴリズム設計によって妨げられており、一貫性のない実装、不十分なアブレーション、不公平な評価をもたらします。
オフラインRLは環境の相互作用を明示的に回避しますが、以前の方法は、ハイパーパラメーターチューニングの広範な文書化されていないオンライン評価を頻繁に採用し、メソッドの比較を複雑にします。
さらに、既存の参照実装は、ボイラープレートコードで大きく異なり、コアアルゴリズムの貢献を不明瞭にします。
最初に、オンラインチューニング予算を明示的に定量化する厳格な分類法と透明な評価プロトコルを導入することにより、これらの課題に対処します。
不透明なアルゴリズム設計を解決するために、さまざまなモデルなしでモデルベースのオフラインRLメソッドのクリーンでミニマルな単一ファイルの実装を提供し、明確さを大幅に向上させ、実質的なスピードアップを達成します。
これらの合理化された実装を活用して、単一の包括的なハイパーパラメーター空間内で多様な以前のアプローチをカプセル化する統一されたアルゴリズムであるUnifloralを提案し、共有ハイパーパラメーター空間でのアルゴリズム開発を可能にします。
厳密な評価プロトコルを使用して単フロラルを使用して、確立されたベースラインを大幅に上回る2つの新しいアルゴリズム – TD3-AWR(モデルフリー)とMOBRAC(モデルベース)を開発します。
私たちの実装は、https://github.com/emptyjackson/unifloralで公開されています。

要約(オリジナル)

Progress in offline reinforcement learning (RL) has been impeded by ambiguous problem definitions and entangled algorithmic designs, resulting in inconsistent implementations, insufficient ablations, and unfair evaluations. Although offline RL explicitly avoids environment interaction, prior methods frequently employ extensive, undocumented online evaluation for hyperparameter tuning, complicating method comparisons. Moreover, existing reference implementations differ significantly in boilerplate code, obscuring their core algorithmic contributions. We address these challenges by first introducing a rigorous taxonomy and a transparent evaluation protocol that explicitly quantifies online tuning budgets. To resolve opaque algorithmic design, we provide clean, minimalistic, single-file implementations of various model-free and model-based offline RL methods, significantly enhancing clarity and achieving substantial speed-ups. Leveraging these streamlined implementations, we propose Unifloral, a unified algorithm that encapsulates diverse prior approaches within a single, comprehensive hyperparameter space, enabling algorithm development in a shared hyperparameter space. Using Unifloral with our rigorous evaluation protocol, we develop two novel algorithms – TD3-AWR (model-free) and MoBRAC (model-based) – which substantially outperform established baselines. Our implementation is publicly available at https://github.com/EmptyJackson/unifloral.

arxiv情報

著者 Matthew Thomas Jackson,Uljad Berdica,Jarek Liesen,Shimon Whiteson,Jakob Nicolaus Foerster
発行日 2025-04-15 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | A Clean Slate for Offline Reinforcement Learning はコメントを受け付けていません

Elucidating the Design Space of Multimodal Protein Language Models

要約

マルチモーダルタンパク質言語モデル(PLMS)は、シーケンスとトークンベースの構造情報を統合し、タンパク質モデリング、生成、および設計の強力な基盤として機能します。
ただし、3D構造を離散トークンに象徴することに依存すると、細粒の構造の詳細と相関に関する忠実度が大幅に失われます。
この論文では、マルチモーダルPLMSの設計スペースを体系的に解明して、制限を克服します。
トークン化の損失を特定し、PLMSによる主要なボトルネックとしての不正確な構造トークン予測を特定します。
これらに対処するために、提案された設計スペースは、生成モデリングの改善、構造認識アーキテクチャ、および表現学習、およびデータ調査をカバーしています。
私たちの進歩は、細かい粒度の監督に近づき、トークンベースのマルチモーダルPLMが堅牢な構造モデリングを実現できることを示しています。
効果的な設計方法は、PDBテストセットでRMSDを5.52から2.36に減らし、3Bベースラインを上回り、特殊な折りたたみモデルと同等に削減することにより、構造生成の多様性、特に650mモデルの折りたたみ能力を劇的に改善します。

要約(オリジナル)

Multimodal protein language models (PLMs) integrate sequence and token-based structural information, serving as a powerful foundation for protein modeling, generation, and design. However, the reliance on tokenizing 3D structures into discrete tokens causes substantial loss of fidelity about fine-grained structural details and correlations. In this paper, we systematically elucidate the design space of multimodal PLMs to overcome their limitations. We identify tokenization loss and inaccurate structure token predictions by the PLMs as major bottlenecks. To address these, our proposed design space covers improved generative modeling, structure-aware architectures and representation learning, and data exploration. Our advancements approach finer-grained supervision, demonstrating that token-based multimodal PLMs can achieve robust structural modeling. The effective design methods dramatically improve the structure generation diversity, and notably, folding abilities of our 650M model by reducing the RMSD from 5.52 to 2.36 on PDB testset, even outperforming 3B baselines and on par with the specialized folding models.

arxiv情報

著者 Cheng-Yen,Hsieh,Xinyou Wang,Daiheng Zhang,Dongyu Xue,Fei Ye,Shujian Huang,Zaixiang Zheng,Quanquan Gu
発行日 2025-04-15 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM | Elucidating the Design Space of Multimodal Protein Language Models はコメントを受け付けていません

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

要約

複雑な数学的推論の能力は、人工知能の重要なベンチマークです。
LLMSに適用される強化学習(RL)は有望であるが、進歩は十分に挑戦的で、RLに適した検証可能な回答形式を所有しており、評価ベンチマークに汚染されていない大規模なトレーニングデータの欠如によって大幅に妨げられる。
これらの制限に対処するために、RLを介して高度な推論モデルをトレーニングするように特別に設計された、約103kの数学的問題を含む新しい大規模なデータセットであるDeepMath-103Kを導入します。
DeepMath-103Kは、ソース分析、多数のベンチマークに対する厳しい除染、および困難なフィルタリング(主にレベル5-9)を含む厳格なパイプラインを通じてキュレーションされ、チャレンジの既存のオープンリソースを大幅に超えています。
各問題には、検証可能な最終回答、ルールベースのRLを有効にし、監視された微調整や蒸留などの多様なトレーニングパラダイムに適した3つの異なるR1生成ソリューションが含まれます。
幅広い数学的トピックにまたがるDeepMath-103Kは、一般化可能な推論の開発を促進します。
DeepMath-103Kでトレーニングされたモデルは、挑戦的な数学ベンチマークで大幅な改善を達成し、その有効性を検証することを実証します。
DeepMath-103Kを公開して、より有能なAI推論システムの構築におけるコミュニティの進歩を促進します:https://github.com/zwhe99/deepmath。

要約(オリジナル)

The capacity for complex mathematical reasoning is a key benchmark for artificial intelligence. While reinforcement learning (RL) applied to LLMs shows promise, progress is significantly hindered by the lack of large-scale training data that is sufficiently challenging, possesses verifiable answer formats suitable for RL, and is free from contamination with evaluation benchmarks. To address these limitations, we introduce DeepMath-103K, a new, large-scale dataset comprising approximately 103K mathematical problems, specifically designed to train advanced reasoning models via RL. DeepMath-103K is curated through a rigorous pipeline involving source analysis, stringent decontamination against numerous benchmarks, and filtering for high difficulty (primarily Levels 5-9), significantly exceeding existing open resources in challenge. Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation. Spanning a wide range of mathematical topics, DeepMath-103K promotes the development of generalizable reasoning. We demonstrate that models trained on DeepMath-103K achieve significant improvements on challenging mathematical benchmarks, validating its effectiveness. We release DeepMath-103K publicly to facilitate community progress in building more capable AI reasoning systems: https://github.com/zwhe99/DeepMath.

arxiv情報

著者 Zhiwei He,Tian Liang,Jiahao Xu,Qiuzhi Liu,Xingyu Chen,Yue Wang,Linfeng Song,Dian Yu,Zhenwen Liang,Wenxuan Wang,Zhuosheng Zhang,Rui Wang,Zhaopeng Tu,Haitao Mi,Dong Yu
発行日 2025-04-15 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning はコメントを受け付けていません

CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image

要約

このペーパーは、ロボット操作タスクにおける明確なオブジェクトのカテゴリレベルのポーズ推定に取り組み、新しいベンチマークデータセットを導入します。
最近の方法では、パーツがカテゴリレベルでポーズとサイズを推定しますが、ポイントクラウドの最初のセグメントパーツをセグメント化する幾何学的キューと複雑なマルチステージパイプラインに依存し、6Dポーズの正規化されたパーツ座標空間(NPCS)推定に依存しています。
これらのアプローチは、RGB画像からの密なセマンティックキューを見落としており、特に小さな部分を持つオブジェクトでは、最適ではない精度につながります。
これらの制限に対処するために、6Dポーズとカテゴリー的な明確な部分を推定するために、単一ステージネットワークCAP-NETを提案します。
この方法では、RGB-D機能を組み合わせて、各部品のインスタンスセグメンテーションとNPCS表現をエンドツーエンドの方法で生成します。
Cap-Netは、統一されたネットワークを使用して、ポイントワイズのクラスラベル、Centroidオフセット、およびNPCSマップを同時に予測します。
クラスタリングアルゴリズムは、推定された重心距離に基づいて同じ予測クラスのポイントをグループ化して、各部分を分離します。
最後に、各部品のNPCS領域は、最終的なポーズとサイズを回復するためにポイントクラウドと整合しています。
SIM-to-Realドメインギャップを橋渡しするために、これまでで最大のRGB-Dの明確なデータセットであるRGBD-ARTデータセットを導入します。
RGBD-ARTデータセットの実験的評価は、この方法が最先端のアプローチを大幅に上回ることを示しています。
ロボットタスクにおけるモデルの実際の展開は、その堅牢性と例外的なSIMから現実的な転送機能を強調し、その実質的な実用性を確認しています。
データセット、コード、事前に訓練されたモデルは、プロジェクトページで入手できます。

要約(オリジナル)

This paper tackles category-level pose estimation of articulated objects in robotic manipulation tasks and introduces a new benchmark dataset. While recent methods estimate part poses and sizes at the category level, they often rely on geometric cues and complex multi-stage pipelines that first segment parts from the point cloud, followed by Normalized Part Coordinate Space (NPCS) estimation for 6D poses. These approaches overlook dense semantic cues from RGB images, leading to suboptimal accuracy, particularly for objects with small parts. To address these limitations, we propose a single-stage Network, CAP-Net, for estimating the 6D poses and sizes of Categorical Articulated Parts. This method combines RGB-D features to generate instance segmentation and NPCS representations for each part in an end-to-end manner. CAP-Net uses a unified network to simultaneously predict point-wise class labels, centroid offsets, and NPCS maps. A clustering algorithm then groups points of the same predicted class based on their estimated centroid distances to isolate each part. Finally, the NPCS region of each part is aligned with the point cloud to recover its final pose and size. To bridge the sim-to-real domain gap, we introduce the RGBD-Art dataset, the largest RGB-D articulated dataset to date, featuring photorealistic RGB images and depth noise simulated from real sensors. Experimental evaluations on the RGBD-Art dataset demonstrate that our method significantly outperforms the state-of-the-art approach. Real-world deployments of our model in robotic tasks underscore its robustness and exceptional sim-to-real transfer capabilities, confirming its substantial practical utility. Our dataset, code and pre-trained models are available on the project page.

arxiv情報

著者 Jingshun Huang,Haitao Lin,Tianyu Wang,Yanwei Fu,Xiangyang Xue,Yi Zhu
発行日 2025-04-15 14:30:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image はコメントを受け付けていません

Leveraging multimodal explanatory annotations for video interpretation with Modality Specific Dataset

要約

人間が注目した説明概念を含むデータセットであるMobygazeを使用して、マルチモーダルビデオ解釈モデルに対する概念に基づいた監督の影響を調べます。
注釈付き概念のモダリティ(視覚、テキスト、またはオーディオ)によって分類されたデータサブセットで構成されるコンセプトモダリティ固有のデータセット(CMSD)を紹介します。
CMSDでトレーニングされたモデルは、早期および後期の融合アプローチの両方で従来のレガシートレーニングを使用しているモデルよりも優れています。
特に、このアプローチにより、遅い融合モデルは、早期融合モデルのパフォーマンスに近いパフォーマンスを実現できます。
これらの調査結果は、堅牢で自己説明可能なビデオモデルの開発におけるモダリティ固有の注釈の重要性を強調し、複雑なビデオ分析における解釈可能なマルチモーダル学習の進歩に貢献しています。

要約(オリジナル)

We examine the impact of concept-informed supervision on multimodal video interpretation models using MOByGaze, a dataset containing human-annotated explanatory concepts. We introduce Concept Modality Specific Datasets (CMSDs), which consist of data subsets categorized by the modality (visual, textual, or audio) of annotated concepts. Models trained on CMSDs outperform those using traditional legacy training in both early and late fusion approaches. Notably, this approach enables late fusion models to achieve performance close to that of early fusion models. These findings underscore the importance of modality-specific annotations in developing robust, self-explainable video models and contribute to advancing interpretable multimodal learning in complex video analysis.

arxiv情報

著者 Elisa Ancarani,Julie Tores,Lucile Sassatelli,Rémy Sun,Hui-Yin Wu,Frédéric Precioso
発行日 2025-04-15 14:33:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Leveraging multimodal explanatory annotations for video interpretation with Modality Specific Dataset はコメントを受け付けていません

Next-Future: Sample-Efficient Policy Learning for Robotic-Arm Tasks

要約

Hindsight Experience Replay(彼女)は、バイナリ報酬を備えたロボット操作タスクでサンプル効率の高いマルチゴール補強学習(RL)を達成するための最先端のアルゴリズムと広く見なされています。
彼女は、再定義された目標で軌跡を再生することにより、失敗した試みからの学習を促進します。
ただし、原則的なフレームワークがないヒューリスティックベースのリプレイメソッドに依存しています。
この制限に対処するために、シングルステップの移行に報いることに焦点を当てた新しいリプレイ戦略「次の栄養」を紹介します。
このアプローチは、特に厳格な精度要件の下で、マルチゴールマルコフ決定プロセス(MDP)を学習する際のサンプル効率と精度を大幅に向上させます。これは、複雑で正確なロボットアームタスクを実行するための重要な側面です。
単一ステップの学習がマルチゴールRLフレームワーク内での値近似を改善する方法を強調することにより、私たちの方法の有効性を実証します。
提案されたリプレイ戦略のパフォーマンスは、トレーニングに10個のランダムシードを使用して、8つの挑戦的なロボット操作タスクで評価されます。
我々の結果は、8つのタスクのうち7つのサンプル効率の大幅な改善と、6つのタスクでの成功率が高いことを示しています。
さらに、実際の実験は、学習ポリシーの実用的な実現可能性を検証し、複雑なロボットアームタスクの解決における「次の維持」の可能性を実証します。

要約(オリジナル)

Hindsight Experience Replay (HER) is widely regarded as the state-of-the-art algorithm for achieving sample-efficient multi-goal reinforcement learning (RL) in robotic manipulation tasks with binary rewards. HER facilitates learning from failed attempts by replaying trajectories with redefined goals. However, it relies on a heuristic-based replay method that lacks a principled framework. To address this limitation, we introduce a novel replay strategy, ‘Next-Future’, which focuses on rewarding single-step transitions. This approach significantly enhances sample efficiency and accuracy in learning multi-goal Markov decision processes (MDPs), particularly under stringent accuracy requirements — a critical aspect for performing complex and precise robotic-arm tasks. We demonstrate the efficacy of our method by highlighting how single-step learning enables improved value approximation within the multi-goal RL framework. The performance of the proposed replay strategy is evaluated across eight challenging robotic manipulation tasks, using ten random seeds for training. Our results indicate substantial improvements in sample efficiency for seven out of eight tasks and higher success rates in six tasks. Furthermore, real-world experiments validate the practical feasibility of the learned policies, demonstrating the potential of ‘Next-Future’ in solving complex robotic-arm tasks.

arxiv情報

著者 Fikrican Özgür,René Zurbrügg,Suryansh Kumar
発行日 2025-04-15 14:45:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Next-Future: Sample-Efficient Policy Learning for Robotic-Arm Tasks はコメントを受け付けていません

Cryo-em images are intrinsically low dimensional

要約

シミュレーションベースの推論は、クレオスビなどの方法でニューラルネットワークを使用して、学習した潜在表現を介して生体分子コンフォメーションを推測するために、クリオエレクトロン顕微鏡の強力なフレームワークを提供します。
この潜在スペースは、物理システムと推論プロセスに関する貴重な情報をエンコードする豊富な機会を表しています。
この潜在能力を活用すると、これらの表現の基礎となる幾何学的構造を理解することにかかっています。
この構造を調査し、マニホールド学習技術をヘマグルチニン(シミュレーションおよび実験的)のクリオスビ表現に適用します。
これらの高次元データは、実験的な対応物を効果的にカバーするシミュレートされたデータを使用して、低次元の滑らかなマニホールドに本質的に浸透していることを明らかにします。
拡散マップを使用してマニホールドのジオメトリを特徴付けることにより、座標解釈方法を介してその主要な変動軸を識別することにより、潜在構造と主要な物理パラメーターの間に直接的なリンクを確立します。
この本質的な低次元性と解釈可能な幾何学的組織を発見することで、Cryosbiアプローチを検証するだけでなく、データ構造からさらに学習し、これが明らかにした多様なジオメトリを活用することにより将来の推論戦略を改善する機会を提供します。

要約(オリジナル)

Simulation-based inference provides a powerful framework for cryo-electron microscopy, employing neural networks in methods like CryoSBI to infer biomolecular conformations via learned latent representations. This latent space represents a rich opportunity, encoding valuable information about the physical system and the inference process. Harnessing this potential hinges on understanding the underlying geometric structure of these representations. We investigate this structure by applying manifold learning techniques to CryoSBI representations of hemagglutinin (simulated and experimental). We reveal that these high-dimensional data inherently populate low-dimensional, smooth manifolds, with simulated data effectively covering the experimental counterpart. By characterizing the manifold’s geometry using Diffusion Maps and identifying its principal axes of variation via coordinate interpretation methods, we establish a direct link between the latent structure and key physical parameters. Discovering this intrinsic low-dimensionality and interpretable geometric organization not only validates the CryoSBI approach but enables us to learn more from the data structure and provides opportunities for improving future inference strategies by exploiting this revealed manifold geometry.

arxiv情報

著者 Luke Evans,Octavian-Vlad Murad,Lars Dingeldein,Pilar Cossio,Roberto Covino,Marina Meila
発行日 2025-04-15 14:46:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, q-bio.BM, q-bio.QM, stat.ML | Cryo-em images are intrinsically low dimensional はコメントを受け付けていません

UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis

要約

大規模なビジョン言語モデルの最近の進歩は、デジタルデバイスの生産性を高めるために人間のような視覚認識能力を利用するグラフィカルユーザーインターフェイス(GUI)エージェントの開発を加速しています。
プラットフォームに依存し、実装のバリエーションに対して脆弱なGUIメタデータに基づいたアプローチと比較して、ビジョンベースのアプローチはより広範な適用性を提供します。
このビジョンベースのパラダイムでは、特に限られたパブリックトレーニングデータセットとリソース集約型マニュアル命令データアノテーションのために、特定のスクリーンショットの対応する要素の位置にユーザー命令をマッピングするGUI命令の接地が依然として重要な課題です。
これらの課題に対処するために、ヒトのアノテーターの代わりにGPT-4oを使用してさまざまな複雑な命令データセットを生成するために、大規模なデータ合成パイプラインUI-E2i-Synthを導入します。
さらに、多様な注釈の側面を組み込むことにより、既存のベンチマークの制限に対処するように設計された新しいGUI命令の接地ベンチマークUI-I2Eベンチを提案します。
合成されたデータで訓練されたモデルは、GUI命令の接地で優れたパフォーマンスを実現し、提案されたデータ合成パイプラインの進歩を示しています。
提案されたベンチマークは、広範な分析を伴い、GUIの接地における将来の研究のための実用的な洞察を提供します。
https://colmon46.github.io/i2e-bench-leaderboard/で対応するアーティファクトをリリースします

要約(オリジナル)

Recent advancements in Large Vision-Language Models are accelerating the development of Graphical User Interface (GUI) agents that utilize human-like vision perception capabilities to enhance productivity on digital devices. Compared to approaches predicated on GUI metadata, which are platform-dependent and vulnerable to implementation variations, vision-based approaches offer broader applicability. In this vision-based paradigm, the GUI instruction grounding, which maps user instruction to the location of corresponding element on the given screenshot, remains a critical challenge, particularly due to limited public training dataset and resource-intensive manual instruction data annotation.In this paper, we delve into unexplored challenges in this task including element-to-screen ratio, unbalanced element type, and implicit instruction. To address these challenges, we introduce a large-scale data synthesis pipeline UI-E2I-Synth for generating varying complex instruction datasets using GPT-4o instead of human annotators. Furthermore, we propose a new GUI instruction grounding benchmark UI-I2E-Bench, which is designed to address the limitations of existing benchmarks by incorporating diverse annotation aspects. Our model, trained on the synthesized data, achieves superior performance in GUI instruction grounding, demonstrating the advancements of proposed data synthesis pipeline. The proposed benchmark, accompanied by extensive analyses, provides practical insights for future research in GUI grounding. We will release corresponding artifacts at https://colmon46.github.io/i2e-bench-leaderboard/

arxiv情報

著者 Xinyi Liu,Xiaoyi Zhang,Ziyun Zhang,Yan Lu
発行日 2025-04-15 14:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC | UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis はコメントを受け付けていません