Mouse Lockbox Dataset: Behavior Recognition for Mice Solving Lockboxes

要約

機械学習とコンピュータービジョンの方法は、自然動物の行動の研究に大きな影響を与えます。これは、膨大な量のビデオデータの(半)自動分析を可能にするためです。
マウスは、ほとんどの研究分野の標準的な哺乳類モデルシステムですが、このような方法を改良するために今日利用可能なデータセットは、単純な行動または社会的行動に焦点を当てています。
この作業では、複雑な機械パズル、いわゆるロックボックスを解く個々のマウスのビデオデータセットを提示します。
総プレイタイムの110時間以上は、3つの異なる視点から記録された動作を示しています。
フレームレベルのアクション分類方法のベンチマークとして、データセットの13%に等しい2つの異なるマウスのすべてのビデオに人間が感染したラベルを提供します。
キーポイント(ポーズ)追跡ベースのアクション分類フレームワークは、オブジェクトの操作など、きめ細かい動作の自動ラベル付けの課題を示しています。
私たちの仕事が、計算神経科学コミュニティにおける自動アクションと行動分類の進歩を加速するのに役立つことを願っています。
データセットは、https://doi.org/10.14279/depositonce-23850で公開されています

要約(オリジナル)

Machine learning and computer vision methods have a major impact on the study of natural animal behavior, as they enable the (semi-)automatic analysis of vast amounts of video data. Mice are the standard mammalian model system in most research fields, but the datasets available today to refine such methods focus either on simple or social behaviors. In this work, we present a video dataset of individual mice solving complex mechanical puzzles, so-called lockboxes. The more than 110 hours of total playtime show their behavior recorded from three different perspectives. As a benchmark for frame-level action classification methods, we provide human-annotated labels for all videos of two different mice, that equal 13% of our dataset. Our keypoint (pose) tracking-based action classification framework illustrates the challenges of automated labeling of fine-grained behaviors, such as the manipulation of objects. We hope that our work will help accelerate the advancement of automated action and behavior classification in the computational neuroscience community. Our dataset is publicly available at https://doi.org/10.14279/depositonce-23850

arxiv情報

著者 Patrik Reiske,Marcus N. Boon,Niek Andresen,Sole Traverso,Katharina Hohlbaum,Lars Lewejohann,Christa Thöne-Reineke,Olaf Hellwich,Henning Sprekeler
発行日 2025-06-17 15:05:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mouse Lockbox Dataset: Behavior Recognition for Mice Solving Lockboxes はコメントを受け付けていません

Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

要約

マルチモーダル大手言語モデル(MLLMS)は、グラフィカルユーザーインターフェイス(GUI)エージェントの機能を変換し、さまざまなプラットフォームで制御されたシミュレーションから複雑な実際のアプリケーションへの移行を促進しています。
ただし、これらのエージェントの有効性は、接地能力の堅牢性にかかっています。
現在のGUIエージェントは、主にHTMLやアクセシビリティツリーなどのテキストベースの表現を利用しています。これは、その有用性にもかかわらず、ノイズ、不完全性、計算オーバーヘッドの増加を導入します。
この論文では、環境を完全に視覚的に知覚し、GUIでピクセルレベルの操作を直接実行するGUIエージェントの人間のような実施形態を提唱します。
重要なのは、異なるプラットフォームにわたってGUIの座標にGUI要素の式を正確にマッピングできる視覚的な接地モデルです。
Webベースの合成データとLlavaアーキテクチャのわずかな適応を含む簡単なレシピは、そのような視覚的接地モデルのトレーニングに驚くほど効果的であることを示しています。
これまでにGUI視覚接地の最大のデータセットを収集し、1.3mのスクリーンショットを超える10m GUI要素とその参照式を含む最大のデータセットを収集し、GUIエージェントの強力な普遍的な視覚的接地モデルであるUgroundを訓練するために使用します。
3つのカテゴリ(接地、オフラインエージェント、およびオンラインエージェント)にまたがる6つのベンチマークの経験的結果は、1)UgroundがGUIエージェントの既存の視覚接地モデルを実質的に優れていることを示しています。
これらの結果は、人間と同じようにデジタルの世界をナビゲートするGUIエージェントの実現可能性と約束に対する強力なサポートを提供します。

要約(オリジナル)

Multimodal large language models (MLLMs) are transforming the capabilities of graphical user interface (GUI) agents, facilitating their transition from controlled simulations to complex, real-world applications across various platforms. However, the effectiveness of these agents hinges on the robustness of their grounding capability. Current GUI agents predominantly utilize text-based representations such as HTML or accessibility trees, which, despite their utility, often introduce noise, incompleteness, and increased computational overhead. In this paper, we advocate a human-like embodiment for GUI agents that perceive the environment entirely visually and directly perform pixel-level operations on the GUI. The key is visual grounding models that can accurately map diverse referring expressions of GUI elements to their coordinates on the GUI across different platforms. We show that a simple recipe, which includes web-based synthetic data and slight adaptation of the LLaVA architecture, is surprisingly effective for training such visual grounding models. We collect the largest dataset for GUI visual grounding so far, containing 10M GUI elements and their referring expressions over 1.3M screenshots, and use it to train UGround, a strong universal visual grounding model for GUI agents. Empirical results on six benchmarks spanning three categories (grounding, offline agent, and online agent) show that 1) UGround substantially outperforms existing visual grounding models for GUI agents, by up to 20% absolute, and 2) agents with UGround outperform state-of-the-art agents, despite the fact that existing agents use additional text-based input while ours only uses visual perception. These results provide strong support for the feasibility and promises of GUI agents that navigate the digital world as humans do.

arxiv情報

著者 Boyu Gou,Ruohan Wang,Boyuan Zheng,Yanan Xie,Cheng Chang,Yiheng Shu,Huan Sun,Yu Su
発行日 2025-06-17 15:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents はコメントを受け付けていません

Align Your Flow: Scaling Continuous-Time Flow Map Distillation

要約

拡散およびフローベースのモデルは、最先端の生成モデリングアプローチとして浮上していますが、多くのサンプリングステップが必要です。
一貫性モデルは、これらのモデルを効率的なワンステップジェネレーターに蒸留できます。
ただし、フローおよび拡散ベースの方法とは異なり、そのパフォーマンスは、分析的および経験的に両方のステップを増やすと、必然的に劣化します。
フローマップは、1つのステップで任意の2つのノイズレベルを接続することにより、これらのアプローチを一般化し、すべてのステップ数にわたって効果を発揮し続けます。
このホワイトペーパーでは、トレーニングフローマップのための2つの新しい連続時間目標と、追加の新しいトレーニング手法を紹介し、既存の一貫性とフローマッチング目標を一般化します。
さらに、蒸留中のガイダンスのために低品質のモデルを使用して、自動配信がパフォーマンスを改善できることを実証し、サンプルの多様性を最小限に抑えて、敵対的な微調整によって追加のブーストを達成できることを実証します。
挑戦的な画像生成ベンチマークでフローをAlign Flowモデルと呼ばれるフローマップモデルを広範囲に検証し、小規模で効率的なニューラルネットワークを使用して、Imagenet 64×64と512×512の両方で最先端の数段階のパフォーマンスを実現します。
最後に、既存の非副作用されていないすべての非訓練された数段階のサンプラーをテキスト条件付けされた合成に上回るテキストから画像へのフローマップモデルを表示します。

要約(オリジナル)

Diffusion- and flow-based models have emerged as state-of-the-art generative modeling approaches, but they require many sampling steps. Consistency models can distill these models into efficient one-step generators; however, unlike flow- and diffusion-based methods, their performance inevitably degrades when increasing the number of steps, which we show both analytically and empirically. Flow maps generalize these approaches by connecting any two noise levels in a single step and remain effective across all step counts. In this paper, we introduce two new continuous-time objectives for training flow maps, along with additional novel training techniques, generalizing existing consistency and flow matching objectives. We further demonstrate that autoguidance can improve performance, using a low-quality model for guidance during distillation, and an additional boost can be achieved by adversarial finetuning, with minimal loss in sample diversity. We extensively validate our flow map models, called Align Your Flow, on challenging image generation benchmarks and achieve state-of-the-art few-step generation performance on both ImageNet 64×64 and 512×512, using small and efficient neural networks. Finally, we show text-to-image flow map models that outperform all existing non-adversarially trained few-step samplers in text-conditioned synthesis.

arxiv情報

著者 Amirmojtaba Sabour,Sanja Fidler,Karsten Kreis
発行日 2025-06-17 15:06:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Align Your Flow: Scaling Continuous-Time Flow Map Distillation はコメントを受け付けていません

Unsupervised Imaging Inverse Problems with Diffusion Distribution Matching

要約

この作業では、対応のないデータセットを使用して、逆の問題のレンズを介した画像修復タスクに対処します。
従来のアプローチとは対照的に – 通常、順方向モデルに関する完全な知識またはペアの劣化した地下の真実画像へのアクセスを想定していますが、提案された方法は最小限の仮定の下で動作し、小規模な対応のないデータセットにのみ依存しています。
これにより、実際のシナリオに特に適しています。実際のシナリオでは、フォワードモデルが不明または誤解されていることが多く、ペアのデータを収集することは費用または実行不可能です。
このメソッドは、劣化した観測の分布をモデル化するために条件付きフローマッチングを活用し、同時にフレームワークから自然に生じる分布マッチング損失を介してフォワードモデルを学習します。
経験的に、それは、脱硫酸塩および不均一な点スプレッド関数(PSF)のキャリブレーションタスクに関する単象ルと監視なしのアプローチの両方よりも優れています。
また、ブラインドスーパー解像度の最先端のパフォーマンスも一致しています。
また、レンズのキャリブレーションのための概念実証を使用して、方法の有効性を紹介します。これは、従来、時間のかかる実験と特殊な機器を必要とする現実世界のアプリケーションです。
対照的に、私たちのアプローチは、最小限のデータ収集の取り組みでこれを達成します。

要約(オリジナル)

This work addresses image restoration tasks through the lens of inverse problems using unpaired datasets. In contrast to traditional approaches — which typically assume full knowledge of the forward model or access to paired degraded and ground-truth images — the proposed method operates under minimal assumptions and relies only on small, unpaired datasets. This makes it particularly well-suited for real-world scenarios, where the forward model is often unknown or misspecified, and collecting paired data is costly or infeasible. The method leverages conditional flow matching to model the distribution of degraded observations, while simultaneously learning the forward model via a distribution-matching loss that arises naturally from the framework. Empirically, it outperforms both single-image blind and unsupervised approaches on deblurring and non-uniform point spread function (PSF) calibration tasks. It also matches state-of-the-art performance on blind super-resolution. We also showcase the effectiveness of our method with a proof of concept for lens calibration: a real-world application traditionally requiring time-consuming experiments and specialized equipment. In contrast, our approach achieves this with minimal data acquisition effort.

arxiv情報

著者 Giacomo Meanti,Thomas Ryckeboer,Michael Arbel,Julien Mairal
発行日 2025-06-17 15:06:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Unsupervised Imaging Inverse Problems with Diffusion Distribution Matching はコメントを受け付けていません

VisText-Mosquito: A Multimodal Dataset and Benchmark for AI-Based Mosquito Breeding Site Detection and Reasoning

要約

蚊媒介性疾患は、大規模な世界的な健康リスクをもたらし、発生を防ぐために繁殖部位の早期発見と積極的な制御を必要とします。
この論文では、視覚データとテキストデータを統合して自動検出、セグメンテーション、および蚊の繁殖サイト分析の推論をサポートするマルチモーダルデータセットであるVistext-Mosquitoを紹介します。
データセットには、オブジェクト検出用の1,828個の注釈付き画像、水面セグメンテーション用の142個の画像、および各画像にリンクされた自然言語推論テキストが含まれています。
Yolov9Sモデルは、オブジェクト検出のために0.92926の最高精度と0.92891の50@50を達成し、Yolov11n-segは0.91587のセグメンテーション精度と0.79795の50@50に達します。
推論生成のために、微調整されたBLIPモデルの最終的な損失は0.0028を達成し、BLEUスコアは54.7、Bertscore 0.91、Rouge-Lが0.87です。
このデータセットとモデルのフレームワークは、テーマ「予防は治療よりも優れている」を強調し、AIベースの検出が蚊媒介性のリスクに積極的に対処する方法を示しています。
データセットと実装コードは、githubで公開されています:https://github.com/adnanul-islam-jisun/vistext-mosquito

要約(オリジナル)

Mosquito-borne diseases pose a major global health risk, requiring early detection and proactive control of breeding sites to prevent outbreaks. In this paper, we present VisText-Mosquito, a multimodal dataset that integrates visual and textual data to support automated detection, segmentation, and reasoning for mosquito breeding site analysis. The dataset includes 1,828 annotated images for object detection, 142 images for water surface segmentation, and natural language reasoning texts linked to each image. The YOLOv9s model achieves the highest precision of 0.92926 and mAP@50 of 0.92891 for object detection, while YOLOv11n-Seg reaches a segmentation precision of 0.91587 and mAP@50 of 0.79795. For reasoning generation, our fine-tuned BLIP model achieves a final loss of 0.0028, with a BLEU score of 54.7, BERTScore of 0.91, and ROUGE-L of 0.87. This dataset and model framework emphasize the theme ‘Prevention is Better than Cure’, showcasing how AI-based detection can proactively address mosquito-borne disease risks. The dataset and implementation code are publicly available at GitHub: https://github.com/adnanul-islam-jisun/VisText-Mosquito

arxiv情報

著者 Md. Adnanul Islam,Md. Faiyaz Abdullah Sayeedi,Md. Asaduzzaman Shuvo,Muhammad Ziaur Rahman,Shahanur Rahman Bappy,Raiyan Rahman,Swakkhar Shatabda
発行日 2025-06-17 15:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | VisText-Mosquito: A Multimodal Dataset and Benchmark for AI-Based Mosquito Breeding Site Detection and Reasoning はコメントを受け付けていません

Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

要約

私たちは、言語命令に続いて高解像度の光エアリスティックな画像を生成できるビットワイズの視覚的自己回帰モデリングである無限を提示します。
Infinityは、Infinite-Vocabulary Tokanizer&分類器とビットワイズの自己修正メカニズムを備えたビットワイズトークン予測フレームワークの下で、視覚的な自己回帰モデルを再定義し、生成能力と詳細を著しく改善します。
理論的にトークン剤の語彙サイズを無限にスケーリングし、変圧器のサイズを同時にスケーリングすることにより、私たちの方法は、バニラvarと比較して強力なスケーリング機能を大幅に解放します。
Infinityは、SD3-MediumやSDXLなどのトップティア拡散モデルを上回る、自己回帰テキストから画像モデルの新しいレコードを設定します。
特に、Infinityは、0.62から0.73の遺伝的ベンチマークスコアを改善し、Imagereward Benchmarkスコアを0.87から0.96に改善することにより、SD3メディアを上回り、66%の勝利を達成します。
追加の最適化がなければ、Infinityは0.8秒で高品質の1024×1024画像を生成し、SD3メディウムよりも2.6倍高速になり、最速のテキストから画像モデルとして確立します。
モデルとコードがリリースされ、視覚生成および統一トークネイザーモデリングのための無限のさらなる調査を促進します。

要約(オリジナル)

We present Infinity, a Bitwise Visual AutoRegressive Modeling capable of generating high-resolution, photorealistic images following language instruction. Infinity redefines visual autoregressive model under a bitwise token prediction framework with an infinite-vocabulary tokenizer & classifier and bitwise self-correction mechanism, remarkably improving the generation capacity and details. By theoretically scaling the tokenizer vocabulary size to infinity and concurrently scaling the transformer size, our method significantly unleashes powerful scaling capabilities compared to vanilla VAR. Infinity sets a new record for autoregressive text-to-image models, outperforming top-tier diffusion models like SD3-Medium and SDXL. Notably, Infinity surpasses SD3-Medium by improving the GenEval benchmark score from 0.62 to 0.73 and the ImageReward benchmark score from 0.87 to 0.96, achieving a win rate of 66%. Without extra optimization, Infinity generates a high-quality 1024×1024 image in 0.8 seconds, making it 2.6x faster than SD3-Medium and establishing it as the fastest text-to-image model. Models and codes will be released to promote further exploration of Infinity for visual generation and unified tokenizer modeling.

arxiv情報

著者 Jian Han,Jinlai Liu,Yi Jiang,Bin Yan,Yuqi Zhang,Zehuan Yuan,Bingyue Peng,Xiaobing Liu
発行日 2025-06-17 15:32:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis はコメントを受け付けていません

3DGS-IEval-15K: A Large-scale Image Quality Evaluation Database for 3D Gaussian-Splatting

要約

3Dガウススプラッティング(3DG)は、新しいビュー合成の有望なアプローチとして浮上しており、視覚的な忠実度が高いリアルタイムレンダリングを提供しています。
ただし、その実質的なストレージ要件は、実用的なアプリケーションに大きな課題をもたらします。
最近の最新の(SOTA)3DGSメソッドは、専用の圧縮モジュールをますます組み込んでいますが、知覚的影響を評価するための包括的なフレームワークが不足しています。
したがって、圧縮された3DGS表現専用に設計された最初の大規模な画質評価(IQA)データセットである3DGS-IEVAL-15Kを提示します。
私たちのデータセットには、10の実際のシーンからレンダリングされた15,200の画像が含まれます。20の戦略的に選択された視点で6つの代表的な3DGSアルゴリズムを備えており、さまざまな圧縮レベルがさまざまな歪み効果をもたらします。
制御された主観的実験を通じて、60人の視聴者から人間の知覚データを収集します。
シーンの多様性とMOS分布分析を通じてデータセットの品質を検証し、多様なタイプをカバーする30の代表的なIQAメトリックを使用して包括的なベンチマークを確立します。
これまでで最大の3DGS品質評価データセットとして、当社の作業は3DGS専門のIQAメトリックを開発するための基盤を提供し、3DGSに固有のビュー依存性品質分布パターンを調査するための不可欠なデータを提供します。
データベースは、https://github.com/yukexing/3dgs-ieval-15kで公開されています。

要約(オリジナル)

3D Gaussian Splatting (3DGS) has emerged as a promising approach for novel view synthesis, offering real-time rendering with high visual fidelity. However, its substantial storage requirements present significant challenges for practical applications. While recent state-of-the-art (SOTA) 3DGS methods increasingly incorporate dedicated compression modules, there is a lack of a comprehensive framework to evaluate their perceptual impact. Therefore we present 3DGS-IEval-15K, the first large-scale image quality assessment (IQA) dataset specifically designed for compressed 3DGS representations. Our dataset encompasses 15,200 images rendered from 10 real-world scenes through 6 representative 3DGS algorithms at 20 strategically selected viewpoints, with different compression levels leading to various distortion effects. Through controlled subjective experiments, we collect human perception data from 60 viewers. We validate dataset quality through scene diversity and MOS distribution analysis, and establish a comprehensive benchmark with 30 representative IQA metrics covering diverse types. As the largest-scale 3DGS quality assessment dataset to date, our work provides a foundation for developing 3DGS specialized IQA metrics, and offers essential data for investigating view-dependent quality distribution patterns unique to 3DGS. The database is publicly available at https://github.com/YukeXing/3DGS-IEval-15K.

arxiv情報

著者 Yuke Xing,Jiarui Wang,Peizhi Niu,Wenjie Huang,Guangtao Zhai,Yiling Xu
発行日 2025-06-17 15:39:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 3DGS-IEval-15K: A Large-scale Image Quality Evaluation Database for 3D Gaussian-Splatting はコメントを受け付けていません

Diverse Topology Optimization using Modulated Neural Fields

要約

トポロジの最適化(to)は、正式な問題の説明から最適に近い幾何学を導き出す計算方法のファミリーです。
その成功にもかかわらず、メソッドに確立されたものは、単一のソリューションの生成に限定され、代替デザインの調査を制限します。
この制限に対処するために、変調されたニューラルフィールド(TOM)を使用してトポロジー最適化を導入します。これは、明示的に準拠した形状を生成し、明示的な多様性の制約を通じて多様なソリューションを調査するためにニューラルネットワークを訓練するデータフリーの方法です。
ネットワークはループのソルバーでトレーニングされており、各反復の材料分布を最適化します。
訓練されたモデルは、設計要件を密接に順守する多様な形状を生成します。
2Dおよび3DでTOMを問題に検証します。
私たちの結果は、Tomが以前の方法よりも多様なソリューションを生成し、すべて最適性を維持し、データセットに依存することなく、より多様なソリューションを生成していることを示しています。
これらの調査結果は、エンジニアリングと設計のための新しい道を開き、構造的最適化における柔軟性と革新の向上を提供します。

要約(オリジナル)

Topology optimization (TO) is a family of computational methods that derive near-optimal geometries from formal problem descriptions. Despite their success, established TO methods are limited to generating single solutions, restricting the exploration of alternative designs. To address this limitation, we introduce Topology Optimization using Modulated Neural Fields (TOM) – a data-free method that trains a neural network to generate structurally compliant shapes and explores diverse solutions through an explicit diversity constraint. The network is trained with a solver-in-the-loop, optimizing the material distribution in each iteration. The trained model produces diverse shapes that closely adhere to the design requirements. We validate TOM on 2D and 3D TO problems. Our results show that TOM generates more diverse solutions than any previous method, all while maintaining near-optimality and without relying on a dataset. These findings open new avenues for engineering and design, offering enhanced flexibility and innovation in structural optimization.

arxiv情報

著者 Andreas Radler,Eric Volkmann,Johannes Brandstetter,Arturs Berzins
発行日 2025-06-17 15:47:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.AI, cs.CV, cs.LG | Diverse Topology Optimization using Modulated Neural Fields はコメントを受け付けていません

ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities

要約

従来の固定テストセットは、基礎モデルのオープンエンド機能の評価に不足しています。
これに対処するために、個々の評価データセットを統合され、拡大し続けるサンプルプールに統合する新しいテストパラダイムであるOneBench(オープンエンドベンチマーク)を提案します。
OneBenchを使用すると、ユーザーは、関心のある特定の機能に対応するこのプールから、カスタムオープンエンドの評価ベンチマークを生成できます。
テストセット全体でサンプルを集約することにより、OneBenchは、元のテストセットでカバーされているものを超える多様な機能の評価を可能にし、過剰適合とデータセットバイアスを緩和します。
最も重要なことは、サンプルレベルのテストを選択および集約する集合プロセスとしてモデル評価をフレーム化することです。
タスク固有のベンチマークからOneBenchへの移行は、(1)不均一性と(2)不完全性の2つの課題を導入します。
不均一性とは、多様なメトリックよりも集約を指し、不完全性は異なるデータサブセットで評価されたモデルの比較を記述します。
これらの課題に対処するために、アルゴリズムを調査して、まばらな測定値を信頼できるモデルスコアに集約します。
集約アルゴリズムにより、識別可能性(漸近的に回復するグラウンドスコアスコア)と迅速な収束を保証し、より少ないデータで正確なモデルランキングを可能にします。
同種のデータセットでは、集約アルゴリズムが平均スコアによって生成されたものと高度に相関するランキングを提供することを示します。
また、測定値の約95%に対する堅牢性を示し、モデルランキングの変更はほとんどなく、評価コストを最大20倍削減します。
これらのドメイン全体で評価を統合するために、言語モデルにはOneBench-llm、Vision-LanguageモデルにはOnebench-lmmを紹介します。
全体として、オープンエンドの評価の手法を提示します。オープンエンド評価は、急速に発展している基礎モデルと並んでベンチマークを継続的に成長させるために、不完全で不均一なサンプルレベルの測定値を集約できます。

要約(オリジナル)

Traditional fixed test sets fall short in evaluating open-ended capabilities of foundation models. To address this, we propose ONEBench(OpeN-Ended Benchmarking), a new testing paradigm that consolidates individual evaluation datasets into a unified, ever-expanding sample pool. ONEBench allows users to generate custom, open-ended evaluation benchmarks from this pool, corresponding to specific capabilities of interest. By aggregating samples across test sets, ONEBench enables the assessment of diverse capabilities beyond those covered by the original test sets, while mitigating overfitting and dataset bias. Most importantly, it frames model evaluation as a collective process of selecting and aggregating sample-level tests. The shift from task-specific benchmarks to ONEBench introduces two challenges: (1)heterogeneity and (2)incompleteness. Heterogeneity refers to the aggregation over diverse metrics, while incompleteness describes comparing models evaluated on different data subsets. To address these challenges, we explore algorithms to aggregate sparse measurements into reliable model scores. Our aggregation algorithm ensures identifiability(asymptotically recovering ground-truth scores) and rapid convergence, enabling accurate model ranking with less data. On homogenous datasets, we show our aggregation algorithm provides rankings that highly correlate with those produced by average scores. We also demonstrate robustness to ~95% of measurements missing, reducing evaluation cost by up to 20x with little-to-no change in model rankings. We introduce ONEBench-LLM for language models and ONEBench-LMM for vision-language models, unifying evaluations across these domains. Overall, we present a technique for open-ended evaluation, which can aggregate over incomplete, heterogeneous sample-level measurements to continually grow a benchmark alongside the rapidly developing foundation models.

arxiv情報

著者 Adhiraj Ghosh,Sebastian Dziadzio,Ameya Prabhu,Vishaal Udandarao,Samuel Albanie,Matthias Bethge
発行日 2025-06-17 15:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities はコメントを受け付けていません

DDS-NAS: Dynamic Data Selection within Neural Architecture Search via On-line Hard Example Mining applied to Image Classification

要約

ニューラルアーキテクチャ検索(NAS)内のスケーラビリティチャレンジに対処するために、カリキュラム学習フレームワーク内の動的なハード例マイニングを介してNASトレーニングをスピードアップします。
潜在空間に画像類似性の埋め込みを強制する自動エンコーダーを使用することにより、低次元の埋め込みで最も遠い隣接の非類似性による画像を注文するために、効率的なKDツリー構造を構築します。
サブサンプルデータセットの特定のクエリ画像から、対数時間のグローバルデータセット内の最も異なる画像を識別できます。
カリキュラム学習を介して、NAS最適化のための偏りのないサブサンプルデータセットを動的に再形成し、現在のNASソリューションアーキテクチャのパフォーマンスが低下します。
DDS-NASフレームワークが、パフォーマンスを損なうことなく、勾配ベースのNAS戦略を最大27倍高速化することを示しています。
トレーニング中に各画像サンプルの寄与を最大化することにより、NASトレーニングサイクルの期間と収束に必要な反復回数を減らします。

要約(オリジナル)

In order to address the scalability challenge within Neural Architecture Search (NAS), we speed up NAS training via dynamic hard example mining within a curriculum learning framework. By utilizing an autoencoder that enforces an image similarity embedding in latent space, we construct an efficient kd-tree structure to order images by furthest neighbour dissimilarity in a low-dimensional embedding. From a given query image from our subsample dataset, we can identify the most dissimilar image within the global dataset in logarithmic time. Via curriculum learning, we then dynamically re-formulate an unbiased subsample dataset for NAS optimisation, upon which the current NAS solution architecture performs poorly. We show that our DDS-NAS framework speeds up gradient-based NAS strategies by up to 27x without loss in performance. By maximising the contribution of each image sample during training, we reduce the duration of a NAS training cycle and the number of iterations required for convergence.

arxiv情報

著者 Matt Poyser,Toby P. Breckon
発行日 2025-06-17 15:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DDS-NAS: Dynamic Data Selection within Neural Architecture Search via On-line Hard Example Mining applied to Image Classification はコメントを受け付けていません