Hyper-Compression: Model Compression via Hyperfunction

要約

大規模なモデルのサイズの急速な成長は、コンピューティングリソースの成長をはるかに上回っています。
脳の成長と発達における遺伝子型と表現型の間の節約的な関係によって奨励されたこのギャップを埋めるために、私たちは、モデル圧縮をハイパー機能を介してパラメーター表現の問題に変えるいわゆるハイパー圧縮を提案します。
具体的には、いくつかの低次元動的システムの軌跡が最終的に高次元空間を埋めることができることが知られています。
したがって、これらの動的システムをハイパーファンクションとして使用するハイパーコンプレッションは、対応する構成数または軌跡の長さによってターゲットネットワークのパラメーターを表します。
これは、既存の剪定、量子化、蒸留、分解とは大幅に異なるモデル圧縮の新しいメカニズムを示唆しています。
この方向に沿って、私たちは方法論的に、非合理的な巻き取りを伴う適切な動的システムを、膨大な機能として、それに関連するエラーバウンドを理論的に導き出します。
次に、理論的な洞察に導かれ、ハイパーコンプレッションを実用的で効果的にするために、いくつかのエンジニアリングのひねりを提案します。
最後に、体系的かつ包括的な実験では、ハイパーコンプレッションが次の\ textbf {pnas}メリットを享受していることを確認します:1)\ textbf {p}参照可能な圧縮比。
2)\ textbf {n} o事後再訓練。
3)\ textbf {a} ffordable推論時間;
および4)\ textbf {s} Hort圧縮時間。
1時間でllama2-7bを圧縮し、再訓練なしで、1 \%未満のパフォーマンス低下で、INT4測量化パフォーマンスを達成します。
無料ダウンロードと評価のために、https://github.com/juntongkuki/hyper-compression.gitでコードをオープンソースしました。

要約(オリジナル)

The rapid growth of large models’ size has far outpaced that of computing resources. To bridge this gap, encouraged by the parsimonious relationship between genotype and phenotype in the brain’s growth and development, we propose the so-called hyper-compression that turns the model compression into the issue of parameter representation via a hyperfunction. Specifically, it is known that the trajectory of some low-dimensional dynamic systems can fill the high-dimensional space eventually. Thus, hyper-compression, using these dynamic systems as the hyperfunctions, represents the parameters of the target network by their corresponding composition number or trajectory length. This suggests a novel mechanism for model compression, substantially different from the existing pruning, quantization, distillation, and decomposition. Along this direction, we methodologically identify a suitable dynamic system with the irrational winding as the hyperfunction and theoretically derive its associated error bound. Next, guided by our theoretical insights, we propose several engineering twists to make the hyper-compression pragmatic and effective. Lastly, systematic and comprehensive experiments confirm that hyper-compression enjoys the following \textbf{PNAS} merits: 1) \textbf{P}referable compression ratio; 2) \textbf{N}o post-hoc retraining; 3) \textbf{A}ffordable inference time; and 4) \textbf{S}hort compression time. It compresses LLaMA2-7B in an hour and achieves close-to-int4-quantization performance, without retraining and with a performance drop of less than 1\%. We have open-sourced our code in https://github.com/Juntongkuki/Hyper-Compression.git for free download and evaluation.

arxiv情報

著者 Fenglei Fan,Juntong Fan,Dayang Wang,Jingbo Zhang,Zelin Dong,Shijun Zhang,Ge Wang,Tieyong Zeng
発行日 2025-04-02 13:58:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.LG | Hyper-Compression: Model Compression via Hyperfunction はコメントを受け付けていません

Rethinking Synthetic Data definitions: A privacy driven approach

要約

合成データは、AI開発のデータ需要の増加に対する費用対効果の高いソリューションとして牽引力を獲得しており、既存の知識または実際のイベントからキャプチャされた派生データのいずれかから生成できます。
合成データ生成のソースと使用された手法は、その残留プライバシーリスクに大きく影響し、したがって共有の機会に影響を与えます。
合成データ型の従来の分類は、新しい生成技術に適合せず、分類を実用的なニーズに合わせてより適切に合わせる必要があります。
規制政策決定を支援するためのプライバシー評価をよりよくサポートする合成データ型をグループ化する新しい方法を提案します。
私たちの斬新な分類は、深い生成方法などの新しい進歩に柔軟性を提供し、将来のアプリケーションのためのより実用的なフレームワークを提供します。

要約(オリジナル)

Synthetic data is gaining traction as a cost-effective solution for the increasing data demands of AI development and can be generated either from existing knowledge or derived data captured from real-world events. The source of the synthetic data generation and the technique used significantly impacts its residual privacy risk and therefore its opportunity for sharing. Traditional classification of synthetic data types no longer fit the newer generation techniques and there is a need to better align the classification with practical needs. We suggest a new way of grouping synthetic data types that better supports privacy evaluations to aid regulatory policymaking. Our novel classification provides flexibility to new advancements like deep generative methods and offers a more practical framework for future applications.

arxiv情報

著者 Vibeke Binz Vallevik,Serena Elizabeth Marshall,Aleksandar Babic,Jan Franz Nygaard
発行日 2025-04-02 14:19:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Rethinking Synthetic Data definitions: A privacy driven approach はコメントを受け付けていません

Prior Lessons of Incremental Dialogue and Robot Action Management for the Age of Language Models

要約

話す能力を持つロボットを支えるための努力は、自然言語処理の最近の進歩、特に大規模な言語モデルの恩恵を受けています。
ただし、現在の言語モデルは完全に漸進的ではありません。その処理は本質的に単調であり、したがって、新しい観測に照らして解釈または出力を修正する能力がないためです。
この単調性は、人間とロボットの相互作用のための対話システムの開発に重要な意味を持っています。
この論文では、段階的に動作するインタラクティブシステムに関する文献をレビューします(つまり、単語レベルまたはその下で)。
私たちは、漸進的なシステムの必要性、音声認識や言語生成などの対話の重要な側面の調査増分モデリングを動機付けます。
主な焦点は、Dialogue Managerとして知られる決定を下すシステムの部分にあります。
インクリメンタルな対話管理に関する研究はほとんどなく、実用的なインクリメンタルダイアログ管理のためのいくつかの要件を提供し、大規模な言語モデルの時代に具体化されたロボットプラットフォームに対するインクリメンタルダイアログの意味を提供していることがわかります。

要約(オリジナル)

Efforts towards endowing robots with the ability to speak have benefited from recent advancements in natural language processing, in particular large language models. However, current language models are not fully incremental, as their processing is inherently monotonic and thus lack the ability to revise their interpretations or output in light of newer observations. This monotonicity has important implications for the development of dialogue systems for human–robot interaction. In this paper, we review the literature on interactive systems that operate incrementally (i.e., at the word level or below it). We motivate the need for incremental systems, survey incremental modeling of important aspects of dialogue like speech recognition and language generation. Primary focus is on the part of the system that makes decisions, known as the dialogue manager. We find that there is very little research on incremental dialogue management, offer some requirements for practical incremental dialogue management, and the implications of incremental dialogue for embodied, robotic platforms in the age of large language models.

arxiv情報

著者 Casey Kennington,Pierre Lison,David Schlangen
発行日 2025-04-02 14:24:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Prior Lessons of Incremental Dialogue and Robot Action Management for the Age of Language Models はコメントを受け付けていません

Enhancing Interpretability in Generative AI Through Search-Based Data Influence Analysis

要約

生成AIモデルは強力な機能を提供しますが、多くの場合透明性が欠けているため、出力を解釈することが困難になります。
これは、芸術的または著作権で保護されたコンテンツを含む場合に重要です。
この作業では、出力に対するトレーニングデータの影響を分析することにより、これらのモデルの解釈可能性を改善するための検索に触発されたアプローチを紹介します。
私たちの方法は、モデルの内部状態ではなく、モデルの出力に焦点を当てることにより、観察的解釈可能性を提供します。
生成されたコンテンツ内のデータ項目の影響を検索する際に、生データと潜在スペースの埋め込みの両方を検討します。
モデルをローカルで再訓練し、トレーニングデータの影響力のあるサブセットを明らかにする方法の能力を実証することにより、方法を評価します。
この作業は、ドメインの専門家とのユーザーベースの評価を含む、将来の拡張の基礎を築き、観察の解釈性をさらに向上させることが期待されています。

要約(オリジナル)

Generative AI models offer powerful capabilities but often lack transparency, making it difficult to interpret their output. This is critical in cases involving artistic or copyrighted content. This work introduces a search-inspired approach to improve the interpretability of these models by analysing the influence of training data on their outputs. Our method provides observational interpretability by focusing on a model’s output rather than on its internal state. We consider both raw data and latent-space embeddings when searching for the influence of data items in generated content. We evaluate our method by retraining models locally and by demonstrating the method’s ability to uncover influential subsets in the training data. This work lays the groundwork for future extensions, including user-based evaluations with domain experts, which is expected to improve observational interpretability further.

arxiv情報

著者 Theodoros Aivalis,Iraklis A. Klampanos,Antonis Troumpoukis,Joemon M. Jose
発行日 2025-04-02 14:29:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Enhancing Interpretability in Generative AI Through Search-Based Data Influence Analysis はコメントを受け付けていません

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

要約

スプレッドシートは、大規模な言語モデル(LLM)に大きな課題をもたらす、広範な2次元グリッド、柔軟なレイアウト、さまざまなフォーマットオプションによって特徴付けられます。
これに応じて、SpreadSheetllmを紹介し、LLMSの強力な理解と推論能力をスプレッドシートで解き放ち、最適化するように設計された効率的なエンコードメソッドを先駆者にします。
当初、セルアドレス、値、および形式を組み込んだバニラシリアル化アプローチを提案します。
ただし、このアプローチはLLMSのトークンの制約によって制限されており、ほとんどのアプリケーションでは実用的ではありません。
この課題に取り組むために、LLMSのスプレッドシートを効果的に圧縮する革新的なエンコードフレームワークであるSheetCompressorを開発します。
構造アンカーベースの圧縮、逆インデックス翻訳、およびデータ形式を意識した集計の3つのモジュールで構成されています。
スプレッドシートテーブル検出タスクのパフォーマンスが大幅に向上し、GPT4のコンテキスト学習設定でバニラアプローチを25.6%上回ります。
さらに、SheetCompressorを備えた微調整されたLLMの平均圧縮比は25倍で、最先端の78.9%F1スコアを達成し、最高の既存のモデルを12.3%上回ります。
最後に、スプレッドシートの理解の下流タスクのスプレッドシートのチェーンを提案し、新しい要求の厳しいスプレッドシートQAタスクでそれを検証します。
スプレッドシートの固有のレイアウトと構造を系統的に活用し、スプレッドシートルがさまざまなスプレッドシートタスクで非常に効果的であることを示しています。

要約(オリジナル)

Spreadsheets are characterized by their extensive two-dimensional grids, flexible layouts, and varied formatting options, which pose significant challenges for large language models (LLMs). In response, we introduce SpreadsheetLLM, pioneering an efficient encoding method designed to unleash and optimize LLMs’ powerful understanding and reasoning capability on spreadsheets. Initially, we propose a vanilla serialization approach that incorporates cell addresses, values, and formats. However, this approach was limited by LLMs’ token constraints, making it impractical for most applications. To tackle this challenge, we develop SheetCompressor, an innovative encoding framework that compresses spreadsheets effectively for LLMs. It comprises three modules: structural-anchor-based compression, inverse index translation, and data-format-aware aggregation. It significantly improves performance in the spreadsheet table detection task, outperforming the vanilla approach by 25.6% in GPT4’s in-context learning setting. Moreover, fine-tuned LLM with SheetCompressor has an average compression ratio of 25 times, and achieves a state-of-the-art 78.9% F1 score, surpassing the best existing models by 12.3%. Finally, we propose Chain of Spreadsheet for downstream tasks of spreadsheet understanding and validate it in a new and demanding spreadsheet QA task. We methodically leverage the inherent layout and structure of spreadsheets, demonstrating that SpreadsheetLLM is highly effective across a variety of spreadsheet tasks.

arxiv情報

著者 Haoyu Dong,Jianbo Zhao,Yuzhang Tian,Junyu Xiong,Shiyu Xia,Mengyu Zhou,Yun Lin,José Cambronero,Yeye He,Shi Han,Dongmei Zhang
発行日 2025-04-02 14:33:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | SpreadsheetLLM: Encoding Spreadsheets for Large Language Models はコメントを受け付けていません

CLaP — State Detection from Time Series

要約

機械、スマートデバイス、環境からの増え続ける量のセンサーデータは、高解像度の未解決の時系列(TS)の豊富さにつながります。
これらの記録は、潜在状態の認識可能な特性と、抽象的なプロセスとしてモデル化できる物理現象からの移行をコードします。
これらの状態とその遷移の監視されていないローカリゼーションと識別は、時系列状態検出(TSSD)のタスクです。
TSSDの新しい非常に正確で効率的なアルゴリズムであるCLAPを紹介します。
データセグメントが同じ状態から出現するかどうかを検出するために、新しい自己監視手法を適用することにより、監視されていない設定でのTSSDの時系列分類の予測力を活用します。
この目的のために、CLAPはセグメントで標識されたサブシーケンスを備えた分類器を交差検証して、セグメント間の混乱を定量化します。
これが全体的な分類品質の向上につながる場合、同じ潜在状態を表す、混乱の高いセグメントからのラベルをマージします。
4つのベンチマークから391 TSを使用して実験的評価を実施しましたが、5つの最先端の競合他社よりも、CLAPが検出状態で大幅に正確であることがわかりました。
最高の精度を回避するトレードオフを達成し、大規模なTSにとってスケーラブルです。
TS分析ワークフローに展開できるCLAPのPython実装を提供します。

要約(オリジナル)

The ever-growing amount of sensor data from machines, smart devices, and the environment leads to an abundance of high-resolution, unannotated time series (TS). These recordings encode the recognizable properties of latent states and transitions from physical phenomena that can be modelled as abstract processes. The unsupervised localization and identification of these states and their transitions is the task of time series state detection (TSSD). We introduce CLaP, a new, highly accurate and efficient algorithm for TSSD. It leverages the predictive power of time series classification for TSSD in an unsupervised setting by applying novel self-supervision techniques to detect whether data segments emerge from the same state or not. To this end, CLaP cross-validates a classifier with segment-labelled subsequences to quantify confusion between segments. It merges labels from segments with high confusion, representing the same latent state, if this leads to an increase in overall classification quality. We conducted an experimental evaluation using 391 TS from four benchmarks and found CLaP to be significantly more precise in detecting states than five state-of-the-art competitors. It achieves the best accuracy-runtime tradeoff and is scalable to large TS. We provide a Python implementation of CLaP, which can be deployed in TS analysis workflows.

arxiv情報

著者 Arik Ermshaus,Patrick Schäfer,Ulf Leser
発行日 2025-04-02 14:46:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG | CLaP — State Detection from Time Series はコメントを受け付けていません

Rethinking industrial artificial intelligence: a unified foundation framework

要約

工業人工知能(AI)における最近の進歩は、業界を再構築し、よりスマートな製造、予測的メンテナンス、およびインテリジェントな意思決定を推進しています。
ただし、既存のアプローチは、主にアルゴリズムとモデルに焦点を当てていることが多く、ドメインの知識、データ、モデルを体系的に統合して、より包括的かつ効果的なAIソリューションを確保することの重要性を見落としています。
したがって、産業用AIソリューションの効果的な開発と展開には、より包括的で体系的なアプローチが必要です。
このギャップに対処するために、このペーパーでは、以前の研究を要約し、産業用AIの役割を再考し、3つのコアモジュール(知識モジュール、データモジュール、モデルモジュール)で構成される統一された産業AI基礎フレームワークを提示します。
これらのモジュールは、さまざまな産業用アプリケーションをサポートし、産業用AI方法論プラットフォームを拡張および強化するのに役立ちます。
さらに、回転機械診断に関するケーススタディは、フレームワークの有効性を示しており、産業用AI基礎フレームワークの開発のためにいくつかの将来の方向性が強調されています。

要約(オリジナル)

Recent advancement in industrial artificial intelligence (AI) is reshaping the industry, driving smarter manufacturing, predictive maintenance, and intelligent decision-making. However, existing approaches often focus primarily on algorithms and models, overlooking the importance of systematically integrating domain knowledge, data, and models to ensure more comprehensive and effective AI solutions. Therefore, the effective development and deployment of Industrial AI solutions require a more comprehensive and systematic approach. To address this gap, this paper summarizes previous research and rethinks the role of industrial AI and presents a unified industrial AI foundation framework comprising three core modules: knowledge module, data module, and model module. These modules help to extend and enhance the industrial AI methodology platform, supporting various industrial applications. In addition, a case study on rotating machinery diagnosis demonstrates the framework’s effectiveness, and several future directions are highlighted for the development of the industrial AI foundation framework.

arxiv情報

著者 Jay Lee,Hanqi Su
発行日 2025-04-02 15:05:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Rethinking industrial artificial intelligence: a unified foundation framework はコメントを受け付けていません

A Novel Approach To Implementing Knowledge Distillation In Tsetlin Machines

要約

Tsetlinマシン(TM)は、接続詞句を使用してデータからパターンを学習する命題論理ベースのモデルです。
典型的なニューラルネットワークと同様に、Tsetlinマシンのパフォーマンスは、そのパラメーターカウントに大きく依存しており、より多くのパラメーターがより高い精度を生成し、実行が遅くなります。
ニューラルネットワークの知識蒸留は、既に訓練された教師モデルから小規模な学生モデルに情報を転送し、実行時間を増やすことなく生徒の精度を高めます。
生徒に追加のコンテキストを提供するために、教師の各出力サンプルの確率分布を利用することにより、Tsetlinマシンで知識蒸留を実装するための新しいアプローチを提案します。
さらに、教師の各条項の重要性を比較検討し、最も重要なデータのみで生徒を初期化する新しい節転送アルゴリズムを提案します。
私たちのアルゴリズムは、画像認識とテキスト分類のテストされたドメインのレイテンシに悪影響を与えることなく、学生モデルのパフォーマンスを大幅に改善できることがわかります。

要約(オリジナル)

The Tsetlin Machine (TM) is a propositional logic based model that uses conjunctive clauses to learn patterns from data. As with typical neural networks, the performance of a Tsetlin Machine is largely dependent on its parameter count, with a larger number of parameters producing higher accuracy but slower execution. Knowledge distillation in neural networks transfers information from an already-trained teacher model to a smaller student model to increase accuracy in the student without increasing execution time. We propose a novel approach to implementing knowledge distillation in Tsetlin Machines by utilizing the probability distributions of each output sample in the teacher to provide additional context to the student. Additionally, we propose a novel clause-transfer algorithm that weighs the importance of each clause in the teacher and initializes the student with only the most essential data. We find that our algorithm can significantly improve performance in the student model without negatively impacting latency in the tested domains of image recognition and text classification.

arxiv情報

著者 Calvin Kinateder
発行日 2025-04-02 15:06:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.LO | A Novel Approach To Implementing Knowledge Distillation In Tsetlin Machines はコメントを受け付けていません

Can A Society of Generative Agents Simulate Human Behavior and Inform Public Health Policy? A Case Study on Vaccine Hesitancy

要約

人間の行動をモデル化するために生成エージェントを使用してサンドボックス社会をシミュレートし、それによって公共政策を評価するための実際の人間の試験への過度の依存を減らすことができますか?
この作業では、事例研究として、ワクチン接種サービスの入手可能性にもかかわらず、ワクチンの受け入れまたは拒否の遅延または拒否の遅延または拒否として定義された、ワクチンのためらうことを使用して、健康関連の意思決定をシミュレートする可能性を調査します(Macdonald、2015)。
この目的のために、大規模な言語モデル(LLM)を搭載した100の生成エージェントを使用して、VACSIMフレームワークを紹介します。
VACSIMは、次の手順でワクチン政策の結果をシミュレートします。1)国勢調査データに基づく人口統計を持つエージェントの集団を即座に導きます。
2)ソーシャルネットワークを介してエージェントを接続し、ソーシャルダイナミクスと疾患関連情報の関数としてワクチンの態度をモデル化します。
3)ワクチンのためらいを緩和することを目的としたさまざまな公衆衛生の介入を設計および評価する。
実際の結果に合わせて、シミュレーションのウォームアップと態度変調を導入して、エージェントの態度を調整します。
さまざまなLLMシミュレーションの信頼性を評価するための一連の評価を提案します。
実験は、LlamaやQwenなどのモデルが人間の行動の側面をシミュレートできるだけでなく、人口統計プロファイルの一貫性のない応答など、現実世界のアライメントの課題を強調できることを示しています。
LLM駆動型シミュレーションのこの初期の調査は、決定的な政策ガイダンスとして機能することを意図したものではありません。
代わりに、政策開発のためのソーシャルシミュレーションを調べるための行動の呼びかけとして機能します。

要約(オリジナル)

Can we simulate a sandbox society with generative agents to model human behavior, thereby reducing the over-reliance on real human trials for assessing public policies? In this work, we investigate the feasibility of simulating health-related decision-making, using vaccine hesitancy, defined as the delay in acceptance or refusal of vaccines despite the availability of vaccination services (MacDonald, 2015), as a case study. To this end, we introduce the VacSim framework with 100 generative agents powered by Large Language Models (LLMs). VacSim simulates vaccine policy outcomes with the following steps: 1) instantiate a population of agents with demographics based on census data; 2) connect the agents via a social network and model vaccine attitudes as a function of social dynamics and disease-related information; 3) design and evaluate various public health interventions aimed at mitigating vaccine hesitancy. To align with real-world results, we also introduce simulation warmup and attitude modulation to adjust agents’ attitudes. We propose a series of evaluations to assess the reliability of various LLM simulations. Experiments indicate that models like Llama and Qwen can simulate aspects of human behavior but also highlight real-world alignment challenges, such as inconsistent responses with demographic profiles. This early exploration of LLM-driven simulations is not meant to serve as definitive policy guidance; instead, it serves as a call for action to examine social simulation for policy development.

arxiv情報

著者 Abe Bohan Hou,Hongru Du,Yichen Wang,Jingyu Zhang,Zixiao Wang,Paul Pu Liang,Daniel Khashabi,Lauren Gardner,Tianxing He
発行日 2025-04-02 15:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.MA | Can A Society of Generative Agents Simulate Human Behavior and Inform Public Health Policy? A Case Study on Vaccine Hesitancy はコメントを受け付けていません

YourBench: Easy Custom Evaluation Sets for Everyone

要約

従来の静的ベンチマークが飽和と汚染に悩まされている一方で、人間の評価は費用と遅いため、大規模な言語モデル(LLM)を評価することは重要なボトルネックのままです。
これは、現実世界のアプリケーションにとって重要なタイムリーまたはドメイン固有の評価を妨げます。
ユーザーが提供するドキュメントから直接、手動注釈なしで、信頼性の高い最新の、ドメインにテイアルされたベンチマークを安価に安定に可能にすることにより、これらの制限に対処する、これらの制限に対処する斬新なオープンソースフレームワークであるYourBenchを紹介します。
最小限のソーステキストを使用して7つの多様なMMLUサブセットを複製することにより、その有効性を示し、総推論コストで15 USD未満でこれを達成しながら、元のベンチマークで観察された相対モデルのパフォーマンスランキング(スピアマンRHO = 1)を完全に保持します。
モデルの事後パラメトリック知識に依存する代わりに提供された入力に基づいたデータを生成するために、2025年3月以降にのみ公開された7Kを超える多様なドキュメントの新しいデータセットであるThepa-0325も紹介します。
アルゴリズムチェック(例:引用の接地)および人間の評価。
Yourbenchライブラリ、ThePpea-0325データセット、150k+質問回答ペア、およびすべての評価と推論のトレースに基づいて、再現可能な研究を促進し、コミュニティが需要のあるオーダーメイドのベンチマークを生成し、より関連性が高く信頼できるLLM評価を促進できるようにします。

要約(オリジナル)

Evaluating large language models (LLMs) effectively remains a critical bottleneck, as traditional static benchmarks suffer from saturation and contamination, while human evaluations are costly and slow. This hinders timely or domain-specific assessment, crucial for real-world applications. We introduce YourBench, a novel, open-source framework that addresses these limitations by enabling dynamic, automated generation of reliable, up-to-date, and domain-tailored benchmarks cheaply and without manual annotation, directly from user-provided documents. We demonstrate its efficacy by replicating 7 diverse MMLU subsets using minimal source text, achieving this for under 15 USD in total inference costs while perfectly preserving the relative model performance rankings (Spearman Rho = 1) observed on the original benchmark. To ensure that YourBench generates data grounded in provided input instead of relying on posterior parametric knowledge in models, we also introduce Tempora-0325, a novel dataset of over 7K diverse documents, published exclusively after March 2025. Our comprehensive analysis spans 26 SoTA models from 7 major families across varying scales (3-671B parameters) to validate the quality of generated evaluations through rigorous algorithmic checks (e.g., citation grounding) and human assessments. We release the YourBench library, the Tempora-0325 dataset, 150k+ question answer pairs based on Tempora and all evaluation and inference traces to facilitate reproducible research and empower the community to generate bespoke benchmarks on demand, fostering more relevant and trustworthy LLM evaluation.

arxiv情報

著者 Sumuk Shashidhar,Clémentine Fourrier,Alina Lozovskia,Thomas Wolf,Gokhan Tur,Dilek Hakkani-Tür
発行日 2025-04-02 15:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.1 | YourBench: Easy Custom Evaluation Sets for Everyone はコメントを受け付けていません