LAG: LLM agents for Leaderboard Auto Generation on Demanding

要約

このペーパーでは、人工知能(AI)などの急速に進化する分野で、特定の研究トピックに関するリーダーボードの自動生成のための斬新でよく組織化されたフレームワークであるリーダーボードオートジェネレーション(LAG)を紹介します。
毎日更新される多数のAIペーパーに直面して、研究者がすべての論文の提案された方法、実験結果、および設定を追跡し、効率的な自動リーダーボード構造の必要性を促すことが困難になります。
大規模な言語モデル(LLM)は、このプロセスを自動化する上で約束を提供しますが、マルチドキュメントの要約、リーダーボードの生成、実験の公正な比較などの課題はまだ調査中です。
Lagは、紙の収集、実験結果の抽出と統合、リーダーボードの生成、および品質評価を含む体系的なアプローチを通じて、これらの課題を解決します。
私たちの貢献には、リーダーボードの建設問題に対する包括的なソリューション、信頼できる評価方法、および高品質のリーダーボードを示す実験結果が含まれます。

要約(オリジナル)

This paper introduces Leaderboard Auto Generation (LAG), a novel and well-organized framework for automatic generation of leaderboards on a given research topic in rapidly evolving fields like Artificial Intelligence (AI). Faced with a large number of AI papers updated daily, it becomes difficult for researchers to track every paper’s proposed methods, experimental results, and settings, prompting the need for efficient automatic leaderboard construction. While large language models (LLMs) offer promise in automating this process, challenges such as multi-document summarization, leaderboard generation, and experiment fair comparison still remain under exploration. LAG solves these challenges through a systematic approach that involves the paper collection, experiment results extraction and integration, leaderboard generation, and quality evaluation. Our contributions include a comprehensive solution to the leaderboard construction problem, a reliable evaluation method, and experimental results showing the high quality of leaderboards.

arxiv情報

著者 Jian Wu,Jiayu Zhang,Dongyuan Li,Linyi Yang,Aoxiao Zhong,Renhe Jiang,Qingsong Wen,Yue Zhang
発行日 2025-02-25 13:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク