Libra-Leaderboard: Towards Responsible AI through a Balanced Leaderboard of Safety and Capability

要約

このギャップに対処するために、当社は、パフォーマンスと安全性のバランスのとれた評価を通じてLLMをランク付けするように設計された包括的なフレームワークであるLibra-Leaderboardを導入します。
動的なリーダーボードとインタラクティブな LLM アリーナを組み合わせた Libra-Leaderboard は、機能と安全性の共同最適化を促進します。
パフォーマンスと安全性の指標を平均する従来のアプローチとは異なり、Libra-Leaderboard は最適スコアまでの距離法を使用して全体のランキングを計算します。
このアプローチは、モデルが他のいくつかの側面を犠牲にして 1 つの側面で優れているのではなく、バランスを達成することを奨励します。
最初のリリースでは、Libra-Leaderboard は 14 の主要組織からの 26 の主流 LLM を評価し、最先端のモデルであっても重大な安全性の課題を特定します。

要約(オリジナル)

To address this gap, we introduce Libra-Leaderboard, a comprehensive framework designed to rank LLMs through a balanced evaluation of performance and safety. Combining a dynamic leaderboard with an interactive LLM arena, Libra-Leaderboard encourages the joint optimization of capability and safety. Unlike traditional approaches that average performance and safety metrics, Libra-Leaderboard uses a distance-to-optimal-score method to calculate the overall rankings. This approach incentivizes models to achieve a balance rather than excelling in one dimension at the expense of some other ones. In the first release, Libra-Leaderboard evaluates 26 mainstream LLMs from 14 leading organizations, identifying critical safety challenges even in state-of-the-art models.

arxiv情報

著者 Haonan Li,Xudong Han,Zenan Zhai,Honglin Mu,Hao Wang,Zhenxuan Zhang,Yilin Geng,Shom Lin,Renxi Wang,Artem Shelmanov,Xiangyu Qi,Yuxia Wang,Donghai Hong,Youliang Yuan,Meng Chen,Haoqin Tu,Fajri Koto,Tatsuki Kuribayashi,Cong Zeng,Rishabh Bhardwaj,Bingchen Zhao,Yawen Duan,Yi Liu,Emad A. Alghamdi,Yaodong Yang,Yinpeng Dong,Soujanya Poria,Pengfei Liu,Zhengzhong Liu,Xuguang Ren,Eduard Hovy,Iryna Gurevych,Preslav Nakov,Monojit Choudhury,Timothy Baldwin
発行日 2024-12-24 17:03:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク