Data Contamination Report from the 2024 CONDA Shared Task

要約

データコンタミネーションに関する第 1 回ワークショップ (CONDA 2024) は、自然言語処理におけるデータコンタミネーションのすべての関連側面に焦点を当てています。データコンタミネーションは、大規模モデルのトレーニングに使用される事前トレーニング コーパスに評価データが含まれ、評価結果が損なわれる状況として理解されます。

このワークショップでは、現在利用可能なデータセットとモデルにおけるデータ汚染に関する証拠を収集するための共有タスクが促進されました。
共有タスクと関連データベースの目的は、コミュニティが問題の範囲を理解するのを支援し、研究者が既知の汚染資源に関する評価結果の報告を避けるのを支援することです。
共有タスクは、汚染証拠を収集するための構造化された一元化された公開データベースを提供し、GitHub プール リクエストを介してコミュニティからの貢献を受け付けます。
この最初の編集論文は、合計 23 人の寄稿者からの 91 の汚染源に関する 566 件の報告されたエントリに基づいています。
個々の汚染イベントの詳細はプラットフォームで入手できます。
このプラットフォームは引き続きオンラインであり、コミュニティからの貢献を受け入れます。

要約(オリジナル)

The 1st Workshop on Data Contamination (CONDA 2024) focuses on all relevant aspects of data contamination in natural language processing, where data contamination is understood as situations where evaluation data is included in pre-training corpora used to train large scale models, compromising evaluation results. The workshop fostered a shared task to collect evidence on data contamination in current available datasets and models. The goal of the shared task and associated database is to assist the community in understanding the extent of the problem and to assist researchers in avoiding reporting evaluation results on known contaminated resources. The shared task provides a structured, centralized public database for the collection of contamination evidence, open to contributions from the community via GitHub pool requests. This first compilation paper is based on 566 reported entries over 91 contaminated sources from a total of 23 contributors. The details of the individual contamination events are available in the platform. The platform continues to be online, open to contributions from the community.

arxiv情報

著者 Oscar Sainz,Iker García-Ferrero,Alon Jacovi,Jon Ander Campos,Yanai Elazar,Eneko Agirre,Yoav Goldberg,Wei-Lin Chen,Jenny Chim,Leshem Choshen,Luca D’Amico-Wong,Melissa Dell,Run-Ze Fan,Shahriar Golchin,Yucheng Li,Pengfei Liu,Bhavish Pahwa,Ameya Prabhu,Suryansh Sharma,Emily Silcock,Kateryna Solonko,David Stap,Mihai Surdeanu,Yu-Min Tseng,Vishaal Udandarao,Zengzhi Wang,Ruijie Xu,Jinglin Yang
発行日 2024-07-31 11:26:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク