Data-Centric AI in the Age of Large Language Models

要約

このポジションペーパーでは、大規模言語モデル (LLM) に焦点を当てた、AI 研究のデータ中心の視点を提案します。
私たちは、データが LLM の開発段階 (例: 事前トレーニングや微調整) と推論段階 (例: コンテキスト内学習) に役立つにもかかわらず、研究コミュニティからの不釣り合いに低い注目を受けているという重要な観察から始めます。
データを中心とした 4 つの具体的なシナリオを特定し、データ中心のベンチマークとデータのキュレーション、データの帰属、知識の伝達、推論のコンテキスト化をカバーします。
各シナリオでは、データの重要性を強調し、有望な研究の方向性を強調し、研究コミュニティ、および該当する場合は社会全体に対する潜在的な影響を明確に示します。
たとえば、LLM のデータの規模と複雑さに合わせて調整された一連のデータ中心のベンチマークを推奨します。
これらのベンチマークは、新しいデータ キュレーション手法を開発し、研究の取り組みと結果を文書化するために使用でき、AI および LLM 研究におけるオープン性と透明性の促進に役立ちます。

要約(オリジナル)

This position paper proposes a data-centric viewpoint of AI research, focusing on large language models (LLMs). We start by making the key observation that data is instrumental in the developmental (e.g., pretraining and fine-tuning) and inferential stages (e.g., in-context learning) of LLMs, and yet it receives disproportionally low attention from the research community. We identify four specific scenarios centered around data, covering data-centric benchmarks and data curation, data attribution, knowledge transfer, and inference contextualization. In each scenario, we underscore the importance of data, highlight promising research directions, and articulate the potential impacts on the research community and, where applicable, the society as a whole. For instance, we advocate for a suite of data-centric benchmarks tailored to the scale and complexity of data for LLMs. These benchmarks can be used to develop new data curation methods and document research efforts and results, which can help promote openness and transparency in AI and LLM research.

arxiv情報

著者 Xinyi Xu,Zhaoxuan Wu,Rui Qiao,Arun Verma,Yao Shu,Jingtan Wang,Xinyuan Niu,Zhenfeng He,Jiangwei Chen,Zijian Zhou,Gregory Kang Ruey Lau,Hieu Dao,Lucas Agussurja,Rachael Hwee Ling Sim,Xiaoqiang Lin,Wenyang Hu,Zhongxiang Dai,Pang Wei Koh,Bryan Kian Hsiang Low
発行日 2024-06-20 16:34:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク