要約
人工知能の時代では、データ モダリティと注釈形式の多様性により、データが直接使用できなくなることが多く、さまざまなニーズを持つ研究者や開発者がデータを使用するには、事前に理解して形式を変換する必要があります。
この問題に取り組むために、この記事では、AI データセットの統一標準を提供することでデータセット処理を簡素化することを目的とした、データセット記述言語 (DSDL) と呼ばれるフレームワークを紹介します。
DSDL は、ジェネリック、ポータブル、拡張可能という 3 つの基本的な実践原則を遵守し、統一された標準を使用してさまざまなモダリティや構造のデータを表現し、AI データの普及を促進し、新しいモダリティやタスクに簡単に拡張できます。
DSDL の標準化された仕様により、データの配布、処理、使用におけるユーザーの作業負荷が軽減されます。
ユーザーの利便性をさらに向上させるために、さまざまなタスク用に事前定義された DSDL テンプレートを提供し、DSDL 仕様に準拠するように主流のデータセットを変換し、包括的なドキュメントと DSDL ツールを提供します。
これらの取り組みは、AI データの利用を簡素化し、AI 開発の効率を向上させることを目的としています。
要約(オリジナル)
In the era of artificial intelligence, the diversity of data modalities and annotation formats often renders data unusable directly, requiring understanding and format conversion before it can be used by researchers or developers with different needs. To tackle this problem, this article introduces a framework called Dataset Description Language (DSDL) that aims to simplify dataset processing by providing a unified standard for AI datasets. DSDL adheres to the three basic practical principles of generic, portable, and extensible, using a unified standard to express data of different modalities and structures, facilitating the dissemination of AI data, and easily extending to new modalities and tasks. The standardized specifications of DSDL reduce the workload for users in data dissemination, processing, and usage. To further improve user convenience, we provide predefined DSDL templates for various tasks, convert mainstream datasets to comply with DSDL specifications, and provide comprehensive documentation and DSDL tools. These efforts aim to simplify the use of AI data, thereby improving the efficiency of AI development.
arxiv情報
著者 | Bin Wang,Linke Ouyang,Fan Wu,Wenchang Ning,Xiao Han,Zhiyuan Zhao,Jiahui Peng,Yiying Jiang,Dahua Lin,Conghui He |
発行日 | 2024-05-28 16:07:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google