TAGIFY: LLM-powered Tagging Interface for Improved Data Findability on OGD portals

要約

オープン ガバメント データ (OGD) の推進に向けた取り組みは、2000 年代半ば以降、さまざまな政府階層にわたって大きな注目を集めてきました。
OGD ポータルで公開されるデータセットが増えるにつれて、特定のデータを見つけることが難しくなり、情報過多につながります。
データセットと適切なタグの関連付けを含む、データセットの完全かつ正確な文書化は、データセットの検索性とアクセシビリティを向上させる鍵となります。
エストニアのオープン データ ポータルで行われた分析では、11% のデータセットにはタグが関連付けられておらず、26% にはタグが 1 つだけ割り当てられていることが明らかになりました。これは、ポータル内でのデータの検索性とアクセス性における課題を浮き彫りにしています。
成熟度レポートはトレンドセッターとみなされます。
この研究の目的は、OGD ポータルでのデータの検索可能性を向上させるために、データセットにタグ付けする自動ソリューションを提案することです。
このペーパーでは、GPT-3.5-turbo や GPT-4 などの大規模言語モデル (LLM) を使用してデータセットのタグ付けを自動化し、英語とエストニア語でデータセットのタグを生成するタグ付けインターフェイスのプロトタイプである Tagify について説明します。これにより、データ発行者によるメタデータの準備が強化されます。
データ ユーザーによる OGD ポータルでのデータの検索可能性の向上。
開発されたソリューションはユーザーによって評価され、将来のプロトタイプの改善の予定を定義するためにフィードバックが収集されました。

要約(オリジナル)

Efforts directed towards promoting Open Government Data (OGD) have gained significant traction across various governmental tiers since the mid-2000s. As more datasets are published on OGD portals, finding specific data becomes harder, leading to information overload. Complete and accurate documentation of datasets, including association of proper tags with datasets is key to improving dataset findability and accessibility. Analysis conducted on the Estonian Open Data Portal, revealed that 11% datasets have no associated tags, while 26% had only one tag assigned to them, which underscores challenges in data findability and accessibility within the portal, which, according to the recent Open Data Maturity Report, is considered trend-setter. The aim of this study is to propose an automated solution to tagging datasets to improve data findability on OGD portals. This paper presents Tagify – a prototype of tagging interface that employs large language models (LLM) such as GPT-3.5-turbo and GPT-4 to automate dataset tagging, generating tags for datasets in English and Estonian, thereby augmenting metadata preparation by data publishers and improving data findability on OGD portals by data users. The developed solution was evaluated by users and their feedback was collected to define an agenda for future prototype improvements.

arxiv情報

著者 Kevin Kliimask,Anastasija Nikiforova
発行日 2024-07-26 14:22:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.ET, cs.HC パーマリンク