SemEval-2025 Task 9: The Food Hazard Detection Challenge

要約

この課題では、長い尾分散クラスを使用したテキストベースの食品ハザード予測を調査しました。
タスクは2つのサブタスクに分けられました。(1)Webテキストが10個のフードハザードカテゴリのいずれかを暗示し、関連する食品カテゴリを識別するかどうかを予測し、(2)ハザードと製品の両方に特定のラベルを割り当てることにより、より微調整された分類を提供します。
私たちの調査結果は、言語モデルで生成された大規模な合成データが、長期の分布をオーバーサンプリングするのに非常に効果的であることを強調しています。
さらに、微調整されたエンコーダーのみ、エンコーダデコーダー、デコーダーのみのシステムが、両方のサブタスクで同等の最大パフォーマンスを実現することがわかります。
この課題の間、私たちは徐々に(CC BY-NC-SA 4.0の下で)6,644の手動でラベル付けされた食品インシデントレポートの新しいセットをリリースしました。

要約(オリジナル)

In this challenge, we explored text-based food hazard prediction with long tail distributed classes. The task was divided into two subtasks: (1) predicting whether a web text implies one of ten food-hazard categories and identifying the associated food category, and (2) providing a more fine-grained classification by assigning a specific label to both the hazard and the product. Our findings highlight that large language model-generated synthetic data can be highly effective for oversampling long-tail distributions. Furthermore, we find that fine-tuned encoder-only, encoder-decoder, and decoder-only systems achieve comparable maximum performance across both subtasks. During this challenge, we gradually released (under CC BY-NC-SA 4.0) a novel set of 6,644 manually labeled food-incident reports.

arxiv情報

著者 Korbinian Randl,John Pavlopoulos,Aron Henriksson,Tony Lindgren,Juli Bakagianni
発行日 2025-03-25 16:09:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク