Towards Enhanced RAC Accessibility: Leveraging Datasets and LLMs

要約

このペーパーでは、コロンビア航空規則 (RAC) をよりアクセスしやすくするための大規模言語モデル (LLM) の可能性を探ります。
RAC の複雑さと広範な専門性を考慮して、この研究では、より広い理解のためにこれらの規制を簡素化する新しいアプローチを紹介します。
この論文では、24,478 の専門的にラベル付けされた質問と回答のペアを含む初の RAC データベースを開発し、RAC アプリケーション専用に微調整する LLM を開発することにより、データセットのアセンブリ、専門家主導のアノテーション、およびモデルのトレーニングの方法論の概要を説明しています。
この研究では、Gemma1.1 2b モデルと、VRAM の効率的な使用とフラッシュ アテンション メカニズムのための Unsloth などの高度な技術を利用して、トレーニング プロセスを迅速化することを目的としています。
この取り組みは、RAC のわかりやすさとアクセシビリティを高める基盤を確立し、初心者に利益をもたらし、航空業界の規制状況を乗り切るための専門家の相談への依存を軽減する可能性があります。
ここでデータセット (https://huggingface.co/somosnlp/gemma-1.1-2b-it_ColombiaRAC_FullyCurated_format_chatML_V1) とモデル (https://huggingface.co/datasets/somosnlp/ColombiaRAC_FullyCurated) にアクセスできます。

要約(オリジナル)

This paper explores the potential of large language models (LLMs) to make the Aeronautical Regulations of Colombia (RAC) more accessible. Given the complexity and extensive technicality of the RAC, this study introduces a novel approach to simplifying these regulations for broader understanding. By developing the first-ever RAC database, which contains 24,478 expertly labeled question-and-answer pairs, and fine-tuning LLMs specifically for RAC applications, the paper outlines the methodology for dataset assembly, expert-led annotation, and model training. Utilizing the Gemma1.1 2b model along with advanced techniques like Unsloth for efficient VRAM usage and flash attention mechanisms, the research aims to expedite training processes. This initiative establishes a foundation to enhance the comprehensibility and accessibility of RAC, potentially benefiting novices and reducing dependence on expert consultations for navigating the aviation industry’s regulatory landscape. You can visit the dataset (https://huggingface.co/somosnlp/gemma-1.1-2b-it_ColombiaRAC_FullyCurated_format_chatML_V1) and the model (https://huggingface.co/datasets/somosnlp/ColombiaRAC_FullyCurated) here.

arxiv情報

著者 Edison Jair Bejarano Sepulveda,Nicolai Potes Hector,Santiago Pineda Montoya,Felipe Ivan Rodriguez,Jaime Enrique Orduy,Alec Rosales Cabezas,Danny Traslaviña Navarrete,Sergio Madrid Farfan
発行日 2024-05-14 17:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク