要約
このチュートリアルでは、テキスト データを保険数理分類および回帰タスクに組み込むワークフローを示します。
主な焦点は、トランスベースのモデルを使用する方法です。
これらの手法を実証するために、英語とドイツ語で利用可能な平均長 400 ワードの自動車事故の説明のデータセットと、短い損害保険請求の説明を含むデータセットが使用されます。
このケーススタディでは、多言語設定と長い入力シーケンスに関連する課題に取り組みます。
また、アプリケーションのドメインまたは特定の予測タスクに合わせてモデルを微調整することによって、モデルの出力を解釈し、モデルのパフォーマンスを評価および改善する方法も示します。
最後に、このチュートリアルでは、ChatGPT を含むがこれに限定されない、ラベル付きデータがまったくない、またはわずかしかない状況で分類タスクを処理するための実践的なアプローチを提供します。
最小限の前処理と微調整のみで、既製の自然言語処理 (NLP) モデルの言語理解スキルを使用して達成された結果は、実用的なアプリケーションにおける転移学習の力を明確に示しています。
要約(オリジナル)
This tutorial demonstrates workflows to incorporate text data into actuarial classification and regression tasks. The main focus is on methods employing transformer-based models. A dataset of car accident descriptions with an average length of 400 words, available in English and German, and a dataset with short property insurance claims descriptions are used to demonstrate these techniques. The case studies tackle challenges related to a multi-lingual setting and long input sequences. They also show ways to interpret model output, to assess and improve model performance, by fine-tuning the models to the domain of application or to a specific prediction task. Finally, the tutorial provides practical approaches to handle classification tasks in situations with no or only few labeled data, including but not limited to ChatGPT. The results achieved by using the language-understanding skills of off-the-shelf natural language processing (NLP) models with only minimal pre-processing and fine-tuning clearly demonstrate the power of transfer learning for practical applications.
arxiv情報
著者 | Andreas Troxler,Jürg Schelldorfer |
発行日 | 2023-09-25 09:17:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google