要約
イベント間の時間的関係の自動検出は、主に RoBERTa などのエンコーダ専用モデルを使用して研究されてきました。
大規模言語モデル (LLM) は最近、時間的質問応答などの時間的推論タスクにおいて有望なパフォーマンスを示しています。
それにもかかわらず、最近の研究では、クローズドソース モデルのみの時間的関係を検出する LLM のパフォーマンスがテストされており、結果の解釈可能性が制限されています。
この研究では、時間関係分類タスクにおける LLM のパフォーマンスと意思決定プロセスを調査します。
まず、コンテキスト内学習と軽量の微調整アプローチを実験する 7 つのオープンおよびクローズドソースの LLM のパフォーマンスを評価します。
結果は、コンテキスト内学習を行う LLM が、RoBERTa に基づく小規模なエンコーダーのみのモデルよりも大幅にパフォーマンスが低いことを示しています。
次に、説明可能な方法を適用して、このギャップの考えられる理由を掘り下げます。
この結果は、LLM の自己回帰的な性質により、このタスクにおける LLM の限界が示唆され、シーケンスの最後の部分のみに焦点が当てられることになります。
さらに、トレーニング前の違いをよりよく理解するために、これら 2 つのモデルの単語埋め込みを評価します。
コードと微調整されたモデルはそれぞれ GitHub で見つけることができます。
要約(オリジナル)
The automatic detection of temporal relations among events has been mainly investigated with encoder-only models such as RoBERTa. Large Language Models (LLM) have recently shown promising performance in temporal reasoning tasks such as temporal question answering. Nevertheless, recent studies have tested the LLMs’ performance in detecting temporal relations of closed-source models only, limiting the interpretability of those results. In this work, we investigate LLMs’ performance and decision process in the Temporal Relation Classification task. First, we assess the performance of seven open and closed-sourced LLMs experimenting with in-context learning and lightweight fine-tuning approaches. Results show that LLMs with in-context learning significantly underperform smaller encoder-only models based on RoBERTa. Then, we delve into the possible reasons for this gap by applying explainable methods. The outcome suggests a limitation of LLMs in this task due to their autoregressive nature, which causes them to focus only on the last part of the sequence. Additionally, we evaluate the word embeddings of these two models to better understand their pre-training differences. The code and the fine-tuned models can be found respectively on GitHub.
arxiv情報
著者 | Gabriel Roccabruna,Massimo Rizzoli,Giuseppe Riccardi |
発行日 | 2024-10-14 13:10:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google