On the Temporal Question-Answering Capabilities of Large Language Models Over Anonymized Data

要約

トレーニング中に存在しないデータに対する一時的な推論タスクにおける大規模な言語モデル(LLM)の適用性は、まだ調査されていない分野です。
この論文では、このトピックに取り組み、構造化された半構造化された匿名化されたデータに焦点を当てています。
直接LLMパイプラインを開発するだけでなく、さまざまな方法論を比較し、詳細な分析を実施します。
アルゴリズムコンポーネントに焦点を当てて、自然言語で17の一般的な時間的推論タスクを特定して検討しました。
LLMのパフォーマンスを評価するために、\ textit {推論と回答時間能力}データセット(RATA)を作成しました。
このシナリオ用に特別に調整された、思考のツリー、自己反射、コード実行などのSOTA技術を含むいくつかの方法論を比較しました。
私たちの結果は、スケーラブルで信頼性の高いソリューションを達成するには、単なるスタンドアロンLLM以上のものが必要であり、統合されたアプローチの必要性を強調することを示唆しています。

要約(オリジナル)

The applicability of Large Language Models (LLMs) in temporal reasoning tasks over data that is not present during training is still a field that remains to be explored. In this paper we work on this topic, focusing on structured and semi-structured anonymized data. We not only develop a direct LLM pipeline, but also compare various methodologies and conduct an in-depth analysis. We identified and examined seventeen common temporal reasoning tasks in natural language, focusing on their algorithmic components. To assess LLM performance, we created the \textit{Reasoning and Answering Temporal Ability} dataset (RATA), featuring semi-structured anonymized data to ensure reliance on reasoning rather than on prior knowledge. We compared several methodologies, involving SoTA techniques such as Tree-of-Thought, self-reflexion and code execution, tuned specifically for this scenario. Our results suggest that achieving scalable and reliable solutions requires more than just standalone LLMs, highlighting the need for integrated approaches.

arxiv情報

著者 Alfredo Garrachón Ruiz,Tomás de la Rosa,Daniel Borrajo
発行日 2025-04-10 10:48:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク