Shield Synthesis for LTL Modulo Theories

要約

近年、機械学習(ML)モデルは、さまざまなドメインで顕著な成功を収めています。
ただし、これらのモデルは、安全性が批判的なシステムでの展開を妨げる危険な動作を実証する傾向もあります。
この問題に対処するために、十分な研究では、特定のMLモデルの安全な動作を保証する方法の開発に焦点を当てています。
顕著な例は、不要な動作をブロックする外部コンポーネント(「シールド」)を組み込んだシールドです。
大きな進歩にもかかわらず、シールドは主なset折に苦しんでいます。現在、命題ロジック(LTLなど)のみでエンコードされたプロパティに向けられており、より豊富なロジックには適していません。
これにより、多くの実際のシステムでのシールドの広範な適用性が制限されます。
この作業では、このギャップに対処し、リアクティブ合成モジュロ理論の最近の進歩に基づいて、LTLモジュロ理論にシールドを拡張します。
これにより、これらのより表現力豊かなロジックにおける複雑な安全仕様に準拠するシールドを生成するための新しいアプローチを開発することができました。
シールドを評価し、時間的ダイナミクスで豊富なデータを処理する能力を実証しました。
私たちの知る限り、これはそのような表現力のためにシールドを統合するための最初のアプローチです。

要約(オリジナル)

In recent years, Machine Learning (ML) models have achieved remarkable success in various domains. However, these models also tend to demonstrate unsafe behaviors, precluding their deployment in safety-critical systems. To cope with this issue, ample research focuses on developing methods that guarantee the safe behaviour of a given ML model. A prominent example is shielding which incorporates an external component (a “shield”) that blocks unwanted behavior. Despite significant progress, shielding suffers from a main setback: it is currently geared towards properties encoded solely in propositional logics (e.g., LTL) and is unsuitable for richer logics. This, in turn, limits the widespread applicability of shielding in many real-world systems. In this work, we address this gap, and extend shielding to LTL modulo theories, by building upon recent advances in reactive synthesis modulo theories. This allowed us to develop a novel approach for generating shields conforming to complex safety specifications in these more expressive, logics. We evaluated our shields and demonstrate their ability to handle rich data with temporal dynamics. To the best of our knowledge, this is the first approach for synthesizing shields for such expressivity.

arxiv情報

著者 Andoni Rodriguez,Guy Amir,Davide Corsi,Cesar Sanchez,Guy Katz
発行日 2025-02-14 15:19:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.LO, cs.RO | Shield Synthesis for LTL Modulo Theories はコメントを受け付けていません

AirRAG: Activating Intrinsic Reasoning for Retrieval Augmented Generation using Tree-based Search

要約

大規模な言語モデル(LLMS)の自律的な意思決定能力を活用することで、推論タスクで優れたパフォーマンスが実証されています。
ただし、反復的または再帰的検索充電(RAG)技術の成功にもかかわらず、これらの方法は、複雑な問題に直面したときに単一のソリューション空間に制約されることがよくあります。
この論文では、システム分析を効率的な推論アクションと統合し、内因性推論機能を大幅に活性化し、AirRagと呼ばれるモンテカルロツリー検索(MCTS)を介して特定のタスクのソリューション空間を拡大するRAGの新しい思考パターンを提案します。
具体的には、私たちのアプローチは、MCTを使用して広い樹木ベースの推論空間に拡張される5つの基本的な推論アクションを設計しています。
このアプローチには、潜在的な推論パスと推論スケーリング法を調査するための自己整合性の検証も組み込まれています。
さらに、重要なアクションにより多くの推論リソースを割り当てるために、計算的に最適な戦略が採用され、それにより全体的なパフォーマンスが向上します。
実験結果は、AirRagの有効性を示しており、複雑な質問データセットで大きなパフォーマンスの向上を示しています。
さらに、AirRagは柔軟で軽量であるため、他の高度な技術と簡単に統合できます。

要約(オリジナル)

Leveraging the autonomous decision-making capabilities of large language models (LLMs) has demonstrated superior performance in reasoning tasks. However, despite the success of iterative or recursive retrieval-augmented generation (RAG) techniques, these methods are often constrained to a single solution space when confronted with complex problems. In this paper, we propose a novel thinking pattern in RAG that integrates system analysis with efficient reasoning actions, significantly activating intrinsic reasoning capabilities and expanding the solution space of specific tasks via Monte Carlo Tree Search (MCTS), which we refer to as AirRAG. Specifically, our approach designs five fundamental reasoning actions, which are expanded to a broad tree-based reasoning space using MCTS. The approach also incorporates self-consistency verification to explore potential reasoning paths and inference scaling law. Additionally, computationally optimal strategies are employed to allocate more inference resources to key actions, thereby enhancing overall performance. Experimental results demonstrate the effectiveness of AirRAG, showing significant performance gains on complex question-answering datasets. Furthermore, AirRAG is flexible and lightweight, making it easy to integrate with other advanced technologies.

arxiv情報

著者 Wenfeng Feng,Chuzhan Hao,Yuewei Zhang,Jingyi Song,Hao Wang
発行日 2025-02-14 15:20:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | AirRAG: Activating Intrinsic Reasoning for Retrieval Augmented Generation using Tree-based Search はコメントを受け付けていません

A Multiagent Path Search Algorithm for Large-Scale Coalition Structure Generation

要約

連合構造生成(CSG)、つまり、エージェントのセットを連合に最適に分割して社会福祉を最大化する問題は、マルチエージェントシステムの基本的な計算上の問題です。
この問題は、輸送や災害対応など、小さな実行時間が必要な多くのアプリケーションにとって重要です。
この論文では、連合構造のグラフで動作するCSGのアルゴリズムを検索するマルチエージェントパス検索アルゴリズムであるSaldaeを開発します。
私たちのアルゴリズムは、さまざまなヒューリスティックと戦略を利用して、検索を実行し、ガイドします。
これは、数百と数千のエージェントで大きな問題を処理できる時点のアルゴリズムです。
災害対応や電気自動車配分ベンチマークを含む9つの標準価値分布について経験的に、アルゴリズムが高品質のソリューションの迅速な発見を可能にし、他の最先端の方法と好意的に比較することを示しています。

要約(オリジナル)

Coalition structure generation (CSG), i.e. the problem of optimally partitioning a set of agents into coalitions to maximize social welfare, is a fundamental computational problem in multiagent systems. This problem is important for many applications where small run times are necessary, including transportation and disaster response. In this paper, we develop SALDAE, a multiagent path finding algorithm for CSG that operates on a graph of coalition structures. Our algorithm utilizes a variety of heuristics and strategies to perform the search and guide it. It is an anytime algorithm that can handle large problems with hundreds and thousands of agents. We show empirically on nine standard value distributions, including disaster response and electric vehicle allocation benchmarks, that our algorithm enables a rapid finding of high-quality solutions and compares favorably with other state-of-the-art methods.

arxiv情報

著者 Redha Taguelmimt,Samir Aknine,Djamila Boukredera,Narayan Changder,Tuomas Sandholm
発行日 2025-02-14 15:21:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, 93A16, cs.AI, cs.GT, cs.MA, F.2 | A Multiagent Path Search Algorithm for Large-Scale Coalition Structure Generation はコメントを受け付けていません

Graph Foundation Models for Recommendation: A Comprehensive Survey

要約

推奨システム(RS)は、オンライン情報の広大な広がりをナビゲートするための基本的なツールとして機能し、ランキングの精度を向上させる上でますます重要な役割を果たしている深い学習の進歩を果たします。
これらの中で、グラフニューラルネットワーク(GNN)は高次の構造情報の抽出に優れていますが、大規模な言語モデル(LLM)は自然言語を処理して理解するように設計されており、両方のアプローチが非常に効果的で広く採用されています。
最近の研究では、GNNとLLMの強度を統合して、テキストの理解とともにユーザーとアイテムの関係のグラフベースの構造を活用することにより、複雑なRSの問題をより効率的にモデル化するグラフ基礎モデル(GFM)に焦点を当てています。
この調査では、現在のアプローチの明確な分類法を導入し、方法論の詳細に飛び込み、重要な課題と将来の方向性を強調することにより、GFMベースのRSテクノロジーの包括的な概要を提供します。
最近の進歩を統合することにより、GFMベースの推奨システムの進化する景観に関する貴重な洞察を提供することを目指しています。

要約(オリジナル)

Recommender systems (RS) serve as a fundamental tool for navigating the vast expanse of online information, with deep learning advancements playing an increasingly important role in improving ranking accuracy. Among these, graph neural networks (GNNs) excel at extracting higher-order structural information, while large language models (LLMs) are designed to process and comprehend natural language, making both approaches highly effective and widely adopted. Recent research has focused on graph foundation models (GFMs), which integrate the strengths of GNNs and LLMs to model complex RS problems more efficiently by leveraging the graph-based structure of user-item relationships alongside textual understanding. In this survey, we provide a comprehensive overview of GFM-based RS technologies by introducing a clear taxonomy of current approaches, diving into methodological details, and highlighting key challenges and future directions. By synthesizing recent advancements, we aim to offer valuable insights into the evolving landscape of GFM-based recommender systems.

arxiv情報

著者 Bin Wu,Yihang Wang,Yuanhao Zeng,Jiawei Liu,Jiashu Zhao,Cheng Yang,Yawen Li,Long Xia,Dawei Yin,Chuan Shi
発行日 2025-02-14 15:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG | Graph Foundation Models for Recommendation: A Comprehensive Survey はコメントを受け付けていません

SDC-HSDD-NDSA: Structure Detecting Cluster by Hierarchical Secondary Directed Differential with Normalized Density and Self-Adaption

要約

密度ベースのクラスタリングは、低密度領域によって分離されている限り、任意の形状のクラスターを識別できるため、最も人気のあるクラスタリングアルゴリズムです。
ただし、低密度の領域では分離されていない高密度領域は、複数のクラスターに属する異なる構造を持つ場合があります。
私たちが知る限り、以前の密度ベースのクラスタリングアルゴリズムはすべて、そのような構造を検出できません。
この論文では、この問題に対処するための新しい密度ベースのクラスタリングスキームを提供します。
これは、低密度領域で分離されていない高密度領域の綿密な構造を検出できるため、クラスタリングのアプリケーションの範囲を拡張できるのは、最初のクラスタリングアルゴリズムです。
アルゴリズムは、SDC-HSDD-NDSAと呼ばれる正規化された密度と自己適応による階層二次指向の微分により、二次指向の微分、階層、正規化密度、および自己適応係数を採用しています。
合成および実際のデータセットでの実験は、アルゴリズムの有効性、堅牢性、および粒度の独立性を検証するために実装されており、スキームはPythonパッケージSCIKIT-LEARNの監視されていないスキームと比較されます。
結果は、私たちのアルゴリズムが多くの状況で以前のアルゴリズムを上回ること、特にクラスターが通常の内部構造を持っている場合に大幅に優れていることを示しています。
たとえば、ARIおよびNMI基準を使用した構造を持つ8つのノイズレス合成データセットを平均して、以前のアルゴリズムは0.6および0.7未満のスコアを取得しますが、提示されたアルゴリズムはそれぞれ0.9と0.95を超えるスコアを取得します。

要約(オリジナル)

Density-based clustering is the most popular clustering algorithm since it can identify clusters of arbitrary shape as long as they are separated by low-density regions. However, a high-density region that is not separated by low-density ones might also have different structures belonging to multiple clusters. As far as we know, all previous density-based clustering algorithms fail to detect such structures. In this paper, we provide a novel density-based clustering scheme to address this problem. It is the rst clustering algorithm that can detect meticulous structures in a high-density region that is not separated by low-density ones and thus extends the range of applications of clustering. The algorithm employs secondary directed differential, hierarchy, normalized density, as well as the self-adaption coefficient, called Structure Detecting Cluster by Hierarchical Secondary Directed Differential with Normalized Density and Self-Adaption, dubbed SDC-HSDD-NDSA. Experiments on synthetic and real datasets are implemented to verify the effectiveness, robustness, and granularity independence of the algorithm, and the scheme is compared to unsupervised schemes in the Python package Scikit-learn. Results demonstrate that our algorithm outperforms previous ones in many situations, especially significantly when clusters have regular internal structures. For example, averaging over the eight noiseless synthetic datasets with structures employing ARI and NMI criteria, previous algorithms obtain scores below 0.6 and 0.7, while the presented algorithm obtains scores higher than 0.9 and 0.95, respectively.

arxiv情報

著者 Hao Shu
発行日 2025-02-14 15:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SDC-HSDD-NDSA: Structure Detecting Cluster by Hierarchical Secondary Directed Differential with Normalized Density and Self-Adaption はコメントを受け付けていません

Shaping Inductive Bias in Diffusion Models through Frequency-Based Noise Control

要約

拡散確率モデル(DPMS)は、多くの生成タスクで比類のない成功を達成した強力な生成モデルです。
この作業では、モデルへのデータのターゲット分布に適した拡散モデルのトレーニングとサンプリングに帰納的バイアスを構築することを目指しています。
トポロジカル構造のデータについては、これらの誘導バイアスを意図的に操作し、設定するために、周波数ベースのノーシングオペレーターを考案します。
最初に、ノーシングフォワードプロセスの適切な操作がDPMSを導き、学習する分布の特定の側面に焦点を合わせることができることを示します。
さまざまなデータセットが異なる帰納的バイアスを必要とし、適切な周波数ベースのノイズ制御が標準拡散と比較して生成パフォーマンスの増加を誘発することを示します。
最後に、学習中に特定の周波数で情報を無視する可能性を示します。
これを画像の腐敗と回復タスクに示します。このタスクでは、深刻な騒音腐敗後に元のターゲット分布を回復するためにDPMをトレーニングします。

要約(オリジナル)

Diffusion Probabilistic Models (DPMs) are powerful generative models that have achieved unparalleled success in a number of generative tasks. In this work, we aim to build inductive biases into the training and sampling of diffusion models to better accommodate the target distribution of the data to model. For topologically structured data, we devise a frequency-based noising operator to purposefully manipulate, and set, these inductive biases. We first show that appropriate manipulations of the noising forward process can lead DPMs to focus on particular aspects of the distribution to learn. We show that different datasets necessitate different inductive biases, and that appropriate frequency-based noise control induces increased generative performance compared to standard diffusion. Finally, we demonstrate the possibility of ignoring information at particular frequencies while learning. We show this in an image corruption and recovery task, where we train a DPM to recover the original target distribution after severe noise corruption.

arxiv情報

著者 Thomas Jiralerspong,Berton Earnshaw,Jason Hartford,Yoshua Bengio,Luca Scimeca
発行日 2025-02-14 15:46:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Shaping Inductive Bias in Diffusion Models through Frequency-Based Noise Control はコメントを受け付けていません

Efficient Zero-Order Federated Finetuning of Language Models for Resource-Constrained Devices

要約

Federated Fine-Tuningは、データプライバシーを維持しながら、エッジデバイスで大規模な言語モデル(LLM)を調整するための有望なアプローチを提供します。
ただし、これらのモデルをエッジデバイスで微調整すると、メモリ、通信、計算の需要が高いため、依然として困難なままです。
タスクアライメントを使用したゼロオーダー最適化は、潜在的なソリューションを提供し、推論レベルのメモリ要件で微調整を可能にしますが、より長い収束時間が必要です。
このホワイトペーパーでは、ネットワークを2つのブロックに分割するフェデレートスプリット摂動ゼロオーダー最適化(FEDSPZO)を提案し、ブロックごとに異なる数の摂動を計算上効果的な方法で適用し、より速い収束を達成します。
私たちの評価は、連邦学習におけるゼロオーダー最先端のテクニックと比較して、2.5〜7回の計算オーバーヘッドの$削減を示しています。

要約(オリジナル)

Federated fine-tuning offers a promising approach for tuning Large Language Models (LLMs) on edge devices while preserving data privacy. However, fine-tuning these models on edge devices remains challenging due to high memory, communication, and computational demands. Zero-order optimization with task alignment provides a potential solution, enabling fine-tuning with inference-level memory requirements but requires a longer convergence time. In this paper, we propose Federated Split-Perturbation Zero-order Optimization (FedSPZO) that divides the network into two blocks, applying a different number of perturbations per block in a computationally effective way, achieving faster convergence. Our evaluation shows a $2.5 – 7\times $ reduction in computation overhead compared to zero-order state of the art techniques in federated learning.

arxiv情報

著者 Mohamed Aboelenien Ahmed,Kilian Pfeiffer,Ramin Khalili,Heba Khdr,Jörg Henkel
発行日 2025-02-14 15:49:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Efficient Zero-Order Federated Finetuning of Language Models for Resource-Constrained Devices はコメントを受け付けていません

Strada-LLM: Graph LLM for traffic prediction

要約

トラフィック予測は、インテリジェント輸送システムの重要なコンポーネントです。
空間的および時間的次元の両方のトラフィックパターンについて推論することにより、正確で解釈可能な予測を提供できます。
交通予測のかなりの課題は、異なる場所で発生する大幅に異なる交通条件によって引き起こされる多様なデータ分布を処理することにあります。
LLMは、ラベル付けされたデータサンプル、つまり少ないショットの適応性を持つ新しいデータセットに適応する顕著な能力により、支配的なソリューションでした。
ただし、既存の予測手法は、主にローカルグラフ情報の抽出とテキストのようなプロンプトの形成に焦点を当てており、LLMベースのトラフィック予測をオープンな問題にしています。
この作業は、3つのハイライトを備えたトラフィック予測の確率的LLMを提示します。
近位の交通情報を考慮するトラフィック予測のために、グラフ認識LLMを提案します。
具体的には、隣接するノードのトラフィックを共変量と見なすことにより、モデルは対応する時系列LLMよりも優れています。
さらに、新しいデータ分布が少ない方法で直面している場合、効率的なドメイン適応のために軽量アプローチを採用しています。
比較実験は、提案された方法が最先端のLLMベースの方法と従来のGNNベースの監視されたアプローチを上回ることを示しています。
さらに、Strada-llmは、顕著なパフォーマンス低下なしに、異なるLLMバックボーンに簡単に適合できます。

要約(オリジナル)

Traffic prediction is a vital component of intelligent transportation systems. By reasoning about traffic patterns in both the spatial and temporal dimensions, accurate and interpretable predictions can be provided. A considerable challenge in traffic prediction lies in handling the diverse data distributions caused by vastly different traffic conditions occurring at different locations. LLMs have been a dominant solution due to their remarkable capacity to adapt to new datasets with very few labeled data samples, i.e., few-shot adaptability. However, existing forecasting techniques mainly focus on extracting local graph information and forming a text-like prompt, leaving LLM- based traffic prediction an open problem. This work presents a probabilistic LLM for traffic forecasting with three highlights. We propose a graph-aware LLM for traffic prediction that considers proximal traffic information. Specifically, by considering the traffic of neighboring nodes as covariates, our model outperforms the corresponding time-series LLM. Furthermore, we adopt a lightweight approach for efficient domain adaptation when facing new data distributions in few-shot fashion. The comparative experiment demonstrates the proposed method outperforms the state-of-the-art LLM-based methods and the traditional GNN- based supervised approaches. Furthermore, Strada-LLM can be easily adapted to different LLM backbones without a noticeable performance drop.

arxiv情報

著者 Seyed Mohamad Moghadas,Yangxintong Lyu,Bruno Cornelis,Alexandre Alahi,Adrian Munteanu
発行日 2025-02-14 16:09:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Strada-LLM: Graph LLM for traffic prediction はコメントを受け付けていません

Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers

要約

研究論文でデータがどのように言及され、使用されるかを追跡することで、データの発見可能性、品質、および生産を改善するための重要な洞察が得られます。
ただし、データセットの言及を手動で識別して分類することは、膨大な学術文献全体でリソース集中的であり、スケーラブルではありません。
このペーパーでは、大規模な言語モデル(LLM)、合成データ、および2段階の微調整プロセスを活用することにより、研究ドメイン全体でデータセットに言及する検出を自動化する機械学習フレームワークを紹介します。
私たちは、研究論文からのゼロショット抽出、質の高い評価のためにLLMとしてのJudge、および洗練された監視の合成データセットを生成するための推論エージェントを採用しています。
Phi-3.5-mini instruceモデルは、このデータセットで事前に調整されており、その後、手動で注釈付きのサブセットで微調整されます。
推論では、Modernbertベースの分類器がデータセットの言及を効率的にフィルターし、高いリコールを維持しながら計算オーバーヘッドを削減します。
保有された手動で注釈付きのサンプルで評価された微調整モデルは、データセット抽出精度でnuextract-v1.5とグリーナーラージ-v2.1を上回ります。
私たちの結果は、LLM生成された合成データがトレーニングデータの不足を効果的に対処し、低リソースの設定で一般化を改善する方法を強調しています。
このフレームワークは、データギャップを特定し、情報に基づいた意思決定のためのデータアクセシビリティを強化する際に、データセットの使用、透明性の向上、サポート研究者、資金提供者、および政策立案者のスケーラブルな監視に向けた経路を提供します。

要約(オリジナル)

Tracking how data is mentioned and used in research papers provides critical insights for improving data discoverability, quality, and production. However, manually identifying and classifying dataset mentions across vast academic literature is resource-intensive and not scalable. This paper presents a machine learning framework that automates dataset mention detection across research domains by leveraging large language models (LLMs), synthetic data, and a two-stage fine-tuning process. We employ zero-shot extraction from research papers, an LLM-as-a-Judge for quality assessment, and a reasoning agent for refinement to generate a weakly supervised synthetic dataset. The Phi-3.5-mini instruct model is pre-fine-tuned on this dataset, followed by fine-tuning on a manually annotated subset. At inference, a ModernBERT-based classifier efficiently filters dataset mentions, reducing computational overhead while maintaining high recall. Evaluated on a held-out manually annotated sample, our fine-tuned model outperforms NuExtract-v1.5 and GLiNER-large-v2.1 in dataset extraction accuracy. Our results highlight how LLM-generated synthetic data can effectively address training data scarcity, improving generalization in low-resource settings. This framework offers a pathway toward scalable monitoring of dataset usage, enhancing transparency, and supporting researchers, funders, and policymakers in identifying data gaps and strengthening data accessibility for informed decision-making.

arxiv情報

著者 Aivin V. Solatorio,Rafael Macalaba,James Liounis
発行日 2025-02-14 16:16:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.DB, cs.LG | Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers はコメントを受け付けていません

Are Large Language Models the future crowd workers of Linguistics?

要約

人間の参加者からのデータの引き出しは、経験的言語研究で使用されるコアデータ収集戦略の1つです。
このような研究の参加者の量は、ほんの一握りからクラウドソーシングの次元までの範囲で異なる場合があります。
彼らが機知に富んだ広範なデータを提供したとしても、これらの設定は両方とも、タスクの完了時の参加者の注意の低い制御、クラウドソーシング環境での不安定な労働条件、時間のかかる実験設計など、多くの欠点と並行しています。
これらの理由により、この研究は、経験的な言語パイプラインに含まれる場合、大規模な言語モデル(LLM)がそれらの障害を克服できるかどうかの問題に答えることを目的としています。
この問題を明確にするために、2つの繁殖ケーススタディが実施されています。Cruz(2023)とLombard et al。
(2021)。
もともと人間の参加者向けに設計された2つの強制誘発タスクは、OpenAIのGPT-4O-MINIモデルの助けを借りて提案されたフレームワークで再現されています。
ゼロショットプロンプトのベースラインでのパフォーマンスは、LLMSの有効性と高い汎用性を示しています。これは、言語タスクで人間の情報提供者よりも優れている傾向があります。
2番目の複製の結果は、2回目のフォローアップ実験では、クリティカルアイテムとフィラーアイテムの両方の人間のパフォーマンスに対するより高い整合性を示している、チェーンオブ思考(COT)プロンプトなど、追加のプロンプト技術を探索する必要性をさらに強調しています。

この研究の規模が限られていることを考えると、経験的言語学および人文科学の他の将来のアプリケーションでのLLMのパフォーマンスをさらに調査する価値があります。

要約(オリジナル)

Data elicitation from human participants is one of the core data collection strategies used in empirical linguistic research. The amount of participants in such studies may vary considerably, ranging from a handful to crowdsourcing dimensions. Even if they provide resourceful extensive data, both of these settings come alongside many disadvantages, such as low control of participants’ attention during task completion, precarious working conditions in crowdsourcing environments, and time-consuming experimental designs. For these reasons, this research aims to answer the question of whether Large Language Models (LLMs) may overcome those obstacles if included in empirical linguistic pipelines. Two reproduction case studies are conducted to gain clarity into this matter: Cruz (2023) and Lombard et al. (2021). The two forced elicitation tasks, originally designed for human participants, are reproduced in the proposed framework with the help of OpenAI’s GPT-4o-mini model. Its performance with our zero-shot prompting baseline shows the effectiveness and high versatility of LLMs, that tend to outperform human informants in linguistic tasks. The findings of the second replication further highlight the need to explore additional prompting techniques, such as Chain-of-Thought (CoT) prompting, which, in a second follow-up experiment, demonstrates higher alignment to human performance on both critical and filler items. Given the limited scale of this study, it is worthwhile to further explore the performance of LLMs in empirical Linguistics and in other future applications in the humanities.

arxiv情報

著者 Iris Ferrazzo
発行日 2025-02-14 16:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Are Large Language Models the future crowd workers of Linguistics? はコメントを受け付けていません