Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows

要約

現実世界のエンタープライズテキストからSQLワークフローには、さまざまなデータベースシステムにわたる複雑なクラウドまたはローカルデータ、さまざまな方言の複数のSQLクエリ、およびデータ変換から分析までの多様な操作が含まれます。
エンタープライズレベルのデータベースユースケースから派生した632の実世界のテキストからSQLへのワークフローの問題を含む評価フレームワークであるSpider 2.0を紹介します。
Spider 2.0のデータベースは、1,000列以上を含む多くの場合、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに保存される実際のデータアプリケーションから供給されています。
Spider 2.0の問題を解決するには、データベースメタデータ、方言のドキュメント、さらにはプロジェクトレベルのコードベースを理解して検索する必要があることが多いことを示しています。
この課題では、モデルが複雑なSQLワークフロー環境と対話し、非常に長いコンテキストを処理し、複雑な推論を実行し、多様な操作で複数のSQLクエリを生成することを求めています。
私たちの評価は、O1-Previewに基づいて、コードエージェントフレームワークは、クモ1.0で91.2%、鳥の73.0%と比較して、タスクの21.3%のみを正常に解決することを示しています。
Spider 2.0の結果は、言語モデルがコード生成(特に以前のテキストからSQLのベンチマークで顕著なパフォーマンス)を実証している一方で、実際のエンタープライズ使用に適切なパフォーマンスを達成するために大幅な改善が必要であることを示しています。
Spider 2.0の進捗は、実際のエンタープライズ設定のインテリジェントで自律的なコードエージェントを開発するための重要なステップを表しています。
当社のコード、ベースラインモデル、およびデータは、https://spider2-sql.github.ioで入手できます。

要約(オリジナル)

Real-world enterprise text-to-SQL workflows often involve complex cloud or local data across various database systems, multiple SQL queries in various dialects, and diverse operations from data transformation to analytics. We introduce Spider 2.0, an evaluation framework comprising 632 real-world text-to-SQL workflow problems derived from enterprise-level database use cases. The databases in Spider 2.0 are sourced from real data applications, often containing over 1,000 columns and stored in local or cloud database systems such as BigQuery and Snowflake. We show that solving problems in Spider 2.0 frequently requires understanding and searching through database metadata, dialect documentation, and even project-level codebases. This challenge calls for models to interact with complex SQL workflow environments, process extremely long contexts, perform intricate reasoning, and generate multiple SQL queries with diverse operations, often exceeding 100 lines, which goes far beyond traditional text-to-SQL challenges. Our evaluations indicate that based on o1-preview, our code agent framework successfully solves only 21.3% of the tasks, compared with 91.2% on Spider 1.0 and 73.0% on BIRD. Our results on Spider 2.0 show that while language models have demonstrated remarkable performance in code generation — especially in prior text-to-SQL benchmarks — they require significant improvement in order to achieve adequate performance for real-world enterprise usage. Progress on Spider 2.0 represents crucial steps towards developing intelligent, autonomous, code agents for real-world enterprise settings. Our code, baseline models, and data are available at https://spider2-sql.github.io

arxiv情報

著者 Fangyu Lei,Jixuan Chen,Yuxiao Ye,Ruisheng Cao,Dongchan Shin,Hongjin Su,Zhaoqing Suo,Hongcheng Gao,Wenjing Hu,Pengcheng Yin,Victor Zhong,Caiming Xiong,Ruoxi Sun,Qian Liu,Sida Wang,Tao Yu
発行日 2025-03-17 16:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB | Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows はコメントを受け付けていません

Reliable and Efficient Amortized Model-based Evaluation

要約

これらのモデルには、安全リスク(例えば、人種バイアス、毒性、または誤った情報)と同様に、これらのモデルには多数の能力(例えば、数学的推論、法的支援、医療診断、または医療診断)があるため、開発段階と展開フェーズの両方で言語モデル(LM)の包括的な評価が必要です。
幅広いベンチマークにわたる平均スコアは、実際にこれらのLMSの使用を導くのに役立つ信号を提供します。
現在、ホリスティック評価は、ベンチマークの質問が大量にあるため、費用がかかり、頻繁に評価されています。
コストを削減する人気のある試みは、ベンチマークのサブセットで平均スコアを計算することです。
残念ながら、このアプローチは、平均スコアがベンチマークサブセットの質問の難しさとしばしば混同されるため、LMパフォーマンスの信頼できない尺度をしばしばレンダリングします。
アイテム応答理論(IRT)は、この課題に対処するように設計されており、疑問の難しさを慎重に制御することにより信頼できる測定を提供します。
残念ながら、質問の難しさは推定するのに費用がかかります。
この課題に直面して、私たちはそのコンテンツから疑問の難易度を予測するモデルを訓練し、一部のコストで信頼できる測定を可能にします。
さらに、この難易度予測因子を活用して、難易度を考慮して質問ジェネレーターをトレーニングすることにより、評価効率をさらに改善します。
この質問ジェネレーターは、ベンチマークの質問のランダムサブセットを使用する代わりに、LLMパフォーマンスの現在の推定に基づいて適応的に選択される適応テストに不可欠です。
22の一般的な自然言語ベンチマークと172 LMSでの実験は、現在の一般的な慣行と比較して、このアプローチがより信頼性が高く効率的であることを示しています。

要約(オリジナル)

Comprehensive evaluations of language models (LM) during both development and deployment phases are necessary because these models possess numerous capabilities (e.g., mathematical reasoning, legal support, or medical diagnostic) as well as safety risks (e.g., racial bias, toxicity, or misinformation). The average score across a wide range of benchmarks provides a signal that helps guide the use of these LMs in practice. Currently, holistic evaluations are costly due to the large volume of benchmark questions, making frequent evaluations impractical. A popular attempt to lower the cost is to compute the average score on a subset of the benchmark. This approach, unfortunately, often renders an unreliable measure of LM performance because the average score is often confounded with the difficulty of the questions in the benchmark subset. Item response theory (IRT) was designed to address this challenge, providing a reliable measurement by careful controlling for question difficulty. Unfortunately, question difficulty is expensive to estimate. Facing this challenge, we train a model that predicts question difficulty from its content, enabling a reliable measurement at a fraction of the cost. In addition, we leverage this difficulty predictor to further improve the evaluation efficiency through training a question generator given a difficulty level. This question generator is essential in adaptive testing, where, instead of using a random subset of the benchmark questions, informative questions are adaptively chosen based on the current estimation of LLM performance. Experiments on 22 common natural language benchmarks and 172 LMs show that this approach is more reliable and efficient compared to current common practice.

arxiv情報

著者 Sang Truong,Yuheng Tu,Percy Liang,Bo Li,Sanmi Koyejo
発行日 2025-03-17 16:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.AP | Reliable and Efficient Amortized Model-based Evaluation はコメントを受け付けていません

Valid Text-to-SQL Generation with Unification-based DeepStochLog

要約

大規模な言語モデルは、自然言語の質問をSQLクエリに翻訳するために使用されています。
構文とデータベーススキーマのハード制約がなければ、実行可能ではない無効なクエリを作成することがあります。
これらの障害は、実際のシナリオでのこれらのシステムの使用を制限します。
SQLの構文とスキーマの制約を統一ベースの明確な節文法に課し、有効なクエリの生成を保証する神経共役フレームワークを提案します。
また、私たちのフレームワークは、自然言語の理解能力を活用するために、言語モデルへの双方向のインターフェースも構築しています。
SQL文法のサブセットの評価結果は、すべての出力クエリが有効であることを示しています。
この作業は、統一ベースの文法で言語モデルを拡張するための最初のステップです。
この拡張は、基礎となる言語モデルの有効性、実行精度、およびグラウンドトゥルースアライメントを大きなマージンで強化することを実証します。
私たちのコードは、https://github.com/ml-kuleuven/deepstochlog-lmで入手できます。

要約(オリジナル)

Large language models have been used to translate natural language questions to SQL queries. Without hard constraints on syntax and database schema, they occasionally produce invalid queries that are not executable. These failures limit the usage of these systems in real-life scenarios. We propose a neurosymbolic framework that imposes SQL syntax and schema constraints with unification-based definite clause grammars and thus guarantees the generation of valid queries. Our framework also builds a bi-directional interface to language models to leverage their natural language understanding abilities. The evaluation results on a subset of SQL grammars show that all our output queries are valid. This work is the first step towards extending language models with unification-based grammars. We demonstrate this extension enhances the validity, execution accuracy, and ground truth alignment of the underlying language model by a large margin. Our code is available at https://github.com/ML-KULeuven/deepstochlog-lm.

arxiv情報

著者 Ying Jiao,Luc De Raedt,Giuseppe Marra
発行日 2025-03-17 16:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Valid Text-to-SQL Generation with Unification-based DeepStochLog はコメントを受け付けていません

Scalable Runtime Architecture for Data-driven, Hybrid HPC and ML Workflow Applications

要約

従来のHPCと新しいML方法論を組み合わせたハイブリッドワークフローは、科学的コンピューティングを変革しています。
このペーパーでは、AI-Out-HPCワークフローをサポートするためにサービスベースの実行でラジカルパイロットを拡張するスケーラブルなランタイムシステムのアーキテクチャと実装を紹介します。
ランタイムシステムにより、分散ML機能、効率的なリソース管理、およびローカルおよびリモートのプラットフォーム全体でシームレスなHPC/MLカップリングが可能になります。
予備的な実験結果は、私たちのアプローチが、最小限のアーキテクチャオーバーヘッドでローカルおよびリモートHPC/クラウドリソース全体でMLモデルの同時実行を管理することを示しています。
これは、3つの代表的なデータ駆動型ワークフローアプリケーションをプロトタイプし、リーダーシップクラスのHPCプラットフォームで規模のように実行するための基盤となります。

要約(オリジナル)

Hybrid workflows combining traditional HPC and novel ML methodologies are transforming scientific computing. This paper presents the architecture and implementation of a scalable runtime system that extends RADICAL-Pilot with service-based execution to support AI-out-HPC workflows. Our runtime system enables distributed ML capabilities, efficient resource management, and seamless HPC/ML coupling across local and remote platforms. Preliminary experimental results show that our approach manages concurrent execution of ML models across local and remote HPC/cloud resources with minimal architectural overheads. This lays the foundation for prototyping three representative data-driven workflow applications and executing them at scale on leadership-class HPC platforms.

arxiv情報

著者 Andre Merzky,Mikhail Titov,Matteo Turilli,Ozgur Kilic,Tianle Wang,Shantenu Jha
発行日 2025-03-17 16:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC | Scalable Runtime Architecture for Data-driven, Hybrid HPC and ML Workflow Applications はコメントを受け付けていません

An Information Criterion for Controlled Disentanglement of Multimodal Data

要約

マルチモーダル表現学習は、複数のモダリティに固有の情報を関連付けて分解しようとしています。
モダリティ全体で共有されている情報からモダリティ固有の情報を解くことにより、解釈可能性と堅牢性を改善し、反事実的結果の生成などのダウンストリームタスクを可能にすることができます。
多くの現実世界のアプリケーションに深く絡み合っていることが多いため、2種類の情報を分離することは困難です。
私たちは、解き放たれた表現を学ぶための新しい自己監視アプローチである、解き込まれた自己監視学習(disentangledssl)を提案します。
特に、いわゆる最小必要な情報(MNI)ポイントが達成できない以前の作業ではカバーされていないシナリオに焦点を当てた、各解角表現の最適性の包括的な分析を提示します。
DeerentangledSSLは、複数の合成および実世界のデータセットで共有およびモダリティ固有の機能を正常に学習し、視覚言語データの予測タスクや生物学的データの分子フェノ型回収タスクを含むさまざまな下流タスクのベースラインを一貫して上回ることを実証します。
このコードはhttps://github.com/uhlerlab/disentangledsslで入手できます。

要約(オリジナル)

Multimodal representation learning seeks to relate and decompose information inherent in multiple modalities. By disentangling modality-specific information from information that is shared across modalities, we can improve interpretability and robustness and enable downstream tasks such as the generation of counterfactual outcomes. Separating the two types of information is challenging since they are often deeply entangled in many real-world applications. We propose Disentangled Self-Supervised Learning (DisentangledSSL), a novel self-supervised approach for learning disentangled representations. We present a comprehensive analysis of the optimality of each disentangled representation, particularly focusing on the scenario not covered in prior work where the so-called Minimum Necessary Information (MNI) point is not attainable. We demonstrate that DisentangledSSL successfully learns shared and modality-specific features on multiple synthetic and real-world datasets and consistently outperforms baselines on various downstream tasks, including prediction tasks for vision-language data, as well as molecule-phenotype retrieval tasks for biological data. The code is available at https://github.com/uhlerlab/DisentangledSSL.

arxiv情報

著者 Chenyu Wang,Sharut Gupta,Xinyi Zhang,Sana Tonekaboni,Stefanie Jegelka,Tommi Jaakkola,Caroline Uhler
発行日 2025-03-17 16:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT | An Information Criterion for Controlled Disentanglement of Multimodal Data はコメントを受け付けていません

Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design

要約

最近の研究では、自然言語から生物学的配列生成まで、ドメイン全体の離散シーケンス上の拡散モデルの強力な経験的パフォーマンスが実証されています。
たとえば、タンパク質の逆折りたたみ式タスクでは、条件付き拡散モデルは、元の構造に折り返す天然のようなシーケンスを生成する印象的な結果を達成しました。
ただし、実用的な設計タスクでは、条件付き分布をモデル化するだけでなく、特定のタスク目標を最適化する必要があることがよくあります。
たとえば、安定性の高いタンパク質配列を好む場合があります。
これに対処するために、自然なシーケンスを生成できる事前に訓練された離散拡散モデルがあるシナリオと、シーケンスをタスク目的にマッピングするモデルに報いることを検討します。
次に、自然性を維持するために、補強された拡散モデルに対するKLの発散を最小限に抑えながら、補強学習(RL)に類似した離散拡散モデル内の報酬最大化問題を策定します。
このRLの問題を解決するために、Gumbel-Softmaxのトリックを使用して微分可能になっている元々拡散性の軌跡を作成することにより、拡散モデルによって生成された軌跡全体を通して報酬の直接的なバックプロパゲーションを可能にする新しいアルゴリズムであるドレイクを提案します。
私たちの理論分析は、私たちのアプローチが自然なようなシーケンスを生成し、高い報酬をもたらすことができることを示しています。
連続ドメインの拡散モデルで同様のタスクが最近検討されていますが、我々の研究は、ブラウン運動ではなく連続時間マルコフチェーンで基礎から生じる離散拡散モデルに特有の独自のアルゴリズムと理論的課題に対処します。
最後に、遺伝子療法とタンパク質ベースの治療薬の重要なタスクをそれぞれ最適化するDNAおよびタンパク質配列の生成におけるドレイクの有効性を実証します。

要約(オリジナル)

Recent studies have demonstrated the strong empirical performance of diffusion models on discrete sequences across domains from natural language to biological sequence generation. For example, in the protein inverse folding task, conditional diffusion models have achieved impressive results in generating natural-like sequences that fold back into the original structure. However, practical design tasks often require not only modeling a conditional distribution but also optimizing specific task objectives. For instance, we may prefer protein sequences with high stability. To address this, we consider the scenario where we have pre-trained discrete diffusion models that can generate natural-like sequences, as well as reward models that map sequences to task objectives. We then formulate the reward maximization problem within discrete diffusion models, analogous to reinforcement learning (RL), while minimizing the KL divergence against pretrained diffusion models to preserve naturalness. To solve this RL problem, we propose a novel algorithm, DRAKES, that enables direct backpropagation of rewards through entire trajectories generated by diffusion models, by making the originally non-differentiable trajectories differentiable using the Gumbel-Softmax trick. Our theoretical analysis indicates that our approach can generate sequences that are both natural-like and yield high rewards. While similar tasks have been recently explored in diffusion models for continuous domains, our work addresses unique algorithmic and theoretical challenges specific to discrete diffusion models, which arise from their foundation in continuous-time Markov chains rather than Brownian motion. Finally, we demonstrate the effectiveness of DRAKES in generating DNA and protein sequences that optimize enhancer activity and protein stability, respectively, important tasks for gene therapies and protein-based therapeutics.

arxiv情報

著者 Chenyu Wang,Masatoshi Uehara,Yichun He,Amy Wang,Tommaso Biancalani,Avantika Lal,Tommi Jaakkola,Sergey Levine,Hanchen Wang,Aviv Regev
発行日 2025-03-17 16:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design はコメントを受け付けていません

A deep cut into Split Federated Self-supervised Learning

要約

協力的な自己学習学習は、クライアントデバイスと中央サーバー間でネットワークレイヤーを分割することにより、高度に分散された環境で最近実行可能になりました。
ただし、MOCOSFLなどの最先端の方法は、クライアントデータの保護を減少させ、通信オーバーヘッドを増加させる初期レイヤーのネットワーク部門に最適化されています。
この論文では、分散トレーニングのプライバシーとコミュニケーションの効率を維持するために、深さを分割することが重要であることを示します。
また、MoCoSFLが最小限の通信オーバーヘッドに対して壊滅的な品質の悪化に苦しんでいることを示しています。
治療薬として、トレーニング手順中にオンラインおよび勢いのクライアントモデルを整列させる運動量に合わせたコントラストスプリットフェデレートラーニング(MonacosFL)を導入します。
その結果、私たちは最先端の精度を達成しながら、通信のオーバーヘッドを大幅に削減し、現実世界のシナリオでMonacosflをより実用的にします。

要約(オリジナル)

Collaborative self-supervised learning has recently become feasible in highly distributed environments by dividing the network layers between client devices and a central server. However, state-of-the-art methods, such as MocoSFL, are optimized for network division at the initial layers, which decreases the protection of the client data and increases communication overhead. In this paper, we demonstrate that splitting depth is crucial for maintaining privacy and communication efficiency in distributed training. We also show that MocoSFL suffers from a catastrophic quality deterioration for the minimal communication overhead. As a remedy, we introduce Momentum-Aligned contrastive Split Federated Learning (MonAcoSFL), which aligns online and momentum client models during training procedure. Consequently, we achieve state-of-the-art accuracy while significantly reducing the communication overhead, making MonAcoSFL more practical in real-world scenarios.

arxiv情報

著者 Marcin Przewięźlikowski,Marcin Osial,Bartosz Zieliński,Marek Śmieja
発行日 2025-03-17 16:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG | A deep cut into Split Federated Self-supervised Learning はコメントを受け付けていません

Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation

要約

有害な微調整攻撃は、大規模な言語モデルのサービスとしての微調整に深刻な安全上の懸念をもたらします。
問題を軽減するために既存の防御が提案されていますが、彼らのパフォーマンスはまだ満足のいくものから遠く離れており、問題の根本原因は完全には回復されていません。
この目的のために、このペーパーでは、モデルの重みに対する有害な摂動が、調整が切れる可能性のある原因である可能性があることを示しています。
有害な摂動の悪影響を減らすために、ブースターと呼ばれるアライメントステージソリューションを提案します。
技術的には、元のアライメント損失に加えて、アライメント段階の最適化に損失の正規者を追加します。
正規者は、シミュレートされた有害摂動が減衰した後のモデルの有害な損失の削減を保証し、それによってその後の微調整リスクを軽減します。
経験的結果は、ブースターが下流タスクのパフォーマンスを維持しながら、微調整されたモデルの有害なスコアを効果的に減らすことができることを示しています。
私たちのコードは、https://github.com/git-disl/boosterで入手できます。

要約(オリジナル)

Harmful fine-tuning attack poses serious safety concerns for large language models’ fine-tuning-as-a-service. While existing defenses have been proposed to mitigate the issue, their performances are still far away from satisfactory, and the root cause of the problem has not been fully recovered. To this end, we in this paper show that harmful perturbation over the model weights could be a probable cause of alignment-broken. In order to attenuate the negative impact of harmful perturbation, we propose an alignment-stage solution, dubbed Booster. Technically, along with the original alignment loss, we append a loss regularizer in the alignment stage’s optimization. The regularizer ensures that the model’s harmful loss reduction after the simulated harmful perturbation is attenuated, thereby mitigating the subsequent fine-tuning risk. Empirical results show that Booster can effectively reduce the harmful score of the fine-tuned models while maintaining the performance of downstream tasks. Our code is available at https://github.com/git-disl/Booster.

arxiv情報

著者 Tiansheng Huang,Sihao Hu,Fatih Ilhan,Selim Furkan Tekin,Ling Liu
発行日 2025-03-17 17:17:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation はコメントを受け付けていません

Challenges and recommendations for Electronic Health Records data extraction and preparation for dynamic prediction modelling in hospitalized patients — a practical guide

要約

電子健康記録(EHR)データを使用した動的予測モデリングは、近年大きな注目を集めています。
このようなモデルの信頼性と信頼性は、基礎となるデータの品質に大きく依存します。これは、モデル開発の前の段階、つまりEHRシステムからのデータ抽出とデータ準備によって決定されます。
この記事では、これらの段階で遭遇した40以上の課題を特定し、それらに対処するための実用的な推奨事項を提供しました。
これらの課題は、コホートの定義、結果の定義、機能エンジニアリング、およびデータクリーニングの4つのカテゴリに編成されています。
この包括的なリストは、データ抽出エンジニアと研究者のための実用的なガイドとして機能し、ベストプラクティスを促進し、臨床設定における動的予測モデルの品質と現実世界の適用性を改善します。

要約(オリジナル)

Dynamic predictive modelling using electronic health record (EHR) data has gained significant attention in recent years. The reliability and trustworthiness of such models depend heavily on the quality of the underlying data, which is, in part, determined by the stages preceding the model development: data extraction from EHR systems and data preparation. In this article, we identified over forty challenges encountered during these stages and provide actionable recommendations for addressing them. These challenges are organized into four categories: cohort definition, outcome definition, feature engineering, and data cleaning. This comprehensive list serves as a practical guide for data extraction engineers and researchers, promoting best practices and improving the quality and real-world applicability of dynamic prediction models in clinical settings.

arxiv情報

著者 Elena Albu,Shan Gao,Pieter Stijnen,Frank E. Rademakers,Bas C T van Bussel,Taya Collyer,Tina Hernandez-Boussard,Laure Wynants,Ben Van Calster
発行日 2025-03-17 17:29:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Challenges and recommendations for Electronic Health Records data extraction and preparation for dynamic prediction modelling in hospitalized patients — a practical guide はコメントを受け付けていません

Using the Tools of Cognitive Science to Understand Large Language Models at Different Levels of Analysis

要約

大規模な言語モデルなどの最新の人工知能システムは、ますます強力になっていますが、理解するのもますます困難になっています。
この問題を人間の心を理解する際の歴史的な困難に類似していると認識すると、認知科学で開発された方法は大規模な言語モデルを理解するのに役立つと主張します。
Marrの3つのレベルの分析に基づいて、これらのメソッドを適用するためのフレームワークを提案します。
各レベルに関連する確立された認知科学技術を再検討し、大規模な言語モデルの行動と内部組織に関する洞察を生み出す可能性を説明することにより、これらの新しい種類の心を理解するためのツールキットを提供することを目指しています。

要約(オリジナル)

Modern artificial intelligence systems, such as large language models, are increasingly powerful but also increasingly hard to understand. Recognizing this problem as analogous to the historical difficulties in understanding the human mind, we argue that methods developed in cognitive science can be useful for understanding large language models. We propose a framework for applying these methods based on Marr’s three levels of analysis. By revisiting established cognitive science techniques relevant to each level and illustrating their potential to yield insights into the behavior and internal organization of large language models, we aim to provide a toolkit for making sense of these new kinds of minds.

arxiv情報

著者 Alexander Ku,Declan Campbell,Xuechunzi Bai,Jiayi Geng,Ryan Liu,Raja Marjieh,R. Thomas McCoy,Andrew Nam,Ilia Sucholutsky,Veniamin Veselovsky,Liyi Zhang,Jian-Qiao Zhu,Thomas L. Griffiths
発行日 2025-03-17 17:33:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Using the Tools of Cognitive Science to Understand Large Language Models at Different Levels of Analysis はコメントを受け付けていません