SAKA: An Intelligent Platform for Semi-automated Knowledge Graph Construction and Application

要約

ナレッジ グラフ (KG) テクノロジーは多くの分野で広く利用されており、多くの企業が KG に基づいたアプリケーションを提供しています。
それにもかかわらず、KG プラットフォームの大部分は、KG レコードを手動で構築するためにユーザーの専門知識と多大な時間と労力を必要とし、一般の人が使用するのは非常に困難です。
さらに、音声データは豊富で貴重な情報が含まれていますが、それを KG に変換するのは困難です。
さらに、プラットフォームは通常、ユーザーが構築した KG の可能性を最大限に活用していません。
この論文では、前述の問題に対処するために、半自動化された KG 構築およびアプリケーション (SAKA) のためのインテリジェントでユーザーフレンドリーなプラットフォームを提案します。
主に、ユーザーはプラットフォームと対話することで、多数の領域の構造化データから KG を半自動的に構築でき、これに基づいて複数バージョンの KG を保存、表示、管理、更新できます。
さらに、音声データから KG を確立するための音声ベースの KG 情報抽出 (AGIE) 方法を提案します。
最後に、プラットフォームは、ユーザーが作成した KG に基づいて、セマンティック解析ベースの知識ベース質問応答 (KBQA) システムを作成します。
SAKAプラットフォーム上での半自動KG工法の実現可能性を証明します。

要約(オリジナル)

Knowledge graph (KG) technology is extensively utilized in many areas, and many companies offer applications based on KG. Nonetheless, the majority of KG platforms necessitate expertise and tremendous time and effort of users to construct KG records manually, which poses great difficulties for ordinary people to use. Additionally, audio data is abundant and holds valuable information, but it is challenging to transform it into a KG. What’s more, the platforms usually do not leverage the full potential of the KGs constructed by users. In this paper, we propose an intelligent and user-friendly platform for Semi-automated KG Construction and Application (SAKA) to address the problems aforementioned. Primarily, users can semi-automatically construct KGs from structured data of numerous areas by interacting with the platform, based on which multi-versions of KG can be stored, viewed, managed, and updated. Moreover, we propose an Audio-based KG Information Extraction (AGIE) method to establish KGs from audio data. Lastly, the platform creates a semantic parsing-based knowledge base question answering (KBQA) system based on the user-created KGs. We prove the feasibility of the semi-automatic KG construction method on the SAKA platform.

arxiv情報

著者 Hanrong Zhang,Xinyue Wang,Jiabao Pan,Hongwei Wang
発行日 2024-10-10 16:37:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

Universal In-Context Approximation By Prompting Fully Recurrent Models

要約

ゼロショット学習とコンテキスト内学習により、モデルの微調整を行わずにタスクを解決できるため、生成モデル ソリューションの開発には不可欠です。
したがって、事前トレーニングされたモデルが任意の関数を近似できるかどうか、つまり、汎用のコンテキスト内近似器であるかどうかを理解することが重要です。
最近、変圧器モデルがこの特性を持っていることが示されましたが、これらの結果はその注意メカニズムに依存しています。
したがって、これらの発見は、RNN、LSTM、およびますます人気が高まっている SSM などの完全反復アーキテクチャには当てはまりません。
RNN、LSTM、GRU、線形 RNN、および Mamba や Hawk/Griffin などの線形ゲ​​ート アーキテクチャも、汎用のインコンテキスト近似器として機能できることを示します。
私たちの議論を合理化するために、これらの完全再帰アーキテクチャにコンパイルできる LSRL と呼ばれるプログラミング言語を導入します。
LSRL は、解釈可能性ベンチマークの構築など、完全リカレント モデルのさらなる研究に独立して役立つ可能性があります。
また、乗算ゲーティングの役割についても研究し、そのようなゲーティングを組み込んだアーキテクチャ (LSTM、GRU、Hawk/Griffin など) が特定の演算をより安定して実装でき、実用的なコンテキスト内汎用近似のより有力な候補となることを観察しました。

要約(オリジナル)

Zero-shot and in-context learning enable solving tasks without model fine-tuning, making them essential for developing generative model solutions. Therefore, it is crucial to understand whether a pretrained model can be prompted to approximate any function, i.e., whether it is a universal in-context approximator. While it was recently shown that transformer models do possess this property, these results rely on their attention mechanism. Hence, these findings do not apply to fully recurrent architectures like RNNs, LSTMs, and the increasingly popular SSMs. We demonstrate that RNNs, LSTMs, GRUs, Linear RNNs, and linear gated architectures such as Mamba and Hawk/Griffin can also serve as universal in-context approximators. To streamline our argument, we introduce a programming language called LSRL that compiles to these fully recurrent architectures. LSRL may be of independent interest for further studies of fully recurrent models, such as constructing interpretability benchmarks. We also study the role of multiplicative gating and observe that architectures incorporating such gating (e.g., LSTMs, GRUs, Hawk/Griffin) can implement certain operations more stably, making them more viable candidates for practical in-context universal approximation.

arxiv情報

著者 Aleksandar Petrov,Tom A. Lamb,Alasdair Paren,Philip H. S. Torr,Adel Bibi
発行日 2024-10-10 16:39:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

A Generative AI Technique for Synthesizing a Digital Twin for U.S. Residential Solar Adoption and Generation

要約

住宅の屋上に太陽光発電を導入することは、二酸化炭素排出量を削減するために重要であると考えられています。
より細かい解像度(家庭、時間レベルなど)での太陽光発電(PV)データの欠如は、情報に基づいた意思決定に大きな障害となっています。
私たちは、米国本土全域での屋上太陽光発電導入のための、非常に詳細な住宅規模の現実的なデータセットを生成するための新しい方法論について議論します。
データ駆動型の方法論は、(i) 太陽光発電の採用者を特定する統合機械学習モデル、(ii) 説明可能な AI 技術を使用してデータを拡張し、主要な機能とその相互作用に関する洞察を収集する方法、および (iii) 世帯のエネルギーを生成する方法で構成されます。
解析モデルを使用した -レベルの時間当たりの太陽エネルギー出力。
結果として得られる合成データセットは、実世界のデータを使用して検証され、下流のタスクをモデル化するためのデジタル ツインとして機能します。
最後に、バージニア州のデジタルツインを利用した政策ベースのケーススタディでは、特に低所得者から中所得者層のコミュニティにおいて、30% の連邦太陽光発電投資税額控除により屋上太陽光発電の導入が増加していることが実証されました。

要約(オリジナル)

Residential rooftop solar adoption is considered crucial for reducing carbon emissions. The lack of photovoltaic (PV) data at a finer resolution (e.g., household, hourly levels) poses a significant roadblock to informed decision-making. We discuss a novel methodology to generate a highly granular, residential-scale realistic dataset for rooftop solar adoption across the contiguous United States. The data-driven methodology consists of: (i) integrated machine learning models to identify PV adopters, (ii) methods to augment the data using explainable AI techniques to glean insights about key features and their interactions, and (iii) methods to generate household-level hourly solar energy output using an analytical model. The resulting synthetic datasets are validated using real-world data and can serve as a digital twin for modeling downstream tasks. Finally, a policy-based case study utilizing the digital twin for Virginia demonstrated increased rooftop solar adoption with the 30\% Federal Solar Investment Tax Credit, especially in Low-to-Moderate-Income communities.

arxiv情報

著者 Aparna Kishore,Swapna Thorve,Madhav Marathe
発行日 2024-10-10 16:41:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

Reference-based Metrics Disprove Themselves in Question Generation

要約

BLEU や BERTScore などの参照ベースの指標は、質問生成 (QG) を評価するために広く使用されています。
この研究では、SQuAD や HotpotQA などの QG ベンチマークに関して、人間が作成した参照を使用しても参照ベースのメトリクスの有効性を保証できないことがわかりました。
ほとんどの QG ベンチマークには参照が 1 つだけあります。
注釈プロセスを複製し、別の参照を収集します。
優れた指標では、人間が検証した質問が生成された質問と同等に評価されることが期待されます。
しかし、新しく収集したリファレンスに関するリファレンスベースのメトリクスの結果は、メトリクス自体が反証したものでした。
私たちは、大規模な言語モデルを利用して、自然さ、答えやすさ、複雑さなどの多次元の基準で構成される参照不要の指標を提案します。
これらの基準は、単一の参照質問の構文や意味に制約されず、指標には多様な参照セットが必要ありません。
実験の結果、私たちの指標が質の高い質問と欠陥のある質問を正確に区別し、人間の判断との最先端の整合性を実現していることが明らかになりました。

要約(オリジナル)

Reference-based metrics such as BLEU and BERTScore are widely used to evaluate question generation (QG). In this study, on QG benchmarks such as SQuAD and HotpotQA, we find that using human-written references cannot guarantee the effectiveness of the reference-based metrics. Most QG benchmarks have only one reference; we replicate the annotation process and collect another reference. A good metric is expected to grade a human-validated question no worse than generated questions. However, the results of reference-based metrics on our newly collected reference disproved the metrics themselves. We propose a reference-free metric consisted of multi-dimensional criteria such as naturalness, answerability, and complexity, utilizing large language models. These criteria are not constrained to the syntactic or semantic of a single reference question, and the metric does not require a diverse set of references. Experiments reveal that our metric accurately distinguishes between high-quality questions and flawed ones, and achieves state-of-the-art alignment with human judgment.

arxiv情報

著者 Bang Nguyen,Mengxia Yu,Yun Huang,Meng Jiang
発行日 2024-10-10 16:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

A Closer Look at Machine Unlearning for Large Language Models

要約

大規模言語モデル (LLM) は機密性の高いコンテンツや著作権で保護されたコンテンツを記憶する可能性があり、プライバシーと法的な懸念が生じます。
最初から再トレーニングするのはコストが高いため、研究者は機械の非学習を採用して、全体的なパフォーマンスを維持しながら LLM から特定のコンテンツを削除しようとしています。
このペーパーでは、LLM の機械の非学習におけるいくつかの問題について説明し、考えられるアプローチについての洞察を提供します。
アンラーニング後のモデル出力の評価が不十分であるという問題に対処するために、トークンの多様性、文の意味論、事実の正しさを評価するための 3 つの追加の指標を導入します。
次に、アンラーニングの手法を非ターゲット型とターゲット型に分類し、それぞれの問題点について説明します。
具体的には、非目標非学習が近似しようとする動作は予測不可能であり、幻覚を伴う可能性があり、既存の正則化は目標を絞った非学習には不十分です。
これらの問題を軽減するために、非ターゲット非学習のエントロピー (ME) を最大化する目的を使用し、ターゲット非学習の正則化として回答保存 (AP) 損失を組み込むことを提案します。
架空のアンラーニング、継続的なアンラーニング、現実世界のアンラーニングという 3 つのシナリオにわたる実験結果は、私たちのアプローチの有効性を示しています。
コードは https://github.com/sail-sg/closer-look-LLM-unlearning で入手できます。

要約(オリジナル)

Large language models (LLMs) may memorize sensitive or copyrighted content, raising privacy and legal concerns. Due to the high cost of retraining from scratch, researchers attempt to employ machine unlearning to remove specific content from LLMs while preserving the overall performance. In this paper, we discuss several issues in machine unlearning for LLMs and provide our insights on possible approaches. To address the issue of inadequate evaluation of model outputs after unlearning, we introduce three additional metrics to evaluate token diversity, sentence semantics, and factual correctness. We then categorize unlearning methods into untargeted and targeted, and discuss their issues respectively. Specifically, the behavior that untargeted unlearning attempts to approximate is unpredictable and may involve hallucinations, and existing regularization is insufficient for targeted unlearning. To alleviate these issues, we propose using the objective of maximizing entropy (ME) for untargeted unlearning and incorporate answer preservation (AP) loss as regularization for targeted unlearning. Experimental results across three scenarios, i.e., fictitious unlearning, continual unlearning, and real-world unlearning, demonstrate the effectiveness of our approaches. The code is available at https://github.com/sail-sg/closer-look-LLM-unlearning.

arxiv情報

著者 Xiaojian Yuan,Tianyu Pang,Chao Du,Kejiang Chen,Weiming Zhang,Min Lin
発行日 2024-10-10 16:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Active Fourier Auditor for Estimating Distributional Properties of ML Models

要約

機械学習 (ML) モデルが現実世界のアプリケーションに広く展開されるにつれ、ML モデルのプロパティの検証と監査が中心的な関心事になっています。
この研究では、堅牢性、個人の公平性、およびグループの公平性という 3 つの特性に焦点を当てます。
ML モデルのプロパティを監査するための 2 つのアプローチ、つまり、監査対象のターゲット モデルの再構築を伴う推定と再構築を伴わない推定について説明します。
最初のアプローチは文献で研究されていますが、2 番目のアプローチは未調査のままです。
この目的のために、監査対象の ML モデルのフーリエ係数に関してさまざまな特性を定量化する新しいフレームワークを開発しますが、それをパラメトリックに再構築することはありません。
ML モデルのフーリエ係数に従ってサンプル ポイントをクエリし、さらに特性を推定する Active Fourier Auditor (AFA) を提案します。
AFA の推定値の高確率の誤差限界と、それらを監査するためのサンプルの複雑さの最悪の場合の下限を導き出します。
複数のデータセットとモデルで、AFA がベースラインよりも対象の特性を推定するのに正確でサンプル効率が高いことを数値的に示します。

要約(オリジナル)

With the pervasive deployment of Machine Learning (ML) models in real-world applications, verifying and auditing properties of ML models have become a central concern. In this work, we focus on three properties: robustness, individual fairness, and group fairness. We discuss two approaches for auditing ML model properties: estimation with and without reconstruction of the target model under audit. Though the first approach is studied in the literature, the second approach remains unexplored. For this purpose, we develop a new framework that quantifies different properties in terms of the Fourier coefficients of the ML model under audit but does not parametrically reconstruct it. We propose the Active Fourier Auditor (AFA), which queries sample points according to the Fourier coefficients of the ML model, and further estimates the properties. We derive high probability error bounds on AFA’s estimates, along with the worst-case lower bounds on the sample complexity to audit them. Numerically we demonstrate on multiple datasets and models that AFA is more accurate and sample-efficient to estimate the properties of interest than the baselines.

arxiv情報

著者 Ayoub Ajarra,Bishwamittra Ghosh,Debabrota Basu
発行日 2024-10-10 16:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, stat.ML | コメントする

Robust AI-Generated Text Detection by Restricted Embeddings

要約

AI によって生成されたテキストの量と質が増大することで、そのようなコンテンツの検出がより困難になっています。
現実世界のほとんどのシナリオでは、生成されるデータのドメイン (スタイルとトピック) とジェネレーター モデルは事前にはわかりません。
この研究では、AI が生成したテキストの分類子ベースの検出器の堅牢性、つまり、目に見えないジェネレーターまたは意味論的ドメインに転送する能力に焦点を当てます。
私たちは、Transformer ベースのテキスト エンコーダの埋め込み空間のジオメトリを調査し、有害な線形部分空間を除去することが、ドメイン固有の偽の特徴を無視して堅牢な分類器をトレーニングするのに役立つことを示します。
私たちは、いくつかの部分空間分解と特徴選択戦略を調査し、クロスドメインおよびクロスジェネレーター転送における最先端の方法に比べて大幅な改善を達成しました。
ヘッドワイズおよび座標ベースの部分空間除去に対する当社の最良のアプローチは、RoBERTa 埋め込みと BERT 埋め込みの特定の設定で平均分布外 (OOD) 分類スコアをそれぞれ最大 9% と 14% 増加させます。
コードとデータをリリースします: https://github.com/SilverSolver/RobustATD

要約(オリジナル)

Growing amount and quality of AI-generated texts makes detecting such content more difficult. In most real-world scenarios, the domain (style and topic) of generated data and the generator model are not known in advance. In this work, we focus on the robustness of classifier-based detectors of AI-generated text, namely their ability to transfer to unseen generators or semantic domains. We investigate the geometry of the embedding space of Transformer-based text encoders and show that clearing out harmful linear subspaces helps to train a robust classifier, ignoring domain-specific spurious features. We investigate several subspace decomposition and feature selection strategies and achieve significant improvements over state of the art methods in cross-domain and cross-generator transfer. Our best approaches for head-wise and coordinate-based subspace removal increase the mean out-of-distribution (OOD) classification score by up to 9% and 14% in particular setups for RoBERTa and BERT embeddings respectively. We release our code and data: https://github.com/SilverSolver/RobustATD

arxiv情報

著者 Kristian Kuznetsov,Eduard Tulchinskii,Laida Kushnareva,German Magai,Serguei Barannikov,Sergey Nikolenko,Irina Piontkovskaya
発行日 2024-10-10 16:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System

要約

大規模言語モデル (LLM) ベースのマルチエージェント システム (MAS) は、協調的な問題解決において顕著な可能性を示していますが、通信効率の低さ、スケーラビリティの低さ、効果的なパラメータ更新の最適化手法の欠如といった重大な課題に依然として直面しています。
我々は、LLM トレーニングを通じて LLM ベースの MAS における通信効率とタスク効率の両方を大幅に向上させることで、これらの問題に対処する新しいフレームワークである Optima を紹介します。
Optima は、タスクのパフォーマンス、トークンの効率、通信の可読性のバランスをとる報酬関数を備えた、反復的な生成、ランク付け、選択、トレーニングのパラダイムを採用しています。
教師あり微調整、直接優先最適化、およびそれらのハイブリッド アプローチを含むさまざまな RL アルゴリズムを調査し、それらの有効性と効率のトレードオフについての洞察を提供します。
DPO データ生成にモンテカルロ ツリー検索にヒントを得た手法を統合し、会話ターンをツリー ノードとして扱い、多様な対話パスを探索します。
情報非対称な質問応答や複雑な推論などの一般的なマルチエージェント タスクで評価した Optima は、単一エージェントのベースラインや Llama 3 8B ベースのバニラ MAS と比較して、一貫した大幅な改善を示し、10 未満のパフォーマンスで最大 2.8 倍のパフォーマンス向上を達成しました。
大量の情報交換を必要とするタスクのトークンの割合。
さらに、Optima の効率性により、推論計算をより効果的に活用するための新たな可能性が広がり、推論時間のスケーリング則の改善につながります。
LLM ベースの MAS の根本的な課題に対処することで、Optima はスケーラブルで効率的かつ効果的な MAS の可能性を示しています (https://chenweize1998.github.io/optima-project-page)。

要約(オリジナル)

Large Language Model (LLM) based multi-agent systems (MAS) show remarkable potential in collaborative problem-solving, yet they still face critical challenges: low communication efficiency, poor scalability, and a lack of effective parameter-updating optimization methods. We present Optima, a novel framework that addresses these issues by significantly enhancing both communication efficiency and task effectiveness in LLM-based MAS through LLM training. Optima employs an iterative generate, rank, select, and train paradigm with a reward function balancing task performance, token efficiency, and communication readability. We explore various RL algorithms, including Supervised Fine-Tuning, Direct Preference Optimization, and their hybrid approaches, providing insights into their effectiveness-efficiency trade-offs. We integrate Monte Carlo Tree Search-inspired techniques for DPO data generation, treating conversation turns as tree nodes to explore diverse interaction paths. Evaluated on common multi-agent tasks, including information-asymmetric question answering and complex reasoning, Optima shows consistent and substantial improvements over single-agent baselines and vanilla MAS based on Llama 3 8B, achieving up to 2.8x performance gain with less than 10\% tokens on tasks requiring heavy information exchange. Moreover, Optima’s efficiency gains open new possibilities for leveraging inference-compute more effectively, leading to improved inference-time scaling laws. By addressing fundamental challenges in LLM-based MAS, Optima shows the potential towards scalable, efficient, and effective MAS (https://chenweize1998.github.io/optima-project-page).

arxiv情報

著者 Weize Chen,Jiarui Yuan,Chen Qian,Cheng Yang,Zhiyuan Liu,Maosong Sun
発行日 2024-10-10 17:00:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Heterogeneous Graph Auto-Encoder for CreditCard Fraud Detection

要約

デジタル革命は金融取引に大きな影響を与え、クレジット カードの使用量が顕著に増加しています。
ただし、この利便性にはトレードオフが伴い、不正行為が大幅に増加します。
不正行為を検出するための従来の機械学習手法では、金融データ内に固有の相互接続性を捉えるのに苦労することがよくあります。
この論文では、金融データの異種グラフ表現に適用されるアテンション メカニズムを備えたグラフ ニューラル ネットワーク (GNN) を活用する、クレジット カード詐欺検出のための新しいアプローチを提案します。
同種のグラフとは異なり、異種グラフは、カード所有者、加盟店、取引など、金融エコシステム内のさまざまなエンティティ間の複雑な関係を捕捉し、不正行為分析のためのより豊富で包括的なデータ表現を提供します。
本物のトランザクションの数が不正なトランザクションの数を大幅に上回っている、不正データに固有のクラスの不均衡に対処するために、提案されたアプローチではオートエンコーダーを統合します。
このオートエンコーダーは、本物のトランザクションでトレーニングされ、潜在的な表現を学習し、再構築中の逸脱を潜在的な不正行為としてフラグを立てます。
この研究では、次の 2 つの重要な質問を調査します。(1) アテンション メカニズムを備えた GNN を異種グラフに適用した場合、クレジット カード詐欺をどの程度効果的に検出して防止できるか?
(2) アテンションアプローチによるオートエンコーダの有効性は従来の方法とどのように比較されますか?
結果は有望であり、提案されたモデルが Graph Sage や FI-GRL などのベンチマーク アルゴリズムを上回り、0.89 という優れた AUC-PR と 0.81 の F1 スコアを達成していることを示しています。
この研究は、アテンション メカニズムを備えた GNN を活用し、オートエンコーダーを通じてクラスの不均衡に対処することにより、不正検出システムと金融取引の全体的なセキュリティを大幅に進歩させます。

要約(オリジナル)

The digital revolution has significantly impacted financial transactions, leading to a notable increase in credit card usage. However, this convenience comes with a trade-off: a substantial rise in fraudulent activities. Traditional machine learning methods for fraud detection often struggle to capture the inherent interconnectedness within financial data. This paper proposes a novel approach for credit card fraud detection that leverages Graph Neural Networks (GNNs) with attention mechanisms applied to heterogeneous graph representations of financial data. Unlike homogeneous graphs, heterogeneous graphs capture intricate relationships between various entities in the financial ecosystem, such as cardholders, merchants, and transactions, providing a richer and more comprehensive data representation for fraud analysis. To address the inherent class imbalance in fraud data, where genuine transactions significantly outnumber fraudulent ones, the proposed approach integrates an autoencoder. This autoencoder, trained on genuine transactions, learns a latent representation and flags deviations during reconstruction as potential fraud. This research investigates two key questions: (1) How effectively can a GNN with an attention mechanism detect and prevent credit card fraud when applied to a heterogeneous graph? (2) How does the efficacy of the autoencoder with attention approach compare to traditional methods? The results are promising, demonstrating that the proposed model outperforms benchmark algorithms such as Graph Sage and FI-GRL, achieving a superior AUC-PR of 0.89 and an F1-score of 0.81. This research significantly advances fraud detection systems and the overall security of financial transactions by leveraging GNNs with attention mechanisms and addressing class imbalance through an autoencoder.

arxiv情報

著者 Moirangthem Tiken Singh,Rabinder Kumar Prasad,Gurumayum Robert Michael,N K Kaphungkui,N. Hemarjit Singh
発行日 2024-10-10 17:05:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Mars: Situated Inductive Reasoning in an Open-World Environment

要約

大規模なコーパスでトレーニングされた大規模言語モデル (LLM) は、知識集約的なタスクで目覚ましい成功を収めています。
しかし、それらのほとんどは事前に保存された知識に依存しています。
特定の環境から新しい一般知識を導き出し、獲得した知識を使って推論を実行すること、\textit{状況帰納推論}は、機械知能にとって極めて重要かつ困難です。
この論文では、状況に応じた帰納的推論のために考案された対話型環境である火星を設計します。
特定の原則を守りながら、地形、生存設定、タスクの依存関係を変更することで、常識に反するゲーム メカニズムを導入します。
火星では、エージェントは周囲と積極的に対話し、有用なルールを導き出し、特定のコンテキストで意思決定タスクを実行する必要があります。
私たちはさまざまな RL ベースおよび LLM ベースの手法で実験を行ったところ、これらの手法はすべて、この困難な状況帰納的推論のベンチマークに苦戦していることがわかりました。
さらに、\textit{反射からの帰納} を探索し、エージェントに歴史の軌跡から帰納推論を実行するように指示します。
優れたパフォーマンスは、火星における帰納的推論の重要性を強調しています。
火星を通じて、私たちは状況に応じた帰納的推論の進歩を促進し、適応的かつ状況に応じた方法で推論できる次世代の AI システムを開発するための準備を整えることを目指しています。

要約(オリジナル)

Large Language Models (LLMs) trained on massive corpora have shown remarkable success in knowledge-intensive tasks. Yet, most of them rely on pre-stored knowledge. Inducing new general knowledge from a specific environment and performing reasoning with the acquired knowledge — \textit{situated inductive reasoning}, is crucial and challenging for machine intelligence. In this paper, we design Mars, an interactive environment devised for situated inductive reasoning. It introduces counter-commonsense game mechanisms by modifying terrain, survival setting and task dependency while adhering to certain principles. In Mars, agents need to actively interact with their surroundings, derive useful rules and perform decision-making tasks in specific contexts. We conduct experiments on various RL-based and LLM-based methods, finding that they all struggle on this challenging situated inductive reasoning benchmark. Furthermore, we explore \textit{Induction from Reflection}, where we instruct agents to perform inductive reasoning from history trajectory. The superior performance underscores the importance of inductive reasoning in Mars. Through Mars, we aim to galvanize advancements in situated inductive reasoning and set the stage for developing the next generation of AI systems that can reason in an adaptive and context-sensitive way.

arxiv情報

著者 Xiaojuan Tang,Jiaqi Li,Yitao Liang,Song-chun Zhu,Muhan Zhang,Zilong Zheng
発行日 2024-10-10 17:10:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする