Integrating Reinforcement Learning, Action Model Learning, and Numeric Planning for Tackling Complex Tasks

要約

自動計画アルゴリズムには、各アクションの前提条件と効果を指定するドメインのモデルが必要です。
このようなドメインモデルを取得することは難しいことで有名です。
学習ドメインモデルのアルゴリズムが存在しますが、ドメインモデルと計画の学習が数値計画環境の効果的なアプローチであるかどうか、つまり、状態に個別の状態変数と数値状態変数が含まれるかどうかは不明のままです。
この作業では、数値ドメインモデルを学習する利点を調査し、代替モデルのないソリューションと比較します。
ケーススタディとして、Minecraftで2つのタスクを使用しています。これは、AIチャレンジとして使用されている人気のサンドボックスゲームです。
まず、オフラインの学習設定を検討します。ここでは、専門家の軌跡が学習できます。
これは、学習ドメインモデルの標準設定です。
数値セーフアクションモデル学習(NSAM)アルゴリズムを使用して、数値ドメインモデルを学習し、学習ドメインモデルと数値プランナーで新しい問題を解決しました。
このモデルベースのソリューションNSAM _(+P)を呼び出し、それをいくつかのモデルフリー模倣学習(IL)およびオフライン強化学習(RL)アルゴリズムと比較します。
経験的な結果は、一部のILアルゴリズムが簡単なタスクを解決するために速く学習できることを示していますが、NSAM _(+P)により、長期計画を必要とし、より大きな環境で問題を解決できるようにするタスクを解決できます。
次に、環境でエージェントを移動することによって学習が行われるオンライン学習設定を検討します。
この設定では、ランプを紹介します。
ランプでは、エージェントの実行中に収集された観測を使用して、RLポリシーを同時にトレーニングし、計画ドメインアクションモデルを学習します。
これにより、RLポリシーと学習ドメインモデルの間に肯定的なフィードバックループが形成されます。
ランプを使用することの利点を実験的に示し、いくつかのRLベースラインよりも効率的な計画を見つけ、より多くの問題を解決することを示しています。

要約(オリジナル)

Automated Planning algorithms require a model of the domain that specifies the preconditions and effects of each action. Obtaining such a domain model is notoriously hard. Algorithms for learning domain models exist, yet it remains unclear whether learning a domain model and planning is an effective approach for numeric planning environments, i.e., where states include discrete and numeric state variables. In this work, we explore the benefits of learning a numeric domain model and compare it with alternative model-free solutions. As a case study, we use two tasks in Minecraft, a popular sandbox game that has been used as an AI challenge. First, we consider an offline learning setting, where a set of expert trajectories are available to learn from. This is the standard setting for learning domain models. We used the Numeric Safe Action Model Learning (NSAM) algorithm to learn a numeric domain model and solve new problems with the learned domain model and a numeric planner. We call this model-based solution NSAM_(+p), and compare it to several model-free Imitation Learning (IL) and Offline Reinforcement Learning (RL) algorithms. Empirical results show that some IL algorithms can learn faster to solve simple tasks, while NSAM_(+p) allows solving tasks that require long-term planning and enables generalizing to solve problems in larger environments. Then, we consider an online learning setting, where learning is done by moving an agent in the environment. For this setting, we introduce RAMP. In RAMP, observations collected during the agent’s execution are used to simultaneously train an RL policy and learn a planning domain action model. This forms a positive feedback loop between the RL policy and the learned domain model. We demonstrate experimentally the benefits of using RAMP, showing that it finds more efficient plans and solves more problems than several RL baselines.

arxiv情報

著者 Yarin Benyamin,Argaman Mordoch,Shahaf S. Shperberg,Roni Stern
発行日 2025-02-18 16:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Integrating Reinforcement Learning, Action Model Learning, and Numeric Planning for Tackling Complex Tasks はコメントを受け付けていません

HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit

要約

現在のヒューマノイドテレオ操作システムは、信頼性の高い低レベルの制御ポリシーがないか、正確な全身制御コマンドを取得するのに苦労しているため、局所操作タスクのヒューマノイドを操作することが困難です。
これらの問題を解決するために、斬新なヒューマノイドテレオタイズコックピットであるHomieが、ヒューマノイド局所操作ポリシーと低コストの外骨格ベースのハードウェアシステムを統合するHomieを提案します。
このポリシーにより、ヒューマノイドロボットは、任意の上半身のポーズに対応しながら、特定の高さまで歩いてしゃがむことができます。
これは、モーションプライアーに依存することなく、上半身のポーズカリキュラム、高さ追跡報酬、および対称性の利用を組み込んだ、斬新な強化学習ベースのトレーニングフレームワークを通じて達成されます。
ポリシーを補完するハードウェアシステムは、同型外骨格アーム、一対のモーション注目グローブ、およびペダルを統合し、単一のオペレーターがヒューマノイドロボットの完全な制御を実現できるようにします。
私たちの実験では、コックピットがより安定した、迅速で正確なヒューマノイド操作のテレオ操作を促進し、タスクの完了を促進し、逆運動学ベースの方法と比較してリターゲティングエラーを排除することが示されています。
また、コックピットによって収集されたデータの有効性を模倣学習のために検証します。
私たちのプロジェクトは完全にオープンソーシングされており、デモとコードはhttps://homietele.github.io/にあります。

要約(オリジナル)

Current humanoid teleoperation systems either lack reliable low-level control policies, or struggle to acquire accurate whole-body control commands, making it difficult to teleoperate humanoids for loco-manipulation tasks. To solve these issues, we propose HOMIE, a novel humanoid teleoperation cockpit integrates a humanoid loco-manipulation policy and a low-cost exoskeleton-based hardware system. The policy enables humanoid robots to walk and squat to specific heights while accommodating arbitrary upper-body poses. This is achieved through our novel reinforcement learning-based training framework that incorporates upper-body pose curriculum, height-tracking reward, and symmetry utilization, without relying on any motion priors. Complementing the policy, the hardware system integrates isomorphic exoskeleton arms, a pair of motion-sensing gloves, and a pedal, allowing a single operator to achieve full control of the humanoid robot. Our experiments show our cockpit facilitates more stable, rapid, and precise humanoid loco-manipulation teleoperation, accelerating task completion and eliminating retargeting errors compared to inverse kinematics-based methods. We also validate the effectiveness of the data collected by our cockpit for imitation learning. Our project is fully open-sourced, demos and code can be found in https://homietele.github.io/.

arxiv情報

著者 Qingwei Ben,Feiyu Jia,Jia Zeng,Junting Dong,Dahua Lin,Jiangmiao Pang
発行日 2025-02-18 16:33:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit はコメントを受け付けていません

LLM-Powered Proactive Data Systems

要約

LLMSの力により、テキスト、画像、ビデオなど、以前にクエリすることが不可能だったデータを照会する機能があります。
しかし、この大きな可能性にもかかわらず、LLMを活用するほとんどの現在のデータシステムは反応的であり、LLMを既知の抽象化にマッピングしたいというコミュニティの欲求を反映しています。
ほとんどのデータシステムは、LLMSを、他のリレーショナル演算子と組み合わせて、他のおおよその高価なUDFと同じようにユーザー入力とデータを最適化する不透明なブラックボックスとして扱います。
このようなデータシステムは、指示されているとおりに行われますが、LLMが求められていることを理解して活用していません(つまり、エラーが発生しやすい可能性があります)、LLMが動作しているデータ(例えば、長く、複雑です。
ドキュメント)、またはユーザーが本当に必要とするもの。
手元の操作やデータの特性を利用したり、不正確さとあいまいさがある場合に結果の正しさを確保したりしません。
私たちは、データシステムを積極的にする必要があると主張します。ユーザーの入力とデータを理解し、作り直し、操作とデータがどのようにデータをすべきかを決定するために、より多くの代理店(LLMの力)を与えられる必要があると主張します。
表現され、処理されます。
データシステムがユーザーの入力とデータを解析、書き換え、分解するか、標準のシングルショットクエリと結果のパラダイムを超える方法でユーザーと対話することを許可することにより、データシステムはユーザーのニーズにより効率的に対応でき、
効果的に。
これらの新しい機能は、データシステムがより多くのイニシアチブをとる豊富な設計スペースにつながります。変換操作、データ特性、およびユーザーの意図に基づいて最適化を実行できるようになります。
このフレームワークがどのように行われ、実際のタスクに適用され、適用されることができるさまざまな例を説明し、この野心的な研究アジェンダの将来の方向性を提示します。

要約(オリジナル)

With the power of LLMs, we now have the ability to query data that was previously impossible to query, including text, images, and video. However, despite this enormous potential, most present-day data systems that leverage LLMs are reactive, reflecting our community’s desire to map LLMs to known abstractions. Most data systems treat LLMs as an opaque black box that operates on user inputs and data as is, optimizing them much like any other approximate, expensive UDFs, in conjunction with other relational operators. Such data systems do as they are told, but fail to understand and leverage what the LLM is being asked to do (i.e. the underlying operations, which may be error-prone), the data the LLM is operating on (e.g., long, complex documents), or what the user really needs. They don’t take advantage of the characteristics of the operations and/or the data at hand, or ensure correctness of results when there are imprecisions and ambiguities. We argue that data systems instead need to be proactive: they need to be given more agency — armed with the power of LLMs — to understand and rework the user inputs and the data and to make decisions on how the operations and the data should be represented and processed. By allowing the data system to parse, rewrite, and decompose user inputs and data, or to interact with the user in ways that go beyond the standard single-shot query-result paradigm, the data system is able to address user needs more efficiently and effectively. These new capabilities lead to a rich design space where the data system takes more initiative: they are empowered to perform optimization based on the transformation operations, data characteristics, and user intent. We discuss various successful examples of how this framework has been and can be applied in real-world tasks, and present future directions for this ambitious research agenda.

arxiv情報

著者 Sepanta Zeighami,Yiming Lin,Shreya Shankar,Aditya Parameswaran
発行日 2025-02-18 16:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB | LLM-Powered Proactive Data Systems はコメントを受け付けていません

PeerArg: Argumentative Peer Review with LLMs

要約

ピアレビューは、科学的会議や雑誌に提出された論文の質を決定するための不可欠なプロセスです。
しかし、それは主観的でバイアスに陥りやすいです。
NLPの手法を適用するためにピアレビューをサポートするためにいくつかの研究が実施されていますが、それらはブラックボックスのテクニックに基づいており、その出力は解釈と信頼が困難です。
この論文では、ピアレビューのレビューと意思決定プロセスをサポートおよび理解するための新しいパイプラインを提案します。LLMSと知識表現の方法を組み合わせたPeerargシステム。
Peerargは、論文の一連のレビューを入力し、論文の受け入れ予測を出力します。
3つの異なるデータセットでのPeerargパイプラインのパフォーマンスを評価します。これは、レビューを与えられた少数の学習を使用して紙の受け入れを予測する新しいEnd-2-End LLMと比較して評価します。
結果は、End-2-End LLMがレビューからの紙の受け入れを予測できることを示していますが、Peerarg PipelineのバリアントはこのLLMよりも優れています。

要約(オリジナル)

Peer review is an essential process to determine the quality of papers submitted to scientific conferences or journals. However, it is subjective and prone to biases. Several studies have been conducted to apply techniques from NLP to support peer review, but they are based on black-box techniques and their outputs are difficult to interpret and trust. In this paper, we propose a novel pipeline to support and understand the reviewing and decision-making processes of peer review: the PeerArg system combining LLMs with methods from knowledge representation. PeerArg takes in input a set of reviews for a paper and outputs the paper acceptance prediction. We evaluate the performance of the PeerArg pipeline on three different datasets, in comparison with a novel end-2-end LLM that uses few-shot learning to predict paper acceptance given reviews. The results indicate that the end-2-end LLM is capable of predicting paper acceptance from reviews, but a variant of the PeerArg pipeline outperforms this LLM.

arxiv情報

著者 Purin Sukpanichnant,Anna Rapberger,Francesca Toni
発行日 2025-02-18 16:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | PeerArg: Argumentative Peer Review with LLMs はコメントを受け付けていません

Agentic Deep Graph Reasoning Yields Self-Organizing Knowledge Networks

要約

その場で知識を繰り返し構造化および洗練するエージェントで自律的なグラフ拡張フレームワークを提示します。
静的抽出またはシングルパス学習に依存する従来のナレッジグラフ構造方法とは異なり、私たちのアプローチは、継続的に更新されたグラフ表現を備えた推論ネイティブの大手言語モデルを網羅しています。
各ステップで、システムは新しい概念と関係を積極的に生成し、それらをグローバルグラフにマージし、進化する構造に基づいて後続のプロンプトを策定します。
このフィードバック駆動型ループを通じて、モデルは、ハブ形成、安定したモジュール性、および異なる知識クラスターをリンクするブリッジングノードを特徴とするスケールフリーネットワークに情報を整理します。
何百もの反復で、新しいノードとエッジが飽和することなく現れ続けますが、中心性の測定値と最短経路分布は進化して、ますます分布する接続性を生成します。
私たちの分析では、高度に接続された「ハブ」概念の台頭や「ブリッジ」ノードの変化する影響などの緊急パターンが明らかになり、エージェントの自己強化グラフ構造がオープンエンドのコヒーレントな知識構造をもたらす可能性があることを示しています。
材料の設計上の問題に適用されると、節点と相乗レベルの原則を抽出して真の斬新な知識の統合を促進し、暗記の要約を超越し、オープンエンドの科学的発見のフレームワークの可能性を強化するクロスドメインのアイデアを生み出し、組成の推論実験を提示します。
科学的発見における他のアプリケーションについて説明し、スケ​​ーラビリティと解釈性を高めるための将来の方向性を概説します。

要約(オリジナル)

We present an agentic, autonomous graph expansion framework that iteratively structures and refines knowledge in situ. Unlike conventional knowledge graph construction methods relying on static extraction or single-pass learning, our approach couples a reasoning-native large language model with a continually updated graph representation. At each step, the system actively generates new concepts and relationships, merges them into a global graph, and formulates subsequent prompts based on its evolving structure. Through this feedback-driven loop, the model organizes information into a scale-free network characterized by hub formation, stable modularity, and bridging nodes that link disparate knowledge clusters. Over hundreds of iterations, new nodes and edges continue to appear without saturating, while centrality measures and shortest path distributions evolve to yield increasingly distributed connectivity. Our analysis reveals emergent patterns, such as the rise of highly connected ‘hub’ concepts and the shifting influence of ‘bridge’ nodes, indicating that agentic, self-reinforcing graph construction can yield open-ended, coherent knowledge structures. Applied to materials design problems, we present compositional reasoning experiments by extracting node-specific and synergy-level principles to foster genuinely novel knowledge synthesis, yielding cross-domain ideas that transcend rote summarization and strengthen the framework’s potential for open-ended scientific discovery. We discuss other applications in scientific discovery and outline future directions for enhancing scalability and interpretability.

arxiv情報

著者 Markus J. Buehler
発行日 2025-02-18 16:44:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.AI, cs.CL, cs.LG | Agentic Deep Graph Reasoning Yields Self-Organizing Knowledge Networks はコメントを受け付けていません

Likelihood-Ratio Regularized Quantile Regression: Adapting Conformal Prediction to High-Dimensional Covariate Shifts

要約

共変量シフトの下でのコンフォーマル予測の問題を考慮します。
ソースドメインからのラベル付きデータと、共変量シフトターゲットドメインからの非標識データが与えられた場合、ターゲットドメインに有効な限界カバレッジを持つ予測セットを構築しようとします。
ほとんどの既存の方法では、未知の尤度比関数を推定する必要があります。これは、画像などの高次元データでは禁止されている可能性があります。
この課題に対処するために、未知の尤度比を推定せずにしきい値関数を直接推定するために、ピンボール損失を正規化の新しい選択と組み合わせた尤度比が正規化された分位回帰(LR-QR)アルゴリズムを導入します。
LR-QRメソッドは、ターゲットドメインの目的のレベルで、制御できる小さなエラー用語までのカバレッジがあることを示します。
私たちの証拠は、学習理論からの安定性の境界を介したカバレッジの新しい分析を利用しています。
私たちの実験は、LR-QRアルゴリズムが、コミュニティや犯罪データセットの回帰タスク、Wildsリポジトリの画像分類タスクなど、高次元予測タスクの既存の方法を上回ることを示しています。

要約(オリジナル)

We consider the problem of conformal prediction under covariate shift. Given labeled data from a source domain and unlabeled data from a covariate shifted target domain, we seek to construct prediction sets with valid marginal coverage in the target domain. Most existing methods require estimating the unknown likelihood ratio function, which can be prohibitive for high-dimensional data such as images. To address this challenge, we introduce the likelihood ratio regularized quantile regression (LR-QR) algorithm, which combines the pinball loss with a novel choice of regularization in order to construct a threshold function without directly estimating the unknown likelihood ratio. We show that the LR-QR method has coverage at the desired level in the target domain, up to a small error term that we can control. Our proofs draw on a novel analysis of coverage via stability bounds from learning theory. Our experiments demonstrate that the LR-QR algorithm outperforms existing methods on high-dimensional prediction tasks, including a regression task for the Communities and Crime dataset, and an image classification task from the WILDS repository.

arxiv情報

著者 Sunay Joshi,Shayan Kiyani,George Pappas,Edgar Dobriban,Hamed Hassani
発行日 2025-02-18 16:46:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Likelihood-Ratio Regularized Quantile Regression: Adapting Conformal Prediction to High-Dimensional Covariate Shifts はコメントを受け付けていません

LAMD: Context-driven Android Malware Detection and Classification with LLMs

要約

モバイルアプリケーションの急速な成長により、Androidマルウェアの脅威がエスカレートしています。
多数の検出方法がありますが、多くの場合、進化する攻撃、データセットバイアス、および限られた説明可能性に苦労しています。
大規模な言語モデル(LLMS)は、ゼロショットの推論と推論機能を備えた有望な代替手段を提供します。
ただし、LLMSをAndroidマルウェア検出に適用すると、2つの重要な課題があります。(1)多くの場合、数千のクラスにまたがるAndroidアプリケーションの広範なサポートコードは、LLMのコンテキスト制限を超えて、良性機能内の悪意のある動作を曖昧にします。
(2)Androidアプリケーションの構造的複雑さと相互依存性は、LLMSのシーケンスベースの推論、コード分析の断片化、悪意のある意図の推論を妨げます。
これらの課題に対処するために、LLMベースのAndroidマルウェア検出を可能にする実用的なコンテキスト主導型フレームワークであるLamdを提案します。
LAMDは、主要なコンテキスト抽出を統合して、セキュリティクリティカルなコード領域を分離し、プログラム構造を構築し、低レベルの命令から高レベルのセマンティクスまで、アプリケーションの動作を徐々に分析し、最終的な予測と説明を提供します。
適切に設計された事実の一貫性検証メカニズムは、最初の層からのLLM幻覚を軽減するために装備されています。
現実世界の設定での評価は、従来の検出器に対するラムの有効性を示しており、動的な脅威の状況におけるLLM駆動型マルウェア分析の実行可能な基盤を確立します。

要約(オリジナル)

The rapid growth of mobile applications has escalated Android malware threats. Although there are numerous detection methods, they often struggle with evolving attacks, dataset biases, and limited explainability. Large Language Models (LLMs) offer a promising alternative with their zero-shot inference and reasoning capabilities. However, applying LLMs to Android malware detection presents two key challenges: (1)the extensive support code in Android applications, often spanning thousands of classes, exceeds LLMs’ context limits and obscures malicious behavior within benign functionality; (2)the structural complexity and interdependencies of Android applications surpass LLMs’ sequence-based reasoning, fragmenting code analysis and hindering malicious intent inference. To address these challenges, we propose LAMD, a practical context-driven framework to enable LLM-based Android malware detection. LAMD integrates key context extraction to isolate security-critical code regions and construct program structures, then applies tier-wise code reasoning to analyze application behavior progressively, from low-level instructions to high-level semantics, providing final prediction and explanation. A well-designed factual consistency verification mechanism is equipped to mitigate LLM hallucinations from the first tier. Evaluation in real-world settings demonstrates LAMD’s effectiveness over conventional detectors, establishing a feasible basis for LLM-driven malware analysis in dynamic threat landscapes.

arxiv情報

著者 Xingzhi Qian,Xinran Zheng,Yiling He,Shuo Yang,Lorenzo Cavallaro
発行日 2025-02-18 17:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | LAMD: Context-driven Android Malware Detection and Classification with LLMs はコメントを受け付けていません

A Frontier AI Risk Management Framework: Bridging the Gap Between Current AI Practices and Established Risk Management

要約

強力なAIシステムの最近の開発は、AI業界における堅牢なリスク管理フレームワークの必要性を強調しています。
企業は安全フレームワークを実装し始めていますが、現在のアプローチには、他の高リスク産業で見られる体系的な厳密さがしばしば欠けています。
このペーパーでは、確立されたリスク管理の原則を新たなAI固有の実践と統合することにより、このギャップを橋渡しするフロンティアAIの開発のための包括的なリスク管理フレームワークを提示します。
フレームワークは、(1)リスクの識別(文献レビュー、オープンエンドの赤チーム化、およびリスクモデリングを通じて)、(2)定量的メトリックと明確に定義されたしきい値を使用したリスク分析と評価、(3)リスク治療を使用した4つの重要なコンポーネントで構成されています。
封じ込め、展開制御、保証プロセスなどの緩和策、および(4)明確な組織構造と説明責任を確立するリスクガバナンスを通じて。
AIの独自の課題を考慮しながら、航空や原子力などの成熟した産業のベストプラクティスから引き出されたこのフレームワークは、AI開発者に堅牢なリスク管理を実装するための実用的なガイドラインを提供します。
このペーパーでは、AIシステムのライフサイクル全体で、計画から展開まで、各コンポーネントをどのように実装すべきかを詳しく説明し、それに関連する負担を最小限に抑えるために、最終的なトレーニング実行の前にリスク管理作業を実施することの重要性と実現可能性を強調しています。

要約(オリジナル)

The recent development of powerful AI systems has highlighted the need for robust risk management frameworks in the AI industry. Although companies have begun to implement safety frameworks, current approaches often lack the systematic rigor found in other high-risk industries. This paper presents a comprehensive risk management framework for the development of frontier AI that bridges this gap by integrating established risk management principles with emerging AI-specific practices. The framework consists of four key components: (1) risk identification (through literature review, open-ended red-teaming, and risk modeling), (2) risk analysis and evaluation using quantitative metrics and clearly defined thresholds, (3) risk treatment through mitigation measures such as containment, deployment controls, and assurance processes, and (4) risk governance establishing clear organizational structures and accountability. Drawing from best practices in mature industries such as aviation or nuclear power, while accounting for AI’s unique challenges, this framework provides AI developers with actionable guidelines for implementing robust risk management. The paper details how each component should be implemented throughout the life-cycle of the AI system – from planning through deployment – and emphasizes the importance and feasibility of conducting risk management work prior to the final training run to minimize the burden associated with it.

arxiv情報

著者 Simeon Campos,Henry Papadatos,Fabien Roger,Chloé Touzet,Malcolm Murray,Otter Quarks
発行日 2025-02-18 17:05:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A Frontier AI Risk Management Framework: Bridging the Gap Between Current AI Practices and Established Risk Management はコメントを受け付けていません

A New Paradigm in Tuning Learned Indexes: A Reinforcement Learning Enhanced Approach

要約

学習インデックス構造(LIS)は、機械学習モデルを活用してデータインデックスを最適化することにより、データ管理を大幅に高度にしています。
ただし、これらの構造を設計するには、多くの場合、重要なトレードオフが含まれるため、デザイナーとエンドユーザーの両方が特定のワークロードとシナリオに合わせた最適なバランスを見つけることが困難になります。
いくつかのインデックスは、集中的なマニュアルチューニングを必要とする調整可能なパラメーターを提供しますが、他のインデックスは、最適なパフォーマンスを一貫して提供しない場合があるヒューリスティックな自動チューナーまたは専門知識に基づいて固定構成に依存しています。
このペーパーでは、学習したインデックス構造のエンドツーエンドの自動チューニングの新しいフレームワークであるLituneを紹介します。
Lituneは、安定した効率的なチューニングを確保するために、テーラーメイドのディープ補強学習(DRL)アプローチを備えた適応型トレーニングパイプラインを採用しています。
オンラインチューニングから生じる長期的なダイナミクスに対応するために、O2システムと呼ばれるオンザフライ更新メカニズムでLituneをさらに強化します。
これらの革新により、Lituneはオンラインチューニングシナリオで州の移行を効果的にキャプチャし、データ分布とワークロードの変更に動的に調整し、他のチューニング方法よりも大幅に改善されます。
実験結果は、選択した学習インデックスインスタンスを考慮して、デフォルトのパラメーター設定と比較して、リチューンがランタイムが最大98%減少し、スループットの17倍の増加を達成することを示しています。
これらの調査結果は、Lituneの有効性と、実際のアプリケーションにおけるLISのより広範な採用を促進する可能性を強調しています。

要約(オリジナル)

Learned Index Structures (LIS) have significantly advanced data management by leveraging machine learning models to optimize data indexing. However, designing these structures often involves critical trade-offs, making it challenging for both designers and end-users to find an optimal balance tailored to specific workloads and scenarios. While some indexes offer adjustable parameters that demand intensive manual tuning, others rely on fixed configurations based on heuristic auto-tuners or expert knowledge, which may not consistently deliver optimal performance. This paper introduces LITune, a novel framework for end-to-end automatic tuning of Learned Index Structures. LITune employs an adaptive training pipeline equipped with a tailor-made Deep Reinforcement Learning (DRL) approach to ensure stable and efficient tuning. To accommodate long-term dynamics arising from online tuning, we further enhance LITune with an on-the-fly updating mechanism termed the O2 system. These innovations allow LITune to effectively capture state transitions in online tuning scenarios and dynamically adjust to changing data distributions and workloads, marking a significant improvement over other tuning methods. Our experimental results demonstrate that LITune achieves up to a 98% reduction in runtime and a 17-fold increase in throughput compared to default parameter settings given a selected Learned Index instance. These findings highlight LITune’s effectiveness and its potential to facilitate broader adoption of LIS in real-world applications.

arxiv情報

著者 Taiyi Wang,Liang Liang,Guang Yang,Thomas Heinis,Eiko Yoneki
発行日 2025-02-18 17:06:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.SY, eess.SY | A New Paradigm in Tuning Learned Indexes: A Reinforcement Learning Enhanced Approach はコメントを受け付けていません

AI-Assisted Decision Making with Human Learning

要約

AIシステムは、人間の意思決定をますますサポートしています。
多くの場合、アルゴリズムの優れたパフォーマンスにもかかわらず、最終決定は人間の手に残っています。
たとえば、AIは医師が実行する診断検査を決定するのを支援する場合がありますが、医師は最終的に診断を行います。
このペーパーでは、そのようなAI支援の意思決定設定を研究します。ここでは、人間はアルゴリズムとの繰り返しの相互作用を通じて学習します。
私たちのフレームワークでは、アルゴリズムは、独自のモデルに応じて意思決定の精度を最大化するように設計されていますが、人間が考慮できる機能を決定します。
その後、人間は自分のより正確なモデルに基づいて予測を行います。
アルゴリズムのモデルと人間のモデルの間の矛盾が基本的なトレードオフを作成することを観察します。
アルゴリズムは、より有益な機能を推奨する優先順位を付けて、学習が発生するまで短期的には正確な予測をもたらしたとしても、人間がその重要性を認識するよう奨励する必要がありますか?
または、人間を教育し、代わりに既存の理解とより密接に整合し、学習の即時コストを最小限に抑える選択を選択することが望ましいですか?
このトレードオフは、アルゴリズムの時間延長された目的と人間の学習能力によって形作られます。
我々の結果は、最適な特徴選択には、驚くほどクリーンな組み合わせ特性化があり、計算に対処できる特徴サブセットの固定シーケンスに還元可能であることを示しています。
アルゴリズムがより「患者」になるか、人間の学習が改善されると、アルゴリズムはより有益な機能を選択し、予測の精度と人間の理解の両方を強化します。
特に、学習への早期投資は、後の投資よりも有益な機能の選択につながります。
アルゴリズムの知識へのエラーの影響は、予測を直接行わないため、限られていることを示すことにより、分析を補完します。

要約(オリジナル)

AI systems increasingly support human decision-making. In many cases, despite the algorithm’s superior performance, the final decision remains in human hands. For example, an AI may assist doctors in determining which diagnostic tests to run, but the doctor ultimately makes the diagnosis. This paper studies such AI-assisted decision-making settings, where the human learns through repeated interactions with the algorithm. In our framework, the algorithm — designed to maximize decision accuracy according to its own model — determines which features the human can consider. The human then makes a prediction based on their own less accurate model. We observe that the discrepancy between the algorithm’s model and the human’s model creates a fundamental tradeoff. Should the algorithm prioritize recommending more informative features, encouraging the human to recognize their importance, even if it results in less accurate predictions in the short term until learning occurs? Or is it preferable to forgo educating the human and instead select features that align more closely with their existing understanding, minimizing the immediate cost of learning? This tradeoff is shaped by the algorithm’s time-discounted objective and the human’s learning ability. Our results show that optimal feature selection has a surprisingly clean combinatorial characterization, reducible to a stationary sequence of feature subsets that is tractable to compute. As the algorithm becomes more ‘patient’ or the human’s learning improves, the algorithm increasingly selects more informative features, enhancing both prediction accuracy and the human’s understanding. Notably, early investment in learning leads to the selection of more informative features than a later investment. We complement our analysis by showing that the impact of errors in the algorithm’s knowledge is limited as it does not make the prediction directly.

arxiv情報

著者 Gali Noti,Kate Donahue,Jon Kleinberg,Sigal Oren
発行日 2025-02-18 17:08:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.HC | AI-Assisted Decision Making with Human Learning はコメントを受け付けていません