AXIS: Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents

要約

Multimodal Large Language Models(MLLMS)により、LLMベースのエージェントがアプリケーションユーザーインターフェイス(UIS)と直接対話できるようになり、複雑なタスクでのエージェントのパフォーマンスが向上しました。
ただし、これらのエージェントは、広範な順次UI相互作用のために、高いレイテンシと低い信頼性に苦しむことがよくあります。
この問題に対処するために、UIアクションを介したアプリケーションプログラミングインターフェイス(API)を介してアクションを優先する新しいLLMベースのエージェントフレームワークであるAxisを提案します。
このフレームワークは、アプリケーションの自動調査を通じてAPIの作成と拡張も促進します。
Microsoft Wordの実験は、軸がタスクの完了時間を65%-70%減少させ、認知ワークロードを38%〜53%減らすことを示していますが、人間と比較して97%-98%の精度を維持しています。
私たちの作業は、新しい人間エージェントコンピューターの相互作用(HACI)フレームワークに貢献し、アプリケーションプロバイダーがLLMSの時代にアプリケーションをエージェントに変えるための新鮮なUI設計原則を調査し、エージェント中心のオペレーティングシステム(エージェントOS)に向かう道を開いています。

要約(オリジナル)

Multimodal large language models (MLLMs) have enabled LLM-based agents to directly interact with application user interfaces (UIs), enhancing agents’ performance in complex tasks. However, these agents often suffer from high latency and low reliability due to the extensive sequential UI interactions. To address this issue, we propose AXIS, a novel LLM-based agents framework that prioritize actions through application programming interfaces (APIs) over UI actions. This framework also facilitates the creation and expansion of APIs through automated exploration of applications. Our experiments on Microsoft Word demonstrate that AXIS reduces task completion time by 65%-70% and cognitive workload by 38%-53%, while maintaining accuracy of 97%-98% compared to humans. Our work contributes to a new human-agent-computer interaction (HACI) framework and explores a fresh UI design principle for application providers to turn applications into agents in the era of LLMs, paving the way towards an agent-centric operating system (Agent OS).

arxiv情報

著者 Junting Lu,Zhiyang Zhang,Fangkai Yang,Jue Zhang,Lu Wang,Chao Du,Qingwei Lin,Saravan Rajmohan,Dongmei Zhang,Qi Zhang
発行日 2025-05-19 16:12:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | AXIS: Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents はコメントを受け付けていません

Cross-Cloud Data Privacy Protection: Optimizing Collaborative Mechanisms of AI Systems by Integrating Federated Learning and LLMs

要約

クラウドコンピューティングの時代には、特にクラウド環境全体で機密データを共有する場合、データプライバシー保護が大きな課題となっています。
ただし、クラウド環境全体でコラボレーションを最適化する方法は未解決の問題のままです。
このホワイトペーパーでは、フェデレートラーニングと大規模な言語モデルを組み合わせて、AIシステムの共同メカニズムを最適化します。
既存のフェデレーション学習フレームワークに基づいて、元のデータを公開せずに分散型ノードからモデルの更新を集約することにより、フェデレート学習が機能するクロスクラウドアーキテクチャを紹介します。
同時に、大規模な言語モデルと組み合わせて、その強力なコンテキストとセマンティック理解機能を使用して、モデルトレーニングの効率と意思決定能力を向上させます。
モデルの更新とトレーニングデータのプライバシーと整合性を確保するために、安全な通信レイヤーを導入することにより、さらに革新されました。
このモデルは、さまざまなクラウド環境にわたって継続的なモデル適応と微調整を可能にしながら、機密データを保護します。
実験結果は、提案された方法が、精度、収束速度、データプライバシー保護の観点から、従来の連邦学習モデルよりも大幅に優れていることを示しています。

要約(オリジナル)

In the age of cloud computing, data privacy protection has become a major challenge, especially when sharing sensitive data across cloud environments. However, how to optimize collaboration across cloud environments remains an unresolved problem. In this paper, we combine federated learning with large-scale language models to optimize the collaborative mechanism of AI systems. Based on the existing federated learning framework, we introduce a cross-cloud architecture in which federated learning works by aggregating model updates from decentralized nodes without exposing the original data. At the same time, combined with large-scale language models, its powerful context and semantic understanding capabilities are used to improve model training efficiency and decision-making ability. We’ve further innovated by introducing a secure communication layer to ensure the privacy and integrity of model updates and training data. The model enables continuous model adaptation and fine-tuning across different cloud environments while protecting sensitive data. Experimental results show that the proposed method is significantly better than the traditional federated learning model in terms of accuracy, convergence speed and data privacy protection.

arxiv情報

著者 Huaiying Luo,Cheng Ji
発行日 2025-05-19 16:14:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Cross-Cloud Data Privacy Protection: Optimizing Collaborative Mechanisms of AI Systems by Integrating Federated Learning and LLMs はコメントを受け付けていません

Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space

要約

人間の知性のコアコンポーネントである推論能力は、AGIの追求において、大規模な言語モデル(LLM)に大きな課題をもたらし続けています。
トレーニングスケーリング法の下でモデルのパフォーマンスは向上しましたが、特に壊滅的な忘却や新しいトレーニングデータの利用可能性が限られているなどのトレーニングアルゴリズムに関して、重要な課題が残っています。
別の方法として、テスト時間スケーリングは、パラメーターの更新なしでテスト時間計算を増やすことにより、推論パフォーマンスを向上させます。
トークンスペースに焦点を当てたこのパラダイムの以前の方法とは異なり、より効果的な推論とテスト時間スケーリング法のより良い順守のために潜在スペースを活用することを提案します。
モデルの潜在空間内でテスト時間インスタンスレベルの適応(TTIA)を通じてLLMの推論を強化する新しいフレームワークであるLatenteekを紹介します。
具体的には、LatentSeekはポリシーの勾配を活用して、自己生成された報酬信号に導かれた潜在的な表現を繰り返し更新します。
LaTentEntseekは、複数のLLMアーキテクチャにわたって、GSM8K、MATH-500、AIME2024を含むさまざまな推論ベンチマークで評価されます。
結果は、Latentseekが、考え方の促しや微調整ベースの方法など、強力なベースラインよりも一貫して優れていることを示しています。
さらに、我々の分析は、LatentSeekが非常に効率的であり、通常、平均的な複雑さの問題のいくつかの反復内に収束し、追加の反復の恩恵を受けて、潜在空間でのテスト時間スケーリングの可能性を強調することを示しています。
これらの発見は、LATENTEEKをLLMSの推論能力を強化するための軽量でスケーラブルで効果的なソリューションとして位置付けています。

要約(オリジナル)

Reasoning ability, a core component of human intelligence, continues to pose a significant challenge for Large Language Models (LLMs) in the pursuit of AGI. Although model performance has improved under the training scaling law, significant challenges remain, particularly with respect to training algorithms, such as catastrophic forgetting, and the limited availability of novel training data. As an alternative, test-time scaling enhances reasoning performance by increasing test-time computation without parameter updating. Unlike prior methods in this paradigm focused on token space, we propose leveraging latent space for more effective reasoning and better adherence to the test-time scaling law. We introduce LatentSeek, a novel framework that enhances LLM reasoning through Test-Time Instance-level Adaptation (TTIA) within the model’s latent space. Specifically, LatentSeek leverages policy gradient to iteratively update latent representations, guided by self-generated reward signals. LatentSeek is evaluated on a range of reasoning benchmarks, including GSM8K, MATH-500, and AIME2024, across multiple LLM architectures. Results show that LatentSeek consistently outperforms strong baselines, such as Chain-of-Thought prompting and fine-tuning-based methods. Furthermore, our analysis demonstrates that LatentSeek is highly efficient, typically converging within a few iterations for problems of average complexity, while also benefiting from additional iterations, thereby highlighting the potential of test-time scaling in the latent space. These findings position LatentSeek as a lightweight, scalable, and effective solution for enhancing the reasoning capabilities of LLMs.

arxiv情報

著者 Hengli Li,Chenxi Li,Tong Wu,Xuekai Zhu,Yuxuan Wang,Zhaoxin Yu,Eric Hanchen Jiang,Song-Chun Zhu,Zixia Jia,Ying Nian Wu,Zilong Zheng
発行日 2025-05-19 16:26:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space はコメントを受け付けていません

KHRONOS: a Kernel-Based Neural Architecture for Rapid, Resource-Efficient Scientific Computation

要約

高次元の物理システムの現代モデルは、次元の呪いと密なデータへの依存によって制約されています。
モデルベース、モデルフリー、モデルの反転タスクのAIフレームワークであるKhronos(順序の減少、ニューラル最適化サロゲートのためのカーネル拡張階層)を紹介します。
クロノスは、次元ごとのカーネル拡張の階層構成を備えた連続的に微分可能なターゲットフィールドを構築し、モードに測定されてから重ね合わせます。
クロノスを標準的な2D、ポアソン方程式ベンチマークで評価します:16〜512の自由度(DOFS)にわたって、5E-4のL2平方誤差は6E-10になりました。
これは、パラメーターの数を制御するときに、コルモゴロフアーノルドネットワーク(100倍少ないパラメーターでMLPS/PINNの100倍の改善を報告すること)を超える100回のゲインを表しています。
これは、同等のDOFでの標準線形FEMと比較して、L2平方エラーの1E4倍の改善も表しています。
推論の複雑さは内部製品に支配されており、任意の解像度にスケーリングするサブミリ秒のフルフィールド予測をもたらします。
逆の問題の場合、クロノスは、サンプルのレイテンシあたりサブマイクロ秒で、数回の前方評価でのみ迅速で反復レベルの回復を促進します。
クロノスのスケーラビリティ、表現力、および解釈可能性制約されたエッジコンピューティング、オンライン制御、コンピュータービジョンなどの新しい道を開きます。

要約(オリジナル)

Contemporary models of high dimensional physical systems are constrained by the curse of dimensionality and a reliance on dense data. We introduce KHRONOS (Kernel Expansion Hierarchy for Reduced Order, Neural Optimized Surrogates), an AI framework for model based, model free and model inversion tasks. KHRONOS constructs continuously differentiable target fields with a hierarchical composition of per-dimension kernel expansions, which are tensorized into modes and then superposed. We evaluate KHRONOS on a canonical 2D, Poisson equation benchmark: across 16 to 512 degrees of freedom (DoFs), it obtained L2 square errors of 5e-4 down to 6e-10. This represents a 100 time gain over Kolmogorov Arnold Networks (which itself reports a 100 times improvement on MLPs/PINNs with 100 times fewer parameters) when controlling for the number of parameters. This also represents a 1e4 times improvement in L2 square error compared to standard linear FEM at comparable DoFs. Inference complexity is dominated by inner products, yielding sub-millisecond full-field predictions that scale to an arbitrary resolution. For inverse problems, KHRONOS facilitates rapid, iterative level set recovery in only a few forward evaluations, with sub-microsecond per sample latency. KHRONOS scalability, expressivity, and interpretability open new avenues in constrained edge computing, online control, computer vision, and beyond.

arxiv情報

著者 Reza T. Batley,Sourav Saha
発行日 2025-05-19 16:29:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MS | KHRONOS: a Kernel-Based Neural Architecture for Rapid, Resource-Efficient Scientific Computation はコメントを受け付けていません

What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices

要約

拡張コンテキストウィンドウを使用した大規模な言語モデル(LLMS)の最近の進歩により、情報抽出、質問応答、複雑な計画シナリオなどのタスクが大幅に改善されました。
長いコンテキストタスクで成功を達成するために、合成データを通じてモデルの長いコンテキスト能力を強化するために大量の作業が行われました。
既存の方法は通常、自己インストラクションフレームワークを利用して、より良い長いコンテキスト機能の改善のために命令チューニングデータを生成します。
ただし、私たちの予備実験では、生成されたサンプルの35%未満がマルチホップであり、40%以上が質が低く、包括的な理解とさらなる研究を制限することが示されています。
合成データの品質を改善するために、マルチエージェントインタラクティブマルチホップジェネレーション(MIMG)フレームワークを提案します。品質検証エージェント、シングルホップ質問生成エージェント、複数の質問サンプリング戦略、マルチホップ質問合併エージェントを組み込みます。
このフレームワークは、高品質、マルチホップ、および多様なデータの割合が85%を超える、データ品質を向上させます。
さらに、さまざまなモデルでの広範な実験を通じて、ドキュメント選択、質問の合併、検証手法の戦略を体系的に調査します。
私たちの調査結果は、私たちの合成高品質の長いコンテキスト命令データがモデルのパフォーマンスを大幅に向上させることを示しています。
私たちのコードは、https://github.com/wowcz/longmitで入手できます。

要約(オリジナル)

Recent advancements in large language models (LLMs) with extended context windows have significantly improved tasks such as information extraction, question answering, and complex planning scenarios. In order to achieve success in long context tasks, a large amount of work has been done to enhance the long context capabilities of the model through synthetic data. Existing methods typically utilize the Self-Instruct framework to generate instruction tuning data for better long context capability improvement. However, our preliminary experiments indicate that less than 35% of generated samples are multi-hop, and more than 40% exhibit poor quality, limiting comprehensive understanding and further research. To improve the quality of synthetic data, we propose the Multi-agent Interactive Multi-hop Generation (MIMG) framework, incorporating a Quality Verification Agent, a Single-hop Question Generation Agent, a Multiple Question Sampling Strategy, and a Multi-hop Question Merger Agent. This framework improves the data quality, with the proportion of high-quality, multi-hop, and diverse data exceeding 85%. Furthermore, we systematically investigate strategies for document selection, question merging, and validation techniques through extensive experiments across various models. Our findings show that our synthetic high-quality long-context instruction data significantly enhances model performance, even surpassing models trained on larger amounts of human-annotated data. Our code is available at: https://github.com/WowCZ/LongMIT.

arxiv情報

著者 Zhi Chen,Qiguang Chen,Libo Qin,Qipeng Guo,Haijun Lv,Yicheng Zou,Wanxiang Che,Hang Yan,Kai Chen,Dahua Lin
発行日 2025-05-19 16:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices はコメントを受け付けていません

From What Ifs to Insights: Counterfactuals in Causal Inference vs. Explainable AI

要約

反事実は、因果推論の2つの異なるデータサイエンス分野(CI)と説明可能な人工知能(XAI)で極めて重要な役割を果たします。
反事実の背後にある核となるアイデアは、両方の分野で同じままですが、さまざまな状況下で起こったことの調査 – の使用方法には重要な違いがあります。
CIおよびXAIの反事実の多面的な概念を含む正式な定義を紹介します。
次に、CI対XAIで反事実がどのように使用、評価、生成、および運用されるかについて説明し、概念と実用的な違いを強調します。
2つを比較して対比することにより、CIとXAIを横断する機会を特定したいと考えています。

要約(オリジナル)

Counterfactuals play a pivotal role in the two distinct data science fields of causal inference (CI) and explainable artificial intelligence (XAI). While the core idea behind counterfactuals remains the same in both fields–the examination of what would have happened under different circumstances–there are key differences in how they are used and interpreted. We introduce a formal definition that encompasses the multi-faceted concept of the counterfactual in CI and XAI. We then discuss how counterfactuals are used, evaluated, generated, and operationalized in CI vs. XAI, highlighting conceptual and practical differences. By comparing and contrasting the two, we hope to identify opportunities for cross-fertilization across CI and XAI.

arxiv情報

著者 Galit Shmueli,David Martens,Jaewon Yoo,Travis Greene
発行日 2025-05-19 16:34:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, econ.EM, stat.ME, stat.ML | From What Ifs to Insights: Counterfactuals in Causal Inference vs. Explainable AI はコメントを受け付けていません

Recommender Systems for Democracy: Toward Adversarial Robustness in Voting Advice Applications

要約

投票アドバイスアプリケーション(VAA)は、何百万人もの有権者が、どの政党または候補者が自分の意見に最適なのかを理解するのに役立ちます。
このペーパーでは、これらのアプリケーションが敵対的な実体の標的にした場合、これらのアプリケーションが民主的なプロセスにもたらす潜在的なリスクを調査します。
特に、11の操作戦略を公開し、過去2回の国政選挙で収集されたスイスの主要なVAAであるSmartVoteのデータを使用してその影響を測定します。
マッチング方法などのアプリケーションパラメーターを変更すると、当事者の推奨頻度を最大105%シフトできることがわかります。
チェリーピッキングアンケート項目は、当事者の推奨頻度を261%以上増加させる可能性がありますが、締約国または候補者の回答の微妙な変更により、248%の増加につながる可能性があります。
これらの脆弱性に対処するために、VAASが満足し、さまざまなマッチング方法の回復力を評価するための経験的指標を導入し、操作の影響を緩和するための研究の可能性のある手段を提案する必要があることを提案します。
私たちのフレームワークは、近い将来に出現する準備ができている安全で信頼できるAIベースのVAAを確保するための鍵です。

要約(オリジナル)

Voting advice applications (VAAs) help millions of voters understand which political parties or candidates best align with their views. This paper explores the potential risks these applications pose to the democratic process when targeted by adversarial entities. In particular, we expose 11 manipulation strategies and measure their impact using data from Switzerland’s primary VAA, Smartvote, collected during the last two national elections. We find that altering application parameters, such as the matching method, can shift a party’s recommendation frequency by up to 105%. Cherry-picking questionnaire items can increase party recommendation frequency by over 261%, while subtle changes to parties’ or candidates’ responses can lead to a 248% increase. To address these vulnerabilities, we propose adversarial robustness properties VAAs should satisfy, introduce empirical metrics for assessing the resilience of various matching methods, and suggest possible avenues for research toward mitigating the effect of manipulation. Our framework is key to ensuring secure and reliable AI-based VAAs poised to emerge in the near future.

arxiv情報

著者 Frédéric Berdoz,Dustin Brunner,Yann Vonlanthen,Roger Wattenhofer
発行日 2025-05-19 16:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CY | Recommender Systems for Democracy: Toward Adversarial Robustness in Voting Advice Applications はコメントを受け付けていません

Lost in Transmission: When and Why LLMs Fail to Reason Globally

要約

多くの成功にもかかわらず、トランスベースの大手言語モデル(LLMS)は、入力の大部分にわたって複雑な推論を必要とするタスクと格闘し続けています。
これらの障害は、LLMS内の情報の正確な流れの容量制限のために発生すると主張します。
この問題を正式にするために、Bounded Anterness Prefix Oracle(BAPO)モデルを紹介します。これは、LLMSでの内部通信のメカニズムである注意ヘッドの帯域幅の制約をモデル化する新しい計算フレームワークです。
グラフの到達可能性のようないくつかの重要な推論の問題には、BAPOSが解決するための高い通信帯域幅が必要であることを示します。
これらの問題をbapo-hardと呼びます。
私たちの実験は、私たちの理論的予測を裏付けています:GPT-4O、Claude、およびGeminiはBapo-Easyタスクで成功し、比較的小さなBapoハードタスクでも失敗します。
Baposはまた、Chain of Aching(Cot)の別の利点を明らかにします。Cotを使用してタスクを壊すことで、Bapo-Hardの問題をBapo-Eesyの問題に変えることができることを証明します。
私たちの結果は、主要なLLM障害の原則的な説明を提供し、帯域幅の制限を緩和するアーキテクチャと推論方法の方向を示唆しています。

要約(オリジナル)

Despite their many successes, transformer-based large language models (LLMs) continue to struggle with tasks that require complex reasoning over large parts of their input. We argue that these failures arise due to capacity limits on the accurate flow of information within LLMs. To formalize this issue, we introduce the bounded attention prefix oracle (BAPO) model, a new computational framework that models bandwidth constraints on attention heads, the mechanism for internal communication in LLMs. We show that several important reasoning problems like graph reachability require high communication bandwidth for BAPOs to solve; we call these problems BAPO-hard. Our experiments corroborate our theoretical predictions: GPT-4o, Claude, and Gemini succeed on BAPO-easy tasks and fail even on relatively small BAPO-hard tasks. BAPOs also reveal another benefit of chain of thought (CoT): we prove that breaking down a task using CoT can turn any BAPO-hard problem into a BAPO-easy one. Our results offer principled explanations for key LLM failures and suggest directions for architectures and inference methods that mitigate bandwidth limits.

arxiv情報

著者 Tobias Schnabel,Kiran Tomlinson,Adith Swaminathan,Jennifer Neville
発行日 2025-05-19 16:46:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.FL, cs.LG | Lost in Transmission: When and Why LLMs Fail to Reason Globally はコメントを受け付けていません

Contextual Paralinguistic Data Creation for Multi-Modal Speech-LLM: Data Condensation and Spoken QA Generation

要約

現在の音声-LLMは、主に両方の側面をカバーする質問回答(QA)データセットの欠如のために、麻痺性の理解とともにコンテキストの推論において限られた能力を示します。
コンテキストの推論を麻言語情報と統合する、ワイルド内の音声データからデータセット生成のための新しいフレームワークを提案します。
これは、野生の発話とLLMベースの文脈的パラリング語QA(CPQA)生成の擬似麻痺性ラベルベースのデータ凝縮で構成されています。
有効性は、フレームワークとヒト生成されたCPQAデータセットによって作成されたデータセット上のQWEN2-Audio-7B-Instructモデルの評価における強い相関によって検証されます。
また、この結果は、共感的な推論タスクの処理における音声-LLMの制限を明らかにし、そのようなデータセットとより堅牢なモデルの必要性を強調しています。
提案されたフレームワークは、この種の最初のものであり、麻痺性の推論能力を備えたより堅牢な音声llmをトレーニングする可能性があります。

要約(オリジナル)

Current speech-LLMs exhibit limited capability in contextual reasoning alongside paralinguistic understanding, primarily due to the lack of Question-Answer (QA) datasets that cover both aspects. We propose a novel framework for dataset generation from in-the-wild speech data, that integrates contextual reasoning with paralinguistic information. It consists of a pseudo paralinguistic label-based data condensation of in-the-wild speech and LLM-based Contextual Paralinguistic QA (CPQA) generation. The effectiveness is validated by a strong correlation in evaluations of the Qwen2-Audio-7B-Instruct model on a dataset created by our framework and human-generated CPQA dataset. The results also reveal the speech-LLM’s limitations in handling empathetic reasoning tasks, highlighting the need for such datasets and more robust models. The proposed framework is first of its kind and has potential in training more robust speech-LLMs with paralinguistic reasoning capabilities.

arxiv情報

著者 Qiongqiong Wang,Hardik B. Sailor,Tianchi Liu,Ai Ti Aw
発行日 2025-05-19 16:47:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS | Contextual Paralinguistic Data Creation for Multi-Modal Speech-LLM: Data Condensation and Spoken QA Generation はコメントを受け付けていません

OPA-Pack: Object-Property-Aware Robotic Bin Packing

要約

ロボットビンパッキングは、eコマースや倉庫などの幅広い現実世界のシナリオで支援します。
しかし、既存の作品は、主にオブジェクトの形状を考慮して、梱包のコンパクトさを最適化し、脆弱性、食用性、化学などのオブジェクトの特性を最適化することに焦点を当てています。
このペーパーでは、オブジェクトパッキングの計画にオブジェクトプロパティに関する考慮事項をロボットに装備する最初のフレームワークであるOPA-PACK(Object-Property-Aware Packing Framework)を紹介します。
技術的には、検索された生成と考え方の推論を備えた新しいオブジェクトプロパティ認識スキームを開発し、1,032日のオブジェクトのオブジェクトプロパティアノテーションを使用してデータセットを構築します。
また、互換性のないオブジェクトのペアを共同で分離し、壊れやすいオブジェクトへの圧力を削減しながら、梱包を圧縮していることを目指して、OPA-NETを策定します。
さらに、OPA-NETは、パックマップと梱包されたオブジェクトを追跡するための脆弱性の高さの高さと回避策とともに、詰め込まれる候補オブジェクトのプロパティをエンコードするためのプロパティ埋め込み層で構成されています。
次に、報酬機能を設計し、ディープQラーニングスキームを採用してOPA-NETを訓練します。
実験結果は、OPAパックが互換性のないオブジェクトのペアを分離する(52%から95%)の精度を大幅に改善し、良好な梱包のコンパクトさを維持しながら、脆弱なオブジェクトへの圧力を大幅に低下させます(29.4%)。
また、実際のパッキングプラットフォームでOPA-Packの有効性を示し、実際のシナリオでその実用性を紹介します。

要約(オリジナル)

Robotic bin packing aids in a wide range of real-world scenarios such as e-commerce and warehouses. Yet, existing works focus mainly on considering the shape of objects to optimize packing compactness and neglect object properties such as fragility, edibility, and chemistry that humans typically consider when packing objects. This paper presents OPA-Pack (Object-Property-Aware Packing framework), the first framework that equips the robot with object property considerations in planning the object packing. Technical-wise, we develop a novel object property recognition scheme with retrieval-augmented generation and chain-of-thought reasoning, and build a dataset with object property annotations for 1,032 everyday objects. Also, we formulate OPA-Net, aiming to jointly separate incompatible object pairs and reduce pressure on fragile objects, while compacting the packing. Further, OPA-Net consists of a property embedding layer to encode the property of candidate objects to be packed, together with a fragility heightmap and an avoidance heightmap to keep track of the packed objects. Then, we design a reward function and adopt a deep Q-learning scheme to train OPA-Net. Experimental results manifest that OPA-Pack greatly improves the accuracy of separating incompatible object pairs (from 52% to 95%) and largely reduces pressure on fragile objects (by 29.4%), while maintaining good packing compactness. Besides, we demonstrate the effectiveness of OPA-Pack on a real packing platform, showcasing its practicality in real-world scenarios.

arxiv情報

著者 Jia-Hui Pan,Yeok Tatt Cheah,Zhengzhe Liu,Ka-Hei Hui,Xiaojie Gao,Pheng-Ann Heng,Yun-Hui Liu,Chi-Wing Fu
発行日 2025-05-19 16:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | OPA-Pack: Object-Property-Aware Robotic Bin Packing はコメントを受け付けていません