STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models

要約

与えられた大規模な言語モデル(LLM)が経済的推論を確実に実行できるかどうかをどのように判断すべきですか?
既存のほとんどのLLMベンチマークは、特定のアプリケーションに焦点を当てており、モデルに多様な経済的タスクを豊富に提示できません。
顕著な例外は、Ramanらです。
[2024]、戦略的意思決定を包括的にベンチマークするためのアプローチを提供する。
ただし、このアプローチでは、供給とデマンド分析などのマイクロ経済学で一般的な非戦略的設定に対処することができません。
マイクロ経済の推論を58ドルの異なる要素に分類することにより、このギャップに対処し、供給と需要の論理に焦点を当て、それぞれが最大10ドルの異なるドメイン、5ドルの視点、3ドルの種類に基づいています。
この組み合わせ空間にわたるベンチマークデータの生成は、自動ステアをダビングする新しいLLM支援データ生成プロトコルを搭載しています。これは、手書きテンプレートを新しいドメインと視点をターゲットにすることにより、一連の質問を生成します。
新鮮な質問を生成する自動化された方法を提供するため、Auto-Steerは、LLMが過剰に適合する評価ベンチマークのトレーニングを受けるリスクを軽減します。
したがって、これが今後数年間、モデルを評価し、微調整するための有用なツールとして機能することを願っています。
小さなオープンソースモデルから現在の最新の最新モデルに至るまで、27ドルの$ LLMSのケーススタディを介してベンチマークの有用性を示しています。
各分類法全体でミクロ経済の問題を解決する各モデルの能力を調べ、さまざまな促進戦略とスコアリングメトリックにわたって結果を提示しました。

要約(オリジナル)

How should one judge whether a given large language model (LLM) can reliably perform economic reasoning? Most existing LLM benchmarks focus on specific applications and fail to present the model with a rich variety of economic tasks. A notable exception is Raman et al. [2024], who offer an approach for comprehensively benchmarking strategic decision-making; however, this approach fails to address the non-strategic settings prevalent in microeconomics, such as supply-and-demand analysis. We address this gap by taxonomizing microeconomic reasoning into $58$ distinct elements, focusing on the logic of supply and demand, each grounded in up to $10$ distinct domains, $5$ perspectives, and $3$ types. The generation of benchmark data across this combinatorial space is powered by a novel LLM-assisted data generation protocol that we dub auto-STEER, which generates a set of questions by adapting handwritten templates to target new domains and perspectives. Because it offers an automated way of generating fresh questions, auto-STEER mitigates the risk that LLMs will be trained to over-fit evaluation benchmarks; we thus hope that it will serve as a useful tool both for evaluating and fine-tuning models for years to come. We demonstrate the usefulness of our benchmark via a case study on $27$ LLMs, ranging from small open-source models to the current state of the art. We examined each model’s ability to solve microeconomic problems across our whole taxonomy and present the results across a range of prompting strategies and scoring metrics.

arxiv情報

著者 Narun Raman,Taylor Lundy,Thiago Amin,Jesse Perla,Kevin Leyton-Brown
発行日 2025-02-19 02:54:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models はコメントを受け付けていません

LLMPopcorn: An Empirical Study of LLMs as Assistants for Popular Micro-video Generation

要約

TiktokやYouTubeなどのプラットフォームで支配的な人気のあるマイクロバイデスは、大きな商業的価値を保持しています。
高品質のAI生成コンテンツの上昇は、AI駆動型のマイクロビデオ作成への関心を促進しました。
ただし、CHATGPTやText Generationと推論のDeepSeekなどの大規模な言語モデル(LLM)の高度な機能にもかかわらず、人気のあるマイクロビデオの作成を支援する可能性はほとんどありません。
この論文では、LLM支援の人気のあるマイクロビデオジェネレーション(LLMPopcorn)に関する実証研究を実施しています。
具体的には、次の研究質問を調査します。(i)LLMSをどのようにして効果的に利用して、一般的なマイクロビデオ生成を支援できますか?
(ii)より高い人気のために、迅速なベースの拡張機能がLLM生成コンテンツを最適化することができる程度まで?
(iii)さまざまなLLMやビデオジェネレーターが、人気のあるマイクロビデオ生成タスクでどの程度うまく機能していますか?
これらの質問を調査することにより、DeepSeek-V3のような高度なLLMがマイクロビデオ生成を可能にし、人間が作成したコンテンツに匹敵する人気を達成できることを示します。
迅速な拡張により、人気がさらに高まり、ベンチマークはLLMSでDeepSeek-V3とDeepSeek-R1を強調し、LTX-VideoとHunyuanvideoはビデオ生成でリードしています。
この先駆的な仕事は、AIアシストされたマイクロビデオの作成を進め、新しい研究の機会を明らかにします。
将来の研究をサポートするために、コードとデータセットをリリースします。

要約(オリジナル)

Popular Micro-videos, dominant on platforms like TikTok and YouTube, hold significant commercial value. The rise of high-quality AI-generated content has spurred interest in AI-driven micro-video creation. However, despite the advanced capabilities of large language models (LLMs) like ChatGPT and DeepSeek in text generation and reasoning, their potential to assist the creation of popular micro-videos remains largely unexplored. In this paper, we conduct an empirical study on LLM-assisted popular micro-video generation (LLMPopcorn). Specifically, we investigate the following research questions: (i) How can LLMs be effectively utilized to assist popular micro-video generation? (ii) To what extent can prompt-based enhancements optimize the LLM-generated content for higher popularity? (iii) How well do various LLMs and video generators perform in the popular micro-video generation task? By exploring these questions, we show that advanced LLMs like DeepSeek-V3 enable micro-video generation to achieve popularity comparable to human-created content. Prompt enhancements further boost popularity, and benchmarking highlights DeepSeek-V3 and DeepSeek-R1 among LLMs, while LTX-Video and HunyuanVideo lead in video generation. This pioneering work advances AI-assisted micro-video creation, uncovering new research opportunities. We will release the code and datasets to support future studies.

arxiv情報

著者 Junchen Fu,Xuri Ge,Kaiwen Zheng,Ioannis Arapakis,Xin Xin,Joemon M. Jose
発行日 2025-02-19 02:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | LLMPopcorn: An Empirical Study of LLMs as Assistants for Popular Micro-video Generation はコメントを受け付けていません

Improving Grip Stability Using Passive Compliant Microspine Arrays for Soft Robots in Unstructured Terrain

要約

マイクロピングリッパーは、asper延しているためにせん断力と牽引力を高めることにより、表面相互作用を強化する昆虫の脚によく見られる小さな棘です。
このようなマイクロスピンの配列は、ロボットの手足または覆面に統合された場合、不均一な地形を操縦し、傾斜を横断し、さらには壁を登る能力を提供します。
ソフトロボットの適合性と適応性により、複雑で非構造化された地形の横断を含むこれらのアプリケーションの理想的な候補になります。
ただし、マイクロスピンの効果的な統合を通じてグリップの安定性を改善することにより、制御されたラボ環境からフィールドへの移行に関連するソフトロコモーターには、実生活の実現ギャップが残っています。
私たちは、モバイルソフトロボットの移動能力を強化するために、パッシブで準拠したマイクロスピン積み重ねられたアレイ設計を提案します。私たちの場合、運動腱が作動するものです。
効果的なソフトに準拠した剛性統合を備えた標準化されたマイクロスピンアレイ統合方法を提供し、それらを受動的に制御する単一のアクチュエーターから生じる複雑さを減らします。
提示されたデザインは、より頻繁にアクティブな一番下の列の有効性を妨げない一方で、非常に急な/不規則な表面に追加のグリップ機能を提供する2列の積み重ねられたマイクロピンアレイ構成を利用します。
マイクロスピンアレイのさまざまな構成を調査して、表面トポロジの変化を説明し、マイクロスピンあたりのアスペリティの独立した適応性のある把持を可能にします。
コンクリート、レンガ、コンパクトサンド、樹木の根を含むさまざまな粗い表面でフィールドテスト実験は、マイクロスピンアレイの異なる組み合わせを持つ2つのロボットと比較したマイクロスピンのないベースラインで構成される3つのロボットで構成される3つのロボットを含む樹木の根で行われます。
追跡結果は、ミクロピンアレイを含めると平均的な変位が平均して15倍および8倍増加することを示しています。

要約(オリジナル)

Microspine grippers are small spines commonly found on insect legs that reinforce surface interaction by engaging with asperities to increase shear force and traction. An array of such microspines, when integrated into the limbs or undercarriage of a robot, can provide the ability to maneuver uneven terrains, traverse inclines, and even climb walls. Conformability and adaptability of soft robots makes them ideal candidates for these applications involving traversal of complex, unstructured terrains. However, there remains a real-life realization gap for soft locomotors pertaining to their transition from controlled lab environment to the field by improving grip stability through effective integration of microspines. We propose a passive, compliant microspine stacked array design to enhance the locomotion capabilities of mobile soft robots, in our case, ones that are motor tendon actuated. We offer a standardized microspine array integration method with effective soft-compliant stiffness integration, and reduced complexity resulting from a single actuator passively controlling them. The presented design utilizes a two-row, stacked microspine array configuration that offers additional gripping capabilities on extremely steep/irregular surfaces from the top row while not hindering the effectiveness of the more frequently active bottom row. We explore different configurations of the microspine array to account for changing surface topologies and enable independent, adaptable gripping of asperities per microspine. Field test experiments are conducted on various rough surfaces including concrete, brick, compact sand, and tree roots with three robots consisting of a baseline without microspines compared against two robots with different combinations of microspine arrays. Tracking results indicate that the inclusion of microspine arrays increases planar displacement on average by 15 and 8 times.

arxiv情報

著者 Lauren Ervin,Harish Bezawada,Vishesh Vikas
発行日 2025-02-17 22:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Improving Grip Stability Using Passive Compliant Microspine Arrays for Soft Robots in Unstructured Terrain はコメントを受け付けていません

Hovering Flight of Soft-Actuated Insect-Scale Micro Aerial Vehicles using Deep Reinforcement Learning

要約

柔らかい昆虫スケールのマイクロ空中車両(IMAVS)は、堅牢で計算効率の良いコントローラーを設計するためのユニークな課題をもたらします。
ミリメートルスケールでは、高速ロボットダイナミクス($ \ sim $ ms)とシステムの遅延、モデルの不確実性、および外乱が飛行パフォーマンスに大きく影響します。
ここでは、システムの遅延と不確実性に対処する深い強化学習(RL)コントローラーを設計します。
このニューラルネットワーク(NN)コントローラーを初期化するために、不確実性に取り組むために遅延とドメインランダム化の専門家のデモを説明するために、状態アクションの再マッチングを備えた修正された動作クローニング(BC)アプローチを提案します。
次に、近位ポリシー最適化(PPO)を適用して、RL中にポリシーを微調整し、パフォーマンスとスムージングコマンドを強化します。
シミュレーションでは、変更されたBCは、ベースラインBCと比較して平均報酬を大幅に増加させます。
PPOを使用してRLは飛行品質を向上させ、コマンドの変動を減らします。
このコントローラーは、それぞれ720 mgと850 mgの重量がある2つの異なる昆虫スケールの空中ロボットに展開します。
ロボットは複数の成功したゼロショットホバリングフライトを実証し、最長50秒、横方向に1.34 cm、高度は0.05 cmのルート平均平方根エラーを示し、最初のエンドツーエンドのディープRLベースのフライトをマークします
ソフト駆動型のIMAV。

要約(オリジナル)

Soft-actuated insect-scale micro aerial vehicles (IMAVs) pose unique challenges for designing robust and computationally efficient controllers. At the millimeter scale, fast robot dynamics ($\sim$ms), together with system delay, model uncertainty, and external disturbances significantly affect flight performances. Here, we design a deep reinforcement learning (RL) controller that addresses system delay and uncertainties. To initialize this neural network (NN) controller, we propose a modified behavior cloning (BC) approach with state-action re-matching to account for delay and domain-randomized expert demonstration to tackle uncertainty. Then we apply proximal policy optimization (PPO) to fine-tune the policy during RL, enhancing performance and smoothing commands. In simulations, our modified BC substantially increases the mean reward compared to baseline BC; and RL with PPO improves flight quality and reduces command fluctuations. We deploy this controller on two different insect-scale aerial robots that weigh 720 mg and 850 mg, respectively. The robots demonstrate multiple successful zero-shot hovering flights, with the longest lasting 50 seconds and root-mean-square errors of 1.34 cm in lateral direction and 0.05 cm in altitude, marking the first end-to-end deep RL-based flight on soft-driven IMAVs.

arxiv情報

著者 Yi-Hsuan Hsiao,Wei-Tung Chen,Yun-Sheng Chang,Pulkit Agrawal,YuFeng Chen
発行日 2025-02-17 22:45:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Hovering Flight of Soft-Actuated Insect-Scale Micro Aerial Vehicles using Deep Reinforcement Learning はコメントを受け付けていません

IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation

要約

模倣学習の最近の進歩、特に拡散などの生成モデリング手法を使用して、ポリシーが複雑なマルチモーダルアクション分布をキャプチャできるようになりました。
ただし、これらの方法では、多くの場合、アクション生成のための大きなデータセットと複数の推論ステップが必要であり、データ収集のコストが高く、計算リソースが限られているロボット工学の課題を提起します。
これに対処するために、暗黙の最尤推定(IMLE)に基づいた新しい行動クローンアプローチであるIMLEポリシーを紹介します。
IMLEポリシーは、低データ体制で優れており、最小限のデモンストレーションから効果的に学習し、複雑なマルチモーダル行動の学習におけるベースラインメソッドのパフォーマンスに合わせて平均38%少ないデータを必要とします。
そのシンプルなジェネレーターベースのアーキテクチャにより、シングルステップのアクション生成が可能になり、拡散ポリシーと比較して97.3 \%の推論速度が改善され、単一ステップのフローマッチングを上回ります。
シミュレートされた環境と実際の環境での多様な操作タスク全体でアプローチを検証し、データ制約の下で複雑な動作をキャプチャする能力を示します。
ビデオとコードは、プロジェクトページhttps://imle-policy.github.io/で提供されています。

要約(オリジナル)

Recent advances in imitation learning, particularly using generative modelling techniques like diffusion, have enabled policies to capture complex multi-modal action distributions. However, these methods often require large datasets and multiple inference steps for action generation, posing challenges in robotics where the cost for data collection is high and computation resources are limited. To address this, we introduce IMLE Policy, a novel behaviour cloning approach based on Implicit Maximum Likelihood Estimation (IMLE). IMLE Policy excels in low-data regimes, effectively learning from minimal demonstrations and requiring 38\% less data on average to match the performance of baseline methods in learning complex multi-modal behaviours. Its simple generator-based architecture enables single-step action generation, improving inference speed by 97.3\% compared to Diffusion Policy, while outperforming single-step Flow Matching. We validate our approach across diverse manipulation tasks in simulated and real-world environments, showcasing its ability to capture complex behaviours under data constraints. Videos and code are provided on our project page: https://imle-policy.github.io/.

arxiv情報

著者 Krishan Rana,Robert Lee,David Pershouse,Niko Suenderhauf
発行日 2025-02-17 23:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation はコメントを受け付けていません

Soft Robotics for Search and Rescue: Advancements, Challenges, and Future Directions

要約

ソフトロボット工学は、Search and Rescue(SAR)の運用における変革的な技術として浮上しており、従来の剛性ロボットをしばしば制限する複雑で危険な環境をナビゲートする際の課題に対処しています。
このペーパーでは、SARアプリケーションに合わせたソフトロボットテクノロジーの進歩を批判的に検証し、適応性、安全性、効率における独自の機能に焦点を当てています。
バイオ風のデザイン、柔軟な材料、およびクロール、ローリング、形状のモーフィングなどの高度な移動メカニズムを活用することにより、ソフトロボットは災害シナリオで例外的な可能性を示しています。
ただし、材料の耐久性、電力の非効率性、センサーの統合、制御の複雑さなど、重要な障壁が続きます。
この包括的なレビューは、SARのソフトロボット工学の現在の状態を強調し、シミュレーション方法論とハードウェアの検証について説明し、評価に不可欠なパフォーマンスメトリックを導入します。
理論的進歩と実際の展開との間のギャップを埋めることにより、この研究は、既存の制限を克服するために、SARミッションと継続的な学際的革新のためのSARミッションと支持者に革命をもたらすソフトロボットシステムの可能性を強調しています。

要約(オリジナル)

Soft robotics has emerged as a transformative technology in Search and Rescue (SAR) operations, addressing challenges in navigating complex, hazardous environments that often limit traditional rigid robots. This paper critically examines advancements in soft robotic technologies tailored for SAR applications, focusing on their unique capabilities in adaptability, safety, and efficiency. By leveraging bio-inspired designs, flexible materials, and advanced locomotion mechanisms, such as crawling, rolling, and shape morphing, soft robots demonstrate exceptional potential in disaster scenarios. However, significant barriers persist, including material durability, power inefficiency, sensor integration, and control complexity. This comprehensive review highlights the current state of soft robotics in SAR, discusses simulation methodologies and hardware validations, and introduces performance metrics essential for their evaluation. By bridging the gap between theoretical advancements and practical deployment, this study underscores the potential of soft robotic systems to revolutionize SAR missions and advocates for continued interdisciplinary innovation to overcome existing limitations.

arxiv情報

著者 Abhishek Sebastian
発行日 2025-02-17 23:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Soft Robotics for Search and Rescue: Advancements, Challenges, and Future Directions はコメントを受け付けていません

ETGL-DDPG: A Deep Deterministic Policy Gradient Algorithm for Sparse Reward Continuous Control

要約

まばらな報酬を伴う強化学習の文脈において、深い決定論的政策勾配(DDPG)を検討します。
探索を強化するために、検索手順\ emph {$ {\ epsilon} {t} $ – greedy}を紹介します。
$ \ epsilon t $ greedyを使用した検索には、軽度のMDP仮定の下で多項式サンプルの複雑さがあることが証明されています。
報酬を与えられた遷移によって提供される情報をより効率的に使用するために、新しいデュアルエクスペリエンスリプレイバッファフレームワーク、\ emph {gdrb}を開発し、\ empond {最も長いn-stepリターン}を実装します。
結果のアルゴリズム、\ emphing {etgl-ddpg}は、3つの手法すべてを統合します:\ bm {$ \ epsilon t $} – 貪欲、\ textbf {g} drb、および\ textbf {l} onegest $ n $ -step、
DDPG。
標準ベンチマークでETGL-DDPGを評価し、すべてのテストされたスパースリワード連続環境でDDPGやその他の最先端の方法よりも優れていることを実証します。
アブレーション研究は、各戦略がこの設定でのDDPGのパフォーマンスを個別に強化する方法をさらに強調しています。

要約(オリジナル)

We consider deep deterministic policy gradient (DDPG) in the context of reinforcement learning with sparse rewards. To enhance exploration, we introduce a search procedure, \emph{${\epsilon}{t}$-greedy}, which generates exploratory options for exploring less-visited states. We prove that search using $\epsilon t$-greedy has polynomial sample complexity under mild MDP assumptions. To more efficiently use the information provided by rewarded transitions, we develop a new dual experience replay buffer framework, \emph{GDRB}, and implement \emph{longest n-step returns}. The resulting algorithm, \emph{ETGL-DDPG}, integrates all three techniques: \bm{$\epsilon t$}-greedy, \textbf{G}DRB, and \textbf{L}ongest $n$-step, into DDPG. We evaluate ETGL-DDPG on standard benchmarks and demonstrate that it outperforms DDPG, as well as other state-of-the-art methods, across all tested sparse-reward continuous environments. Ablation studies further highlight how each strategy individually enhances the performance of DDPG in this setting.

arxiv情報

著者 Ehsan Futuhi,Shayan Karimi,Chao Gao,Martin Müller
発行日 2025-02-17 23:39:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, stat.ML | ETGL-DDPG: A Deep Deterministic Policy Gradient Algorithm for Sparse Reward Continuous Control はコメントを受け付けていません

SEAL: Towards Safe Autonomous Driving via Skill-Enabled Adversary Learning for Closed-Loop Scenario Generation

要約

自律運転(AD)システムとコンポーネントの検証と検証は、現実世界の有病率の増加が増加するため、重要性が高まっています。
安全性の高いシナリオ生成は、閉ループトレーニングを通じて広告ポリシーを堅牢にするための重要なアプローチです。
ただし、シナリオ生成の既存のアプローチは単純な目標に依存しており、過度に攻撃的または非反応性のある敵対的行動をもたらします。
多様な敵対的でありながら現実的なシナリオを生成するために、客観的な機能と敵対的で人間のようなスキルを活用するシナリオ摂動アプローチであるシールを提案します。
シールされたシナリオは、SOTAベースラインよりも現実的であり、20%以上の現実世界、分散型、および分散型シナリオ全体でエゴタスクの成功を改善します。
将来の研究を促進するために、コードとツールをリリースします:https://github.com/cmubig/seal

要約(オリジナル)

Verification and validation of autonomous driving (AD) systems and components is of increasing importance, as such technology increases in real-world prevalence. Safety-critical scenario generation is a key approach to robustify AD policies through closed-loop training. However, existing approaches for scenario generation rely on simplistic objectives, resulting in overly-aggressive or non-reactive adversarial behaviors. To generate diverse adversarial yet realistic scenarios, we propose SEAL, a scenario perturbation approach which leverages learned objective functions and adversarial, human-like skills. SEAL-perturbed scenarios are more realistic than SOTA baselines, leading to improved ego task success across real-world, in-distribution, and out-of-distribution scenarios, of more than 20%. To facilitate future research, we release our code and tools: https://github.com/cmubig/SEAL

arxiv情報

著者 Benjamin Stoler,Ingrid Navarro,Jonathan Francis,Jean Oh
発行日 2025-02-17 23:48:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | SEAL: Towards Safe Autonomous Driving via Skill-Enabled Adversary Learning for Closed-Loop Scenario Generation はコメントを受け付けていません

Sensing-based Robustness Challenges in Agricultural Robotic Harvesting

要約

このペーパーでは、さまざまな環境障害の下で果物を検出およびローカライズする際に農業ロボットハーベイターが直面する課題を紹介します。
制御された実験室の設定では、従来のHSV(色相飽和値)変換とYolov8(1回しか見ていない)の深い学習モデルの両方が採用されました。
ただし、HSVの変換は果物の輪郭を正確に描くことができなかったため、Yolov8のみが屋外実験で利用されました。
実験には、6つのリンゴと6つのオレンジを備えた10の異なる果物パターンが含まれます。
ホモグラフィー(展望)変換のグリッド構造が使用され、検出された中間点を3D世界座標に変換しました。
この実験では、さまざまな照明や背景障害の下での検出と局在を評価し、屋内で正確なパフォーマンスを明らかにしましたが、屋外での重要な課題があります。
我々の結果は、Yolov8を使用した屋内実験が100%の検出精度を達成し、屋外条件がパフォーマンスを低下させ、直射日光下のYolov8の平均精度は69.15%であることを示しています。
この研究は、現実世界のアプリケーションが、照明の変化、背景障害、色と形状のばらつきの変化による大きな制限を明らかにすることを示しています。
これらの調査結果は、農業用のロボットハーベスターの堅牢性を高めるために、アルゴリズムとセンサーのさらなる改良の必要性を強調しています。

要約(オリジナル)

This paper presents the challenges agricultural robotic harvesters face in detecting and localising fruits under various environmental disturbances. In controlled laboratory settings, both the traditional HSV (Hue Saturation Value) transformation and the YOLOv8 (You Only Look Once) deep learning model were employed. However, only YOLOv8 was utilised in outdoor experiments, as the HSV transformation was not capable of accurately drawing fruit contours. Experiments include ten distinct fruit patterns with six apples and six oranges. A grid structure for homography (perspective) transformation was employed to convert detected midpoints into 3D world coordinates. The experiments evaluated detection and localisation under varying lighting and background disturbances, revealing accurate performance indoors, but significant challenges outdoors. Our results show that indoor experiments using YOLOv8 achieved 100% detection accuracy, while outdoor conditions decreased performance, with an average accuracy of 69.15% for YOLOv8 under direct sunlight. The study demonstrates that real-world applications reveal significant limitations due to changing lighting, background disturbances, and colour and shape variability. These findings underscore the need for further refinement of algorithms and sensors to enhance the robustness of robotic harvesters for agricultural use.

arxiv情報

著者 C. Beldek,J. Cunningham,M. Aydin,E. Sariyildiz,S. L. Phung,G. Alici
発行日 2025-02-18 00:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Sensing-based Robustness Challenges in Agricultural Robotic Harvesting はコメントを受け付けていません

Multi-vision-based Picking Point Localisation of Target Fruit for Harvesting Robots

要約

このペーパーでは、ロボットを収穫するためのマルチビジョンベースのローカリゼーション戦略を紹介します。
不安定な把握が果物の損傷や減少を通じて経済的損失につながる可能性があるため、ピッキングポイントを正確に特定することは不可欠です。
この研究では、2つのマルチビジョンベースのローカリゼーション方法、つまり分析アプローチとモデルベースのアルゴリズムが採用されました。
フルーツの実際の幾何学的中心点は、モーションキャプチャシステム(MOCAP)を使用して収集され、2つの異なる表面点CFIXとCEIHを2つの赤緑色の青床(RGB-D)カメラを使用して抽出しました。
最初に、ターゲットフルーツのピッキングポイントは、分析方法を使用して検出されました。
第二に、表面点を入力として取得することにより、ターゲット果物の幾何学的中心を予測するために、さまざまなプライマリおよびアンサンブル学習方法が採用されました。
最も成功したモデルベースのローカリゼーションアルゴリズムであるAdaboost Regressionは、平均ユークリッド距離(MED)4.40 mmで88.8%の収穫精度を達成しましたが、分析的アプローチは14.25 mmのMEDで81.4%のピッキング成功に達しました。
シングルカメラは、24.02 mmのMEDで77.7%のピッキング成功率がありました。
果物の収集におけるポイントの精度をピッキングする効果を評価するために、共同ロボット(コボット)を使用して一連のロボット収穫実験を実行しました。
マルチビジョンシステムは、ピッキングポイントのローカリゼーションを改善し、ロボット収穫でのピッキングの成功率が高くなることが示されています。

要約(オリジナル)

This paper presents multi-vision-based localisation strategies for harvesting robots. Identifying picking points accurately is essential for robotic harvesting because insecure grasping can lead to economic loss through fruit damage and dropping. In this study, two multi-vision-based localisation methods, namely the analytical approach and model-based algorithms, were employed. The actual geometric centre points of fruits were collected using a motion capture system (mocap), and two different surface points Cfix and Ceih were extracted using two Red-Green-Blue-Depth (RGB-D) cameras. First, the picking points of the target fruit were detected using analytical methods. Second, various primary and ensemble learning methods were employed to predict the geometric centre of target fruits by taking surface points as input. Adaboost regression, the most successful model-based localisation algorithm, achieved 88.8% harvesting accuracy with a Mean Euclidean Distance (MED) of 4.40 mm, while the analytical approach reached 81.4% picking success with a MED of 14.25 mm, both demonstrating better performance than the single-camera, which had a picking success rate of 77.7% with a MED of 24.02 mm. To evaluate the effect of picking point accuracy in collecting fruits, a series of robotic harvesting experiments were performed utilising a collaborative robot (cobot). It is shown that multi-vision systems can improve picking point localisation, resulting in higher success rates of picking in robotic harvesting.

arxiv情報

著者 C. Beldek,A. Dunn,J. Cunningham,E. Sariyildiz,S. L. Phung,G. Alici
発行日 2025-02-18 00:40:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Multi-vision-based Picking Point Localisation of Target Fruit for Harvesting Robots はコメントを受け付けていません