CDAN: Convolutional dense attention-guided network for low-light image enhancement

要約

照明が不十分であることを特徴とする低照度画像は、明瞭さの低下、色調の鈍化、詳細の低下という課題を引き起こします。
コンピューター ビジョンにおける重要なタスクである低照度画像の強調は、明るさ、コントラスト、全体的な知覚品質を改善することでこれらの問題を修正し、それによって正確な分析と解釈を容易にすることを目的としています。
このペーパーでは、低照度画像を強化するための新しいソリューションである畳み込み密注意誘導ネットワーク (CDAN) を紹介します。
CDAN は、オートエンコーダ ベースのアーキテクチャを畳み込みブロックと高密度ブロックと統合し、アテンション メカニズムとスキップ接続によって補完されます。
このアーキテクチャにより、効率的な情報伝達と機能学習が保証されます。
さらに、専用の後処理フェーズにより、カラーバランスとコントラストが洗練されます。
私たちのアプローチは、低照度画像強調における最先端の結果と比較して顕著な進歩を示し、幅広い困難なシナリオにわたってその堅牢性を示しています。
私たちのモデルは、ベンチマーク データセットで顕著なパフォーマンスを発揮し、露出不足を効果的に軽減し、さまざまな低照度のシナリオでテクスチャと色を適切に復元します。
この成果は、多様なコンピュータ ビジョン タスクに対する CDAN の可能性を強調し、特に困難な低照度条件下での堅牢な物体検出と認識を可能にします。

要約(オリジナル)

Low-light images, characterized by inadequate illumination, pose challenges of diminished clarity, muted colors, and reduced details. Low-light image enhancement, an essential task in computer vision, aims to rectify these issues by improving brightness, contrast, and overall perceptual quality, thereby facilitating accurate analysis and interpretation. This paper introduces the Convolutional Dense Attention-guided Network (CDAN), a novel solution for enhancing low-light images. CDAN integrates an autoencoder-based architecture with convolutional and dense blocks, complemented by an attention mechanism and skip connections. This architecture ensures efficient information propagation and feature learning. Furthermore, a dedicated post-processing phase refines color balance and contrast. Our approach demonstrates notable progress compared to state-of-the-art results in low-light image enhancement, showcasing its robustness across a wide range of challenging scenarios. Our model performs remarkably on benchmark datasets, effectively mitigating under-exposure and proficiently restoring textures and colors in diverse low-light scenarios. This achievement underscores CDAN’s potential for diverse computer vision tasks, notably enabling robust object detection and recognition in challenging low-light conditions.

arxiv情報

著者 Hossein Shakibania,Sina Raoufi,Hassan Khotanlou
発行日 2024-10-11 17:12:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

A Feature Generator for Few-Shot Learning

要約

フューショット学習 (FSL) は、限定されたラベル付きデータを使用してモデルが新しいオブジェクトまたはクラスを認識できるようにすることを目的としています。
新しいデータ ポイントを合成して限られたデータセットを強化する特徴ジェネレーターが、この課題に対する有望なソリューションとして浮上しています。
このペーパーでは、FSL タスクの埋め込みプロセスを強化する際の特徴ジェネレーターの有効性を調査します。
クラスごとの画像の不足による不正確な埋め込みの問題に対処するために、クラスレベルのテキスト記述から視覚的な特徴を作成する特徴ジェネレーターを導入します。
分類器損失、弁別器損失、および生成された特徴と真のクラス埋め込みの間の距離損失の組み合わせを使用してジェネレーターをトレーニングすることにより、正確な同じクラス特徴の生成が保証され、全体的な特徴表現が強化されます。
私たちの結果は、ベースライン手法と比べて精度が大幅に向上していることを示しており、私たちのアプローチはベースライン モデルを 1 ショット アプローチで 10%、5 ショット アプローチで約 5% 上回っています。
さらに、この文書では、ビジュアルのみのジェネレーターとビジュアル + テキストのジェネレーターの両方もテストされました。
コードは https://github.com/heethanjan/Feature-Generator-for-FSL で公開されています。

要約(オリジナル)

Few-shot learning (FSL) aims to enable models to recognize novel objects or classes with limited labelled data. Feature generators, which synthesize new data points to augment limited datasets, have emerged as a promising solution to this challenge. This paper investigates the effectiveness of feature generators in enhancing the embedding process for FSL tasks. To address the issue of inaccurate embeddings due to the scarcity of images per class, we introduce a feature generator that creates visual features from class-level textual descriptions. By training the generator with a combination of classifier loss, discriminator loss, and distance loss between the generated features and true class embeddings, we ensure the generation of accurate same-class features and enhance the overall feature representation. Our results show a significant improvement in accuracy over baseline methods, with our approach outperforming the baseline model by 10% in 1-shot and around 5% in 5-shot approaches. Additionally, both visual-only and visual + textual generators have also been tested in this paper. The code is publicly available at https://github.com/heethanjan/Feature-Generator-for-FSL.

arxiv情報

著者 Heethanjan Kanagalingam,Thenukan Pathmanathan,Navaneethan Ketheeswaran,Mokeeshan Vathanakumar,Mohamed Afham,Ranga Rodrigo
発行日 2024-10-11 17:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

DA-Ada: Learning Domain-Aware Adapter for Domain Adaptive Object Detection

要約

ドメイン適応型オブジェクト検出 (DAOD) は、アノテーション付きのソース ドメインでトレーニングされた検出器をラベルのないターゲット ドメインに一般化することを目的としています。
ビジュアル言語モデル (VLM) は、目に見えない画像に関する重要な一般知識を提供できるため、ビジュアル エンコーダーをフリーズしてドメイン非依存アダプターを挿入することで、DAOD のドメイン不変の知識を学習できます。
ただし、ドメインに依存しないアダプターは、必然的にソース ドメインに偏ります。
ラベルのないドメインを識別するいくつかの有益な知識、つまり、ターゲット ドメインのドメイン固有の知識が破棄されます。
この問題を解決するために、DAOD タスクに合わせた新しいドメイン認識アダプター (DA-Ada) を提案します。
重要な点は、必須の一般知識とドメイン不変の知識の間のドメイン固有の知識を活用することです。
DA-Ada は、ドメイン不変知識を学習するドメイン不変アダプター (DIA) と、ビジュアル エンコーダーによって破棄された情報からドメイン固有知識を注入するドメイン固有アダプター (DSA) で構成されます。
複数の DAOD タスクにわたる包括的な実験により、DA-Ada がドメイン適応型オブジェクト検出を強化するためのドメイン対応ビジュアル エンコーダーを効率的に推論できることがわかりました。
私たちのコードは https://github.com/Therock90421/DA-Ada で入手できます。

要約(オリジナル)

Domain adaptive object detection (DAOD) aims to generalize detectors trained on an annotated source domain to an unlabelled target domain. As the visual-language models (VLMs) can provide essential general knowledge on unseen images, freezing the visual encoder and inserting a domain-agnostic adapter can learn domain-invariant knowledge for DAOD. However, the domain-agnostic adapter is inevitably biased to the source domain. It discards some beneficial knowledge discriminative on the unlabelled domain, i.e., domain-specific knowledge of the target domain. To solve the issue, we propose a novel Domain-Aware Adapter (DA-Ada) tailored for the DAOD task. The key point is exploiting domain-specific knowledge between the essential general knowledge and domain-invariant knowledge. DA-Ada consists of the Domain-Invariant Adapter (DIA) for learning domain-invariant knowledge and the Domain-Specific Adapter (DSA) for injecting the domain-specific knowledge from the information discarded by the visual encoder. Comprehensive experiments over multiple DAOD tasks show that DA-Ada can efficiently infer a domain-aware visual encoder for boosting domain adaptive object detection. Our code is available at https://github.com/Therock90421/DA-Ada.

arxiv情報

著者 Haochen Li,Rui Zhang,Hantao Yao,Xin Zhang,Yifan Hao,Xinkai Song,Xiaqing Li,Yongwei Zhao,Ling Li,Yunji Chen
発行日 2024-10-11 17:20:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

要約

テキストの説明から高品質の 3D アセットを生成することは、コンピューター グラフィックスとビジョンの研究において依然として極めて重要な課題です。
3D データが不足しているため、最先端のアプローチでは、スコア蒸留サンプリング (SDS) を通じて最適化された、事前にトレーニングされた 2D 拡散事前分布が利用されます。
進歩にもかかわらず、複数のオブジェクトや複雑なインタラクションを特徴とする複雑な 3D シーンを作成することは依然として困難です。
これに取り組むために、最近の手法にはボックスまたはレイアウトのガイダンスが組み込まれています。
ただし、これらのレイアウトに基づいた構成方法は、一般に粗くて表現力に欠けるため、きめ細かい制御を提供するのに苦労することがよくあります。
これらの課題を克服するために、構成テキストから 3D への生成の表現力と精度を効果的に向上させるように設計された、新しい SDS アプローチであるセマンティック スコア蒸留サンプリング (SemanticSDS) を導入します。
私たちのアプローチは、さまざまなレンダリング ビュー間で一貫性を維持し、さまざまなオブジェクトとパーツを明確に区別する新しいセマンティック埋め込みを統合します。
これらの埋め込みは、領域固有の SDS プロセスを指示するセマンティック マップに変換され、正確な最適化と構成生成が可能になります。
明示的なセマンティック ガイダンスを活用することで、私たちの方法は既存の事前トレーニングされた拡散モデルの合成機能を解放し、それによって特に複雑なオブジェクトやシーンの 3D コンテンツ生成で優れた品質を実現します。
実験結果は、当社の SemanticSDS フレームワークが最先端の複雑な 3D コンテンツの生成に非常に効果的であることを示しています。
コード: https://github.com/YangLing0818/SemanticSDS-3D

要約(オリジナル)

Generating high-quality 3D assets from textual descriptions remains a pivotal challenge in computer graphics and vision research. Due to the scarcity of 3D data, state-of-the-art approaches utilize pre-trained 2D diffusion priors, optimized through Score Distillation Sampling (SDS). Despite progress, crafting complex 3D scenes featuring multiple objects or intricate interactions is still difficult. To tackle this, recent methods have incorporated box or layout guidance. However, these layout-guided compositional methods often struggle to provide fine-grained control, as they are generally coarse and lack expressiveness. To overcome these challenges, we introduce a novel SDS approach, Semantic Score Distillation Sampling (SemanticSDS), designed to effectively improve the expressiveness and accuracy of compositional text-to-3D generation. Our approach integrates new semantic embeddings that maintain consistency across different rendering views and clearly differentiate between various objects and parts. These embeddings are transformed into a semantic map, which directs a region-specific SDS process, enabling precise optimization and compositional generation. By leveraging explicit semantic guidance, our method unlocks the compositional capabilities of existing pre-trained diffusion models, thereby achieving superior quality in 3D content generation, particularly for complex objects and scenes. Experimental results demonstrate that our SemanticSDS framework is highly effective for generating state-of-the-art complex 3D content. Code: https://github.com/YangLing0818/SemanticSDS-3D

arxiv情報

著者 Ling Yang,Zixiang Zhang,Junlin Han,Bohan Zeng,Runjia Li,Philip Torr,Wentao Zhang
発行日 2024-10-11 17:26:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation

要約

剛体オブジェクトの姿勢の推定は、自動化や拡張現実の幅広い用途に使用されるコンピューター ビジョンの基本的な問題の 1 つです。
既存のアプローチのほとんどは、オブジェクト クラスごとに 1 つのネットワーク戦略を採用し、オブジェクトの 3D モデルや深度データに大きく依存し、時間のかかる反復的な改良を採用していますが、これは一部のアプリケーションでは非現実的である可能性があります。
この論文では、これらの制限に対処する、複数オブジェクトの単眼姿勢推定のための新しいアプローチである CVAM-Pose を紹介します。
CVAM-Pose メソッドは、ラベルが埋め込まれた条件付き変分オートエンコーダー ネットワークを使用して、単一の低次元潜在空間内の複数のオブジェクトの正規化された表現を暗黙的に抽象化します。
この自動エンコード プロセスは、投影カメラでキャプチャされた画像のみを使用し、オブジェクトのオクルージョンやシーンの乱雑さに対して堅牢です。
オブジェクトのクラスはワンホット エンコードされ、ネットワーク全体に埋め込まれます。
提案されたラベル埋め込み姿勢回帰戦略は、連続姿勢表現を利用して学習された潜在空間表現を解釈します。
アブレーション テストと体系的な評価により、複数オブジェクトのシナリオに対する CVAM-Pose 法の拡張性と効率性が実証されています。
提案された CVAM-Pose は、競合する潜在空間アプローチよりも優れています。
たとえば、Linemod-Occluded データセットの $\mathrm{AR_{VSD}}$ メトリクスを使用して評価すると、AAE 手法とマルチパス手法よりそれぞれ 25% と 20% 優れています。
また、BOP 課題で報告された 3D モデルに依存する方法にある程度匹敵する結果も達成されます。
利用可能なコード: https://github.com/JZhao12/CVAM-Pose

要約(オリジナル)

Estimating rigid objects’ poses is one of the fundamental problems in computer vision, with a range of applications across automation and augmented reality. Most existing approaches adopt one network per object class strategy, depend heavily on objects’ 3D models, depth data, and employ a time-consuming iterative refinement, which could be impractical for some applications. This paper presents a novel approach, CVAM-Pose, for multi-object monocular pose estimation that addresses these limitations. The CVAM-Pose method employs a label-embedded conditional variational autoencoder network, to implicitly abstract regularised representations of multiple objects in a single low-dimensional latent space. This autoencoding process uses only images captured by a projective camera and is robust to objects’ occlusion and scene clutter. The classes of objects are one-hot encoded and embedded throughout the network. The proposed label-embedded pose regression strategy interprets the learnt latent space representations utilising continuous pose representations. Ablation tests and systematic evaluations demonstrate the scalability and efficiency of the CVAM-Pose method for multi-object scenarios. The proposed CVAM-Pose outperforms competing latent space approaches. For example, it is respectively 25% and 20% better than AAE and Multi-Path methods, when evaluated using the $\mathrm{AR_{VSD}}$ metric on the Linemod-Occluded dataset. It also achieves results somewhat comparable to methods reliant on 3D models reported in BOP challenges. Code available: https://github.com/JZhao12/CVAM-Pose

arxiv情報

著者 Jianyu Zhao,Wei Quan,Bogdan J. Matuszewski
発行日 2024-10-11 17:26:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Alberta Wells Dataset: Pinpointing Oil and Gas Wells from Satellite Imagery

要約

何百万もの放棄された石油井やガス井が世界中に点在しており、メタンが大気中に、有毒化合物が地下水中に浸出しています。
これらの場所の多くは不明であるため、井戸を塞いで汚染の影響を回避することができません。
リモート センシングは、放棄された井戸を大規模に特定するための比較的未開発のツールです。
Planet Labs の中解像度のマルチスペクトル衛星画像を活用した、この問題に対する最初の大規模ベンチマーク データセットを紹介します。
当社が厳選したデータセットは、特に井戸密度が高い地域であるアルバータ州の 213,000 を超える井戸 (放棄された井戸、中断された井戸、稼働中の井戸) で構成されており、アルバータ州エネルギー規制当局から提供され、分野の専門家によって検証されています。
私たちは坑井の検出とセグメンテーションのためのベースライン アルゴリズムを評価し、コンピューター ビジョン アプローチの有望性を示していますが、改善の余地が大きいことも示しています。

要約(オリジナル)

Millions of abandoned oil and gas wells are scattered across the world, leaching methane into the atmosphere and toxic compounds into the groundwater. Many of these locations are unknown, preventing the wells from being plugged and their polluting effects averted. Remote sensing is a relatively unexplored tool for pinpointing abandoned wells at scale. We introduce the first large-scale benchmark dataset for this problem, leveraging medium-resolution multi-spectral satellite imagery from Planet Labs. Our curated dataset comprises over 213,000 wells (abandoned, suspended, and active) from Alberta, a region with especially high well density, sourced from the Alberta Energy Regulator and verified by domain experts. We evaluate baseline algorithms for well detection and segmentation, showing the promise of computer vision approaches but also significant room for improvement.

arxiv情報

著者 Pratinav Seth,Michelle Lin,Brefo Dwamena Yaw,Jade Boutot,Mary Kang,David Rolnick
発行日 2024-10-11 17:49:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

Autonomous Underwater Robotic System for Aquaculture Applications

要約

水産養殖は、世界の魚消費量の半分以上を生産する盛んな食料生産分野です。
しかし、これらの養殖場は、生物付着、植生、生け簀内の穴などの重大な課題を引き起こしており、魚生産の効率と持続可能性に重大な影響を与えています。
現在、養殖場の検査と維持のためにダイバーや遠隔操作車両が配備されています。
このアプローチは高価であり、高度なスキルを持った人間のオペレーターが必要です。
この研究の目的は、ROV 上での処理と、生物付着、植生、網の穴、プラスチックなどのさまざまなアクアネットの欠陥のリアルタイム検出を目的とした、水産養殖網生け簀用のロボットベースの自動ネット欠陥検出システムを開発することです。
提案されたシステムは、アクアネットの欠陥検出のための深層学習ベースの方法と、アクアネット周辺の車両の動きに対するフィードバック制御法の両方を統合し、一連の鮮明なネット画像を取得し、検査タスクの実行を通じてネットの状態を検査します。
この取り組みは、コスト削減、品質向上、操作性の向上を目的とした養殖検査、海洋ロボティクス、ディープラーニングの分野に貢献します。

要約(オリジナル)

Aquaculture is a thriving food-producing sector producing over half of the global fish consumption. However, these aquafarms pose significant challenges such as biofouling, vegetation, and holes within their net pens and have a profound effect on the efficiency and sustainability of fish production. Currently, divers and/or remotely operated vehicles are deployed for inspecting and maintaining aquafarms; this approach is expensive and requires highly skilled human operators. This work aims to develop a robotic-based automatic net defect detection system for aquaculture net pens oriented to on- ROV processing and real-time detection of different aqua-net defects such as biofouling, vegetation, net holes, and plastic. The proposed system integrates both deep learning-based methods for aqua-net defect detection and feedback control law for the vehicle movement around the aqua-net to obtain a clear sequence of net images and inspect the status of the net via performing the inspection tasks. This work contributes to the area of aquaculture inspection, marine robotics, and deep learning aiming to reduce cost, improve quality, and ease of operation.

arxiv情報

著者 Waseem Akram,Muhayyuddin Ahmed,Lakmal Seneviratne,Irfan Hussain
発行日 2024-10-11 17:54:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

MiRAGeNews: Multimodal Realistic AI-Generated News Detection

要約

近年、扇動的または誤解を招く「フェイク」ニュース コンテンツの蔓延がますます一般的になってきています。
同時に、AI ツールを使用して、想像できるあらゆるシーンを描写したフォトリアリスティックな画像を生成することがこれまでより簡単になりました。
これら 2 つ (AI によって生成されたフェイク ニュース コンテンツ) を組み合わせると、特に強力かつ危険です。
AI が生成したフェイク ニュースの拡散に対抗するために、私たちは、最先端のジェネレーターからの 12,500 個の高品質の本物の画像と AI が生成した画像とキャプションのペアのデータセットである MiRAGENews データセットを提案します。
私たちのデータセットは、人間 (60% F-1) と最先端のマルチモーダル LLM (< 24% F-1) にとって重大な課題となっていることがわかりました。 データセットを使用して、ドメイン外の画像ジェネレーターやニュース発行者からの画像とキャプションのペアで最先端のベースラインと比較して F-1 を +5.1% 改善するマルチモーダル検出器 (MiRAGe) をトレーニングします。 AI によって生成されたコンテンツの検出に関する将来の作業を支援するために、コードとデータを公開します。

要約(オリジナル)

The proliferation of inflammatory or misleading ‘fake’ news content has become increasingly common in recent years. Simultaneously, it has become easier than ever to use AI tools to generate photorealistic images depicting any scene imaginable. Combining these two — AI-generated fake news content — is particularly potent and dangerous. To combat the spread of AI-generated fake news, we propose the MiRAGeNews Dataset, a dataset of 12,500 high-quality real and AI-generated image-caption pairs from state-of-the-art generators. We find that our dataset poses a significant challenge to humans (60% F-1) and state-of-the-art multi-modal LLMs (< 24% F-1). Using our dataset we train a multi-modal detector (MiRAGe) that improves by +5.1% F-1 over state-of-the-art baselines on image-caption pairs from out-of-domain image generators and news publishers. We release our code and data to aid future work on detecting AI-generated content.

arxiv情報

著者 Runsheng Huang,Liam Dugan,Yue Yang,Chris Callison-Burch
発行日 2024-10-11 17:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

SceneCraft: Layout-Guided 3D Scene Generation

要約

ユーザーの仕様に合わせた複雑な 3D シーンの作成は、従来の 3D モデリング ツールでは退屈で困難な作業でした。
いくつかの先駆的な方法は、テキストから 3D への自動生成を実現していますが、それらは一般に、形状やテクスチャの制御が制限された小規模なシーンに限定されています。
ユーザーが指定したテキストの説明と空間レイアウトの設定に準拠した詳細な屋内シーンを生成する新しい方法である SceneCraft を紹介します。
私たちの方法の中心となるのは、3D セマンティック レイアウトをマルチビュー 2D プロキシ マップに変換するレンダリング ベースの技術です。
さらに、マルチビュー画像を生成するための意味論的かつ深度条件付き拡散モデルを設計します。これは、最終的なシーン表現として神経放射場 (NeRF) を学習するために使用されます。
パノラマ画像生成の制約がないため、従来の方法を超えて、単一の部屋を超えた、不規則な形状やレイアウトを持つマルチベッドルームのアパートメント全体のような複雑な屋内空間の生成をサポートします。
実験的な分析を通じて、私たちの方法が、多様なテクスチャ、一貫したジオメトリ、リアルな視覚品質を備えた複雑な屋内シーンの生成において、既存のアプローチよりも大幅に優れていることを実証します。
コードとその他の結果は、https://orangesodahub.github.io/SceneCraft で入手できます。

要約(オリジナル)

The creation of complex 3D scenes tailored to user specifications has been a tedious and challenging task with traditional 3D modeling tools. Although some pioneering methods have achieved automatic text-to-3D generation, they are generally limited to small-scale scenes with restricted control over the shape and texture. We introduce SceneCraft, a novel method for generating detailed indoor scenes that adhere to textual descriptions and spatial layout preferences provided by users. Central to our method is a rendering-based technique, which converts 3D semantic layouts into multi-view 2D proxy maps. Furthermore, we design a semantic and depth conditioned diffusion model to generate multi-view images, which are used to learn a neural radiance field (NeRF) as the final scene representation. Without the constraints of panorama image generation, we surpass previous methods in supporting complicated indoor space generation beyond a single room, even as complicated as a whole multi-bedroom apartment with irregular shapes and layouts. Through experimental analysis, we demonstrate that our method significantly outperforms existing approaches in complex indoor scene generation with diverse textures, consistent geometry, and realistic visual quality. Code and more results are available at: https://orangesodahub.github.io/SceneCraft

arxiv情報

著者 Xiuyu Yang,Yunze Man,Jun-Kun Chen,Yu-Xiong Wang
発行日 2024-10-11 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Mastering Contact-rich Tasks by Combining Soft and Rigid Robotics with Imitation Learning

要約

ソフトロボットは、安全で堅牢かつ適応可能な環境との相互作用を確立する機能により、ロボットシステムの使用に革命を起こす可能性を秘めていますが、その正確な制御は依然として課題です。
対照的に、従来の剛体ロボットは高い精度と再現性を提供しますが、柔らかいロボットのような柔軟性がありません。
私たちは、これらの特性をハイブリッドロボットプラットフォームに組み合わせることで、全体的な能力を大幅に向上できると主張します。
この研究では、剛性マニピュレータと完全に開発されたソフト アームを統合した新しいハイブリッド ロボット プラットフォームを紹介します。
このシステムは、自律的に模倣学習を行うことにより、柔軟で汎用性のあるタスクを実行するために必要な知能を備えています。
物理的な柔らかさと機械学習により、当社のプラットフォームは高度に汎用化可能なスキルを実現できる一方、剛性の高いコンポーネントにより精度と再現性が保証されます。

要約(オリジナル)

Soft robots have the potential to revolutionize the use of robotic systems with their capability of establishing safe, robust, and adaptable interactions with their environment, but their precise control remains challenging. In contrast, traditional rigid robots offer high accuracy and repeatability but lack the flexibility of soft robots. We argue that combining these characteristics in a hybrid robotic platform can significantly enhance overall capabilities. This work presents a novel hybrid robotic platform that integrates a rigid manipulator with a fully developed soft arm. This system is equipped with the intelligence necessary to perform flexible and generalizable tasks through imitation learning autonomously. The physical softness and machine learning enable our platform to achieve highly generalizable skills, while the rigid components ensure precision and repeatability.

arxiv情報

著者 Mariano Ramírez Montero,Ebrahim Shahabi,Giovanni Franzese,Jens Kober,Barbara Mazzolai,Cosimo Della Santina
発行日 2024-10-11 11:41:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする