Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs

要約

人間の判断は本質的に主観的であり、性別や民族などの個人的な特性によって積極的に影響を受けます。
大規模な言語モデル(LLM)は、多様なコンテキスト全体で人間の反応をシミュレートするために広く使用されていますが、主観的なタスクの人口統計上の違いを説明する能力は不明のままです。
この研究では、Popquornデータセットを活用して、2つの主観的な判断タスクの人口統計上の違いを理解する能力について、9つの一般的なLLMを評価します。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジア人や黒人の参加者よりも白人の参加者のラベルとより密接に整合しているが、女性を支持する小さな性別バイアスのみが礼儀正しさの課題に現れることがわかります。
さらに、社会人口学的プロンプトは一貫して改善せず、場合によっては、特定のサブポピュレーションから言語を知覚するLLMSの能力を悪化させます。
これらの調査結果は、主観的な判断タスクを実行する際のLLMの潜在的な人口統計学的バイアスを強調し、多元的な整合を達成するための戦略として社会人口統計促進の限界を強調しています。
コードとデータは、https://github.com/jiaxin-pei/llm-as-subjective-judgeで入手できます。

要約(オリジナル)

Human judgments are inherently subjective and are actively affected by personal traits such as gender and ethnicity. While Large Language Models (LLMs) are widely used to simulate human responses across diverse contexts, their ability to account for demographic differences in subjective tasks remains uncertain. In this study, leveraging the POPQUORN dataset, we evaluate nine popular LLMs on their ability to understand demographic differences in two subjective judgment tasks: politeness and offensiveness. We find that in zero-shot settings, most models’ predictions for both tasks align more closely with labels from White participants than those from Asian or Black participants, while only a minor gender bias favoring women appears in the politeness task. Furthermore, sociodemographic prompting does not consistently improve and, in some cases, worsens LLMs’ ability to perceive language from specific sub-populations. These findings highlight potential demographic biases in LLMs when performing subjective judgment tasks and underscore the limitations of sociodemographic prompting as a strategy to achieve pluralistic alignment. Code and data are available at: https://github.com/Jiaxin-Pei/LLM-as-Subjective-Judge.

arxiv情報

著者 Huaman Sun,Jiaxin Pei,Minje Choi,David Jurgens
発行日 2025-02-17 17:46:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG | Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs はコメントを受け付けていません

Attention as a Hypernetwork

要約

トランスは、状況によっては、トレーニング中に構成要素が遭遇したかもしれないが、組成物がない新しい問題インスタンスに一般化することができます。
組成の一般化のこの能力の根底にあるメカニズムは何ですか?
マルチヘッドの注意をハイパーネットワークとして再定式化することにより、構成可能で低次元の潜在コードがキークエリ固有の操作を指定することを明らかにします。
この潜在コードは、ネットワークが目に見えないタスク構成で実行するサブタスクを予測しており、トレーニング中に取得した潜在コードが目に見えない問題インスタンスを解決するために再利用されることを明らかにしていることがわかります。
マルチヘッド注意の本質的なハイパーネットワークが組成の一般化をサポートするという仮説をさらに調べるために、ハイパーネットワークで生成された線形値ネットワークを作ることが組成性を強化するかどうかを和らげます。
この変更により、抽象的な推論タスクに関する構成一般化が改善されることがわかります。
特に、レイヴンのプログレッシブマトリックスヒューマンインテリジェンステストの象徴的なバージョンを導入します。これにより、トレーニングと評価中に遭遇する問題組成を正確に制御できます。
このタスクで、モデルサイズとデータのスケーリングが変圧器の構成一般化を可能にし、機能的に構造化された潜在空間を生み出す方法を示します。

要約(オリジナル)

Transformers can under some circumstances generalize to novel problem instances whose constituent parts might have been encountered during training, but whose compositions have not. What mechanisms underlie this ability for compositional generalization? By reformulating multi-head attention as a hypernetwork, we reveal that a composable, low-dimensional latent code specifies key-query specific operations. We find empirically that this latent code is predictive of the subtasks the network performs on unseen task compositions, revealing that latent codes acquired during training are reused to solve unseen problem instances. To further examine the hypothesis that the intrinsic hypernetwork of multi-head attention supports compositional generalization, we ablate whether making the hypernetwork-generated linear value network nonlinear strengthens compositionality. We find that this modification improves compositional generalization on abstract reasoning tasks. In particular, we introduce a symbolic version of the Raven’s Progressive Matrices human intelligence test, which gives us precise control over the problem compositions encountered during training and evaluation. We demonstrate on this task how scaling model size and data enables compositional generalization in transformers and gives rise to a functionally structured latent space.

arxiv情報

著者 Simon Schug,Seijin Kobayashi,Yassir Akram,João Sacramento,Razvan Pascanu
発行日 2025-02-17 15:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Attention as a Hypernetwork はコメントを受け付けていません

Generating Text from Uniform Meaning Representation

要約

均一な意味表現(UMR)は、最近開発されたグラフベースのセマンティック表現であり、特にドキュメントレベルの情報と多言語の柔軟性を含めることにより、さまざまな方法で抽象的な意味表現(AMR)を拡張します。
下流タスクにUMRを効果的に採用および活用するには、UMR技術エコシステムの開発に向けて努力を払う必要があります。
これまでに限られた量のUMRアノテーションが生成されていますが、この作業では、多言語のUMRグラフからテキストを作成するための最初のアプローチを調査します。
(2)UMRデータを使用した大規模な言語モデルの微調整、および(3)UMRデータを使用して既存のAMRからテキストの生成モデルを微調整する。
私たちの最高のパフォーマンスモデルは、参照と比較した場合、英語で0.825、中国語で0.882の多言語Bertscoreを達成します。

要約(オリジナル)

Uniform Meaning Representation (UMR) is a recently developed graph-based semantic representation, which expands on Abstract Meaning Representation (AMR) in a number of ways, in particular through the inclusion of document-level information and multilingual flexibility. In order to effectively adopt and leverage UMR for downstream tasks, efforts must be placed toward developing a UMR technological ecosystem. Though still limited amounts of UMR annotations have been produced to date, in this work, we investigate the first approaches to producing text from multilingual UMR graphs: (1) a pipeline conversion of UMR to AMR, then using AMR-to-text generation models, (2) fine-tuning large language models with UMR data, and (3) fine-tuning existing AMR-to-text generation models with UMR data. Our best performing model achieves a multilingual BERTscore of 0.825 for English and 0.882 for Chinese when compared to the reference, which is a promising indication of the effectiveness of fine-tuning approaches for UMR-to-text generation with even limited amounts of UMR data.

arxiv情報

著者 Emma Markle,Reihaneh Iranmanesh,Shira Wein
発行日 2025-02-17 16:20:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Generating Text from Uniform Meaning Representation はコメントを受け付けていません

A MIMO Wireless Channel Foundation Model via CIR-CSI Consistency

要約

人工知能の分野では、自己科学者の学習は、事前トレーニングの大規模な非標識データセットを活用することにより、優れた一般化能力を実証しました。これは、ワイヤレス通信モデルがさまざまなシナリオに適応するために特に重要です。
このホワイトペーパーは、チャネル状態情報(CSI)とチャネルインパルス応答(CIR)を自然に整列させたマルチモーダルデータとして革新的に扱い、CSI-Clipという名前の最初のMIMOワイヤレスチャネルファンデーションモデルを提案しています。
CIRとCSIの両方の共同表現を効果的にキャプチャすることにより、CSI-Clipはシナリオ全体で顕著な適応性と堅牢な特徴抽出機能を示します。
実験結果は、位置決めタスクでは、CSIクリップが平均誤差距離を22%減らすことを示しています。
ビーム管理タスクでは、チャネル識別タスクだけでなく、従来の監視された方法と比較して、精度が1%増加します。
これらの改善は、センシングとコミュニケーションを統合する際のCSIクリップの潜在的と価値を強調するだけでなく、既存の手法よりも重要な利点を示しています。
さらに、CSIとCIRをマルチモーダルペアとして見て、ワイヤレスチャネルファンデーションモデルの対照学習をMIMOワイヤレス通信のドメインで新しい研究の方向性を開きます。

要約(オリジナル)

In the field of artificial intelligence, self-supervised learning has demonstrated superior generalization capabilities by leveraging large-scale unlabeled datasets for pretraining, which is especially critical for wireless communication models to adapt to a variety of scenarios. This paper innovatively treats Channel State Information (CSI) and Channel Impulse Response (CIR) as naturally aligned multi-modal data and proposes the first MIMO wireless channel foundation model, named CSI-CLIP. By effectively capturing the joint representations of both CIR and CSI, CSI-CLIP exhibits remarkable adaptability across scenarios and robust feature extraction capabilities. Experimental results show that in positioning task, CSI-CLIP reduces the mean error distance by 22%; in beam management task, it increases accuracy by 1% compared to traditional supervised methods, as well as in the channel identification task. These improvements not only highlight the potential and value of CSI-CLIP in integrating sensing and communication but also demonstrate its significant advantages over existing techniques. Moreover, viewing CSI and CIR as multi-modal pairs and contrastive learning for wireless channel foundation model open up new research directions in the domain of MIMO wireless communications.

arxiv情報

著者 Jun Jiang,Wenjun Yu,Yunfan Li,Yuan Gao,Shugong Xu
発行日 2025-02-17 16:13:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.SP | A MIMO Wireless Channel Foundation Model via CIR-CSI Consistency はコメントを受け付けていません

Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras

要約

HyperComplex画像処理は、代数および幾何学的原理を含む統一されたパラダイムで従来の技術を拡張します。
この作業は、次の計算ワークフローと転帰を介して自然/生物医学画像分析のために、四項と2次元直交平面分割フレームワーク(四項 – 正結腸2D平面のペアへの分割 – ピクセルを表す – ピクセルを表す)を活用しています:自然/生物医学的イメージの再採用
色素化、自然画像の脱色、自然/生物医学的イメージのコントラストの強化、組織学的画像の計算の再染色と染色分離、および組織学的画像の機械/深い学習パイプラインのパフォーマンスの向上。
ワークフローは、提案されたアプローチの有効性を紹介するために、自然および生物医学の画像について個別に分析されます。
提案されたワークフローは、色の外観を調節することができます(たとえば、代替レンディションやグレースケール変換など)と画像のコントラストは、自動化された画像処理パイプライン(例:ステイン成分の分離、学習モデルの増加)の一部であり、デジタル病理アプリケーション(例えば、バイオマーカーの視認性を高めるのを支援します。
カラーブランドに優しいレンディションを有効にします)。
基本的な算術操作とマトリックス操作のみを採用して、この作業は、画像処理タスク全体で汎用性と一貫性を示し、コンピュータービジョンと生物医学的アプリケーションの範囲を紹介する計算的にアクセス可能な方法論を提供します。
提案されている非DATA駆動型の方法は、文献で報告されているものと同等の結果またはより良い結果(特によく知られている方法を含む場合)を実用的な有効性を備えた堅牢な理論的枠組みの可能性を示しています。
結果、方法、制限は、有望な拡張の議論とともに詳細に詳述されており、自然および生物医学画像のための機能が豊富な数学的/計算フレームワークの可能性を強調しています。

要約(オリジナル)

Hypercomplex image processing extends conventional techniques in a unified paradigm encompassing algebraic and geometric principles. This work leverages quaternions and the two-dimensional orthogonal planes split framework (splitting of a quaternion – representing a pixel – into pairs of orthogonal 2D planes) for natural/biomedical image analysis through the following computational workflows and outcomes: natural/biomedical image re-colorization, natural image de-colorization, natural/biomedical image contrast enhancement, computational re-staining and stain separation in histological images, and performance gains in machine/deep learning pipelines for histological images. The workflows are analyzed separately for natural and biomedical images to showcase the effectiveness of the proposed approaches. The proposed workflows can regulate color appearance (e.g. with alternative renditions and grayscale conversion) and image contrast, be part of automated image processing pipelines (e.g. isolating stain components, boosting learning models), and assist in digital pathology applications (e.g. enhancing biomarker visibility, enabling colorblind-friendly renditions). Employing only basic arithmetic and matrix operations, this work offers a computationally accessible methodology – in the hypercomplex domain – that showcases versatility and consistency across image processing tasks and a range of computer vision and biomedical applications. The proposed non-data-driven methods achieve comparable or better results (particularly in cases involving well-known methods) to those reported in the literature, showcasing the potential of robust theoretical frameworks with practical effectiveness. Results, methods, and limitations are detailed alongside discussion of promising extensions, emphasizing the potential of feature-rich mathematical/computational frameworks for natural and biomedical images.

arxiv情報

著者 Nektarios A. Valous,Eckhard Hitzer,Dragoş Duşe,Rodrigo Rojas Moraleda,Ferdinand Popp,Meggy Suarez-Carmona,Anna Berthel,Ismini Papageorgiou,Carlo Fremd,Alexander Rölle,Christina C. Westhoff,Bénédicte Lenoir,Niels Halama,Inka Zörnig,Dirk Jäger
発行日 2025-02-17 13:44:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras はコメントを受け付けていません

AdaManip: Adaptive Articulated Object Manipulation Environments and Policy Learning

要約

明確なオブジェクト操作は、ロボットが実際のシナリオでさまざまなタスクを実行する重要な機能です。
関節で接続された複数の部分で構成されている、明確なオブジェクトには、複雑な相対運動を通じて多様な機能メカニズムが恵まれています。
たとえば、安全はドア、ハンドル、ロックで構成されます。ロックでは、ラッチのロックが解除されたときにのみドアを開くことができます。
ロックや関節の角度の制約の状態などの内部構造は、視覚的観察から直接観察することはできません。
したがって、これらのオブジェクトの操作が成功するには、一度限りの視覚推論ではなく、試行錯誤に基づいた適応調整が必要です。
ただし、明確なオブジェクトの以前のデータセットとシミュレーション環境は、主にオブジェクトの外観から完全な操作プロセスを推測できる単純な操作メカニズムに焦点を当てています。
適応操作メカニズムの多様性と複雑さを高めるために、新しい明確なオブジェクト操作環境を構築し、9つのカテゴリのオブジェクトを装備します。
環境とオブジェクトに基づいて、適応操作ポリシーを学習する適応デモコレクションと3D視覚拡散ベースの模倣学習パイプラインをさらに提案します。
私たちの設計と提案された方法の有効性は、シミュレーションと現実世界の実験の両方を通じて検証されます。
プロジェクトページは、https://adamanip.github.ioで入手できます

要約(オリジナル)

Articulated object manipulation is a critical capability for robots to perform various tasks in real-world scenarios. Composed of multiple parts connected by joints, articulated objects are endowed with diverse functional mechanisms through complex relative motions. For example, a safe consists of a door, a handle, and a lock, where the door can only be opened when the latch is unlocked. The internal structure, such as the state of a lock or joint angle constraints, cannot be directly observed from visual observation. Consequently, successful manipulation of these objects requires adaptive adjustment based on trial and error rather than a one-time visual inference. However, previous datasets and simulation environments for articulated objects have primarily focused on simple manipulation mechanisms where the complete manipulation process can be inferred from the object’s appearance. To enhance the diversity and complexity of adaptive manipulation mechanisms, we build a novel articulated object manipulation environment and equip it with 9 categories of objects. Based on the environment and objects, we further propose an adaptive demonstration collection and 3D visual diffusion-based imitation learning pipeline that learns the adaptive manipulation policy. The effectiveness of our designs and proposed method is validated through both simulation and real-world experiments. Our project page is available at: https://adamanip.github.io

arxiv情報

著者 Yuanfei Wang,Xiaojie Zhang,Ruihai Wu,Yu Li,Yan Shen,Mingdong Wu,Zhaofeng He,Yizhou Wang,Hao Dong
発行日 2025-02-16 13:45:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | AdaManip: Adaptive Articulated Object Manipulation Environments and Policy Learning はコメントを受け付けていません

BFA: Best-Feature-Aware Fusion for Multi-View Fine-grained Manipulation

要約

実際のシナリオでは、通常、マルチビューカメラが微調整された操作タスクに採用されています。
既存のアプローチ(ACTなど)は、マルチビュー機能を等しく扱い、ポリシー学習のためにそれらを直接連結する傾向があります。
ただし、冗長な視覚情報を導入し、より高い計算コストをもたらし、効果のない操作につながります。
きめ細かい操作タスクの場合、複数の段階を巻き込む傾向がありますが、さまざまな段階の最も寄与されているビューは時間とともに変化します。
このホワイトペーパーでは、さまざまなポリシーに適応できるマルチビュー操作タスクのプラグアンドプレイベストフィーチャーアウェア(BFA)融合戦略を提案します。
ポリシーネットワークの視覚的なバックボーンに基づいて構築され、各ビューの重要性スコアを予測するための軽量ネットワークを設計します。
予測された重要性スコアに基づいて、再航行されたマルチビュー機能はその後融合され、エンドツーエンドポリシーネットワークに入力され、シームレスな統合が可能になります。
特に、私たちの方法は、きめ細かい操作における優れたパフォーマンスを示しています。
実験結果は、私たちのアプローチが異なるタスクで22〜46%の成功率よりも複数のベースラインを上回ることを示しています。
私たちの作品は、細かい操作における重要な課題に取り組むための新しい洞察とインスピレーションを提供します。

要約(オリジナル)

In real-world scenarios, multi-view cameras are typically employed for fine-grained manipulation tasks. Existing approaches (e.g., ACT) tend to treat multi-view features equally and directly concatenate them for policy learning. However, it will introduce redundant visual information and bring higher computational costs, leading to ineffective manipulation. For a fine-grained manipulation task, it tends to involve multiple stages while the most contributed view for different stages is varied over time. In this paper, we propose a plug-and-play best-feature-aware (BFA) fusion strategy for multi-view manipulation tasks, which is adaptable to various policies. Built upon the visual backbone of the policy network, we design a lightweight network to predict the importance score of each view. Based on the predicted importance scores, the reweighted multi-view features are subsequently fused and input into the end-to-end policy network, enabling seamless integration. Notably, our method demonstrates outstanding performance in fine-grained manipulations. Experimental results show that our approach outperforms multiple baselines by 22-46% success rate on different tasks. Our work provides new insights and inspiration for tackling key challenges in fine-grained manipulations.

arxiv情報

著者 Zihan Lan,Weixin Mao,Haosheng Li,Le Wang,Tiancai Wang,Haoqiang Fan,Osamu Yoshie
発行日 2025-02-16 15:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | BFA: Best-Feature-Aware Fusion for Multi-View Fine-grained Manipulation はコメントを受け付けていません

Integrating Retrospective Framework in Multi-Robot Collaboration

要約

大規模な言語モデル(LLMS)の最近の進歩は、マルチロボットシステムのコミュニケーションと調整を強化する上で実質的な能力を実証しています。
ただし、既存の方法は、実際のマルチロボットシナリオで一般的な動的で不確実な環境で効率的なコラボレーションと意思決定を達成するのに苦労しています。
これらの課題に対処するために、マルチロボットコラボレーションのための新しいレトロスペクティブな俳優と批判のフレームワークを提案します。
このフレームワークには、2つの重要なコンポーネントが統合されます。(1)観察とタスク指令に基づいてリアルタイムの意思決定を実行するアクター、および(2)提案されたフレームワークが継続的に洗練されるためのフィードバックを提供するために結果を遡及的に評価する批評家
動的な条件に効果的に適応できます。
シミュレートされた環境で実施された広範な実験は、当社のアプローチの有効性を検証し、タスクのパフォーマンスと適応性の大幅な改善を示しています。
この作業は、ロボットコラボレーションにおける永続的な課題に対する堅牢なソリューションを提供します。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have demonstrated substantial capabilities in enhancing communication and coordination in multi-robot systems. However, existing methods often struggle to achieve efficient collaboration and decision-making in dynamic and uncertain environments, which are common in real-world multi-robot scenarios. To address these challenges, we propose a novel retrospective actor-critic framework for multi-robot collaboration. This framework integrates two key components: (1) an actor that performs real-time decision-making based on observations and task directives, and (2) a critic that retrospectively evaluates the outcomes to provide feedback for continuous refinement, such that the proposed framework can adapt effectively to dynamic conditions. Extensive experiments conducted in simulated environments validate the effectiveness of our approach, demonstrating significant improvements in task performance and adaptability. This work offers a robust solution to persistent challenges in robotic collaboration.

arxiv情報

著者 Jiazhao Liang,Hao Huang,Yu Hao,Geeta Chandra Raju Bethala,Congcong Wen,John-Ross Rizzo,Yi Fang
発行日 2025-02-16 18:38:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Integrating Retrospective Framework in Multi-Robot Collaboration はコメントを受け付けていません

Bilevel Learning for Bilevel Planning

要約

デモンストレーションから学ぶロボットは、それが見ているものを真似するだけではありません。実証されている高レベルの概念を理解し、それらを新しいタスクに一般化する必要があります。
Bilevel Planningは、構成一般化を実現するために述語(関係状態の抽象化)を活用できる階層モデルベースのアプローチです。
ただし、以前のバイレベル計画のアプローチは、手工学または非常に単純なフォームに制限されている述語に依存しており、そのスケーラビリティを洗練された高次元の状態空間に制限しています。
この制限に対処するために、デモンストレーションから直接神経述語を学ぶことができる最初のバイレベル計画アプローチであるIVNTRを提示します。
私たちの主要な革新は、バイレベル計画の構造を反映したニューロシンボリックバイレベル学習フレームワークです。
IVNTRでは、述語「効果」の象徴的な学習と述語「関数」の代替の神経学習であり、それぞれが他方にガイダンスを提供します。
6つの多様なロボット計画ドメインでIVNTRを評価し、さまざまな連続および高次元の状態を抽象化する際の有効性を示しています。
ほとんどの既存のアプローチは一般化するのに苦労していますが(35%未満の成功率)、IVNTRは目に見えないタスクで平均77%の成功率を達成しています。
さらに、モバイルマニピュレーターでIVNTRを紹介します。モバイルマニピュレーターでは、実際のモバイル操作タスクを実行し、新しいオブジェクト、新しい状態、およびより長いタスクホリゾンを備えた目に見えないテストシナリオに一般化することを学びます。
私たちの調査結果は、高レベルの一般化への道として抽象化を伴う学習と計画の約束を強調しています。

要約(オリジナル)

A robot that learns from demonstrations should not just imitate what it sees — it should understand the high-level concepts that are being demonstrated and generalize them to new tasks. Bilevel planning is a hierarchical model-based approach where predicates (relational state abstractions) can be leveraged to achieve compositional generalization. However, previous bilevel planning approaches depend on predicates that are either hand-engineered or restricted to very simple forms, limiting their scalability to sophisticated, high-dimensional state spaces. To address this limitation, we present IVNTR, the first bilevel planning approach capable of learning neural predicates directly from demonstrations. Our key innovation is a neuro-symbolic bilevel learning framework that mirrors the structure of bilevel planning. In IVNTR, symbolic learning of the predicate ‘effects’ and neural learning of the predicate ‘functions’ alternate, with each providing guidance for the other. We evaluate IVNTR in six diverse robot planning domains, demonstrating its effectiveness in abstracting various continuous and high-dimensional states. While most existing approaches struggle to generalize (with <35% success rate), our IVNTR achieves an average of 77% success rate on unseen tasks. Additionally, we showcase IVNTR on a mobile manipulator, where it learns to perform real-world mobile manipulation tasks and generalizes to unseen test scenarios that feature new objects, new states, and longer task horizons. Our findings underscore the promise of learning and planning with abstractions as a path towards high-level generalization.

arxiv情報

著者 Bowen Li,Tom Silver,Sebastian Scherer,Alexander Gray
発行日 2025-02-16 20:43:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bilevel Learning for Bilevel Planning はコメントを受け付けていません

Towards Real-Time Generation of Delay-Compensated Video Feeds for Outdoor Mobile Robot Teleoperation

要約

テレオ操作は、監督者が農業ロボットをリモートで制御できるようにするための重要な技術です。
ただし、密集した作物の列の環境要因とネットワークインフラストラクチャの制限は、テレオペレーターにストリーミングされたデータの信頼性を妨げています。
これらの問題は、ロボットの実際の視点から大幅に逸脱することが多い、遅延して可変のフレームレートビデオフィードをもたらします。
監督者向けの遅延補償画像をリアルタイムで生成するために、モジュラー学習ベースのビジョンパイプラインを提案します。
当社の広範なオフライン評価は、私たちの方法が、設定の最新のアプローチと比較して、より正確な画像を生成することを示しています。
さらに、私たちのものは、リアルタイムで実際のロボットからのデータ上の複雑な地形を持つ屋外フィールド環境で遅延補償法を評価するための数少ない作品の1つです。
結果のビデオとコードは、https://sites.google.com/illinois.edu/comp-teleopで提供されます。

要約(オリジナル)

Teleoperation is an important technology to enable supervisors to control agricultural robots remotely. However, environmental factors in dense crop rows and limitations in network infrastructure hinder the reliability of data streamed to teleoperators. These issues result in delayed and variable frame rate video feeds that often deviate significantly from the robot’s actual viewpoint. We propose a modular learning-based vision pipeline to generate delay-compensated images in real-time for supervisors. Our extensive offline evaluations demonstrate that our method generates more accurate images compared to state-of-the-art approaches in our setting. Additionally, ours is one of the few works to evaluate a delay-compensation method in outdoor field environments with complex terrain on data from a real robot in real-time. Resulting videos and code are provided at https://sites.google.com/illinois.edu/comp-teleop.

arxiv情報

著者 Neeloy Chakraborty,Yixiao Fang,Andre Schreiber,Tianchen Ji,Zhe Huang,Aganze Mihigo,Cassidy Wall,Abdulrahman Almana,Katherine Driggs-Campbell
発行日 2025-02-16 23:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Towards Real-Time Generation of Delay-Compensated Video Feeds for Outdoor Mobile Robot Teleoperation はコメントを受け付けていません