Multiaccuracy and Multicalibration via Proxy Groups

要約

予測機械学習アルゴリズムの使用がハイステークスの意思決定で増加するにつれて、これらのアルゴリズムが機密グループ全体で公平であることが不可欠です。
残念ながら、現実世界のアプリケーションの公平性の測定と実施は、機密性の高いグループデータの欠落または不完全なグループのために困難な場合があります。
これらの設定では、パリティベースの公平性の概念のみでのみ、実用的かつ効果的な解決策として、プロキシに敏感な属性が提案されています。
マルチカーシーやマルチブランド化など、より新しい柔軟なフレームワークのための敏感なグループデータが欠落している場合、公平性を評価して制御する方法を知ることは未開拓のままです。
この作業では、敏感なグループデータがない場合、プロキシに敏感な属性を使用して、真のマルチカーシーとマルチカリブリの実用的な上限を導き出し、モデルの潜在的な最悪の場合の公平性違反に関する洞察を提供することを実証することにより、このギャップに対処します。
さらに、モデルを調整して、プロキシに敏感な属性全体でマルチカルチュラシーとマルチローブ化を満たすことが、これらの違反を真の、しかし未知の、敏感なグループに対して大幅に軽減できることを示しています。
実際のデータセットでのいくつかの実験を通じて、敏感なグループ情報が不完全または利用できない場合でも、近似マルチカーシーとマルチキャブラメントを達成できることを示しています。

要約(オリジナル)

As the use of predictive machine learning algorithms increases in high-stakes decision-making, it is imperative that these algorithms are fair across sensitive groups. Unfortunately, measuring and enforcing fairness in real-world applications can be challenging due to missing or incomplete sensitive group data. Proxy-sensitive attributes have been proposed as a practical and effective solution in these settings, but only for parity-based fairness notions. Knowing how to evaluate and control for fairness with missing sensitive group data for newer and more flexible frameworks, such as multiaccuracy and multicalibration, remains unexplored. In this work, we address this gap by demonstrating that in the absence of sensitive group data, proxy-sensitive attributes can provably be used to derive actionable upper bounds on the true multiaccuracy and multicalibration, providing insights into a model’s potential worst-case fairness violations. Additionally, we show that adjusting models to satisfy multiaccuracy and multicalibration across proxy-sensitive attributes can significantly mitigate these violations for the true, but unknown, sensitive groups. Through several experiments on real-world datasets, we illustrate that approximate multiaccuracy and multicalibration can be achieved even when sensitive group information is incomplete or unavailable.

arxiv情報

著者 Beepul Bharti,Mary Versa Clemens-Sewall,Paul H. Yi,Jeremias Sulam
発行日 2025-03-05 04:41:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Multiaccuracy and Multicalibration via Proxy Groups はコメントを受け付けていません

MCiteBench: A Benchmark for Multimodal Citation Text Generation in MLLMs

要約

マルチモーダル大手言語モデル(MLLM)は、多様なモダリティの統合に進んでいますが、しばしば幻覚に苦しんでいます。
この問題を軽減する有望な解決策は、引用を含むテキストを生成し、検証のための透明なチェーンを提供することです。
ただし、既存の作業は、主にテキストのみのコンテンツの引用の生成に焦点を当てており、マルチモーダルコンテキストの課題と機会を見落としています。
このギャップに対処するために、MLLMSのマルチモーダル引用テキスト生成能力を評価および分析するために設計された最初のベンチマークであるMcIteBenchを紹介します。
私たちのベンチマークは、アカデミックペーパーとレビューとrebuttalの相互作用から派生したデータで構成され、多様な情報源とマルチモーダルコンテンツを備えています。
引用の品質、ソースの信頼性、回答の精度など、複数の次元からモデルを包括的に評価します。
広範な実験を通じて、MLLMはマルチモーダル引用テキスト生成と闘っていることがわかります。
また、モデルのパフォーマンスの深い分析を実施し、ボトルネックがマルチモーダルコンテンツを理解するのではなく、正しいソースに起因することにあることを明らかにしています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have advanced in integrating diverse modalities but frequently suffer from hallucination. A promising solution to mitigate this issue is to generate text with citations, providing a transparent chain for verification. However, existing work primarily focuses on generating citations for text-only content, overlooking the challenges and opportunities of multimodal contexts. To address this gap, we introduce MCiteBench, the first benchmark designed to evaluate and analyze the multimodal citation text generation ability of MLLMs. Our benchmark comprises data derived from academic papers and review-rebuttal interactions, featuring diverse information sources and multimodal content. We comprehensively evaluate models from multiple dimensions, including citation quality, source reliability, and answer accuracy. Through extensive experiments, we observe that MLLMs struggle with multimodal citation text generation. We also conduct deep analyses of models’ performance, revealing that the bottleneck lies in attributing the correct sources rather than understanding the multimodal content.

arxiv情報

著者 Caiyu Hu,Yikai Zhang,Tinghui Zhu,Yiwei Ye,Yanghua Xiao
発行日 2025-03-05 03:28:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | MCiteBench: A Benchmark for Multimodal Citation Text Generation in MLLMs はコメントを受け付けていません

OkraLong: A Flexible Retrieval-Augmented Framework for Long-Text Query Processing

要約

大規模な言語モデル(LLMS)は、エンタープライズドキュメント分析や財務報告の理解などのアプリケーションで見られるように、長いテキストクエリを効率的に処理する際に課題に遭遇します。
従来のソリューションでは、長いコンテキストの処理または検索の高等発電(RAG)を採用していますが、禁止されている入力費用または不完全な情報に苦しんでいます。
最近の進歩により、コンテキストの圧縮と動的検索ループが採用されていますが、それでも重要な詳細を犠牲にしたり、反復コストを負担したりします。
これらの制限に対処するために、処理ワークフロー全体を柔軟に最適化する新しいフレームワークであるOkralongを提案します。
以前の静的または粗粒の適応戦略とは異なり、Okralongは、アナライザー、オーガナイザー、執行者の3つの相乗効果コンポーネントを通じて微細に粒のオーケストレーションを採用しています。
アナライザーは、ワークフローを動的にスケジュールする際にオーガナイザーを導くタスク状態を特徴付けます。
執行者は実行を実行し、最終的な答えを生成します。
実験結果は、Okralongが回答の精度を高めるだけでなく、さまざまなデータセット全体で費用対効果を達成することを示しています。

要約(オリジナル)

Large Language Models (LLMs) encounter challenges in efficiently processing long-text queries, as seen in applications like enterprise document analysis and financial report comprehension. While conventional solutions employ long-context processing or Retrieval-Augmented Generation (RAG), they suffer from prohibitive input expenses or incomplete information. Recent advancements adopt context compression and dynamic retrieval loops, but still sacrifice critical details or incur iterative costs. To address these limitations, we propose OkraLong, a novel framework that flexibly optimizes the entire processing workflow. Unlike prior static or coarse-grained adaptive strategies, OkraLong adopts fine-grained orchestration through three synergistic components: analyzer, organizer and executor. The analyzer characterizes the task states, which guide the organizer in dynamically scheduling the workflow. The executor carries out the execution and generates the final answer. Experimental results demonstrate that OkraLong not only enhances answer accuracy but also achieves cost-effectiveness across a variety of datasets.

arxiv情報

著者 Yulong Hui,Yihao Liu,Yao Lu,Huanchen Zhang
発行日 2025-03-05 02:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | OkraLong: A Flexible Retrieval-Augmented Framework for Long-Text Query Processing はコメントを受け付けていません

MAPS: Motivation-Aware Personalized Search via LLM-Driven Consultation Alignment

要約

パーソナライズされた製品検索は、ユーザーの好みと検索意図に合ったアイテムを取得およびランク付けすることを目的としています。
その効果にもかかわらず、既存のアプローチは通常、ユーザーのクエリが実際の動機を完全に捉えていると仮定します。
ただし、現実世界のeコマースプラットフォームの分析により、ユーザーは検索する前に関連する相談に頻繁に関与していることが明らかになり、モチベーションとニーズに基づいて相談を通じて意図を改善することが示されています。
相談における暗黙の動機は、パーソナライズされた検索の重要な強化要因です。
この未開拓の領域には、コンテキストの動機を簡潔なクエリとの調整、カテゴリテキストのギャップの埋め、シーケンス履歴内のフィルタリングノイズなど、新しい課題があります。
これらに対処するために、モチベーションを意図したパーソナライズされた検索(マップ)メソッドを提案します。
クエリと相談をLLMSを介して統一されたセマンティックスペースに埋め込み、注意の専門家(MOAE)の混合物を利用して重要なセマンティクスに優先順位を付け、デュアルアラインメントを導入します。
(2)双方向の注意は、モチベーションに対応する埋め込みとユーザーの好みを統合します。
実際のデータと合成データの広範な実験では、マップが検索タスクとランキングタスクの両方で既存の方法を上回ることを示しています。

要約(オリジナル)

Personalized product search aims to retrieve and rank items that match users’ preferences and search intent. Despite their effectiveness, existing approaches typically assume that users’ query fully captures their real motivation. However, our analysis of a real-world e-commerce platform reveals that users often engage in relevant consultations before searching, indicating they refine intents through consultations based on motivation and need. The implied motivation in consultations is a key enhancing factor for personalized search. This unexplored area comes with new challenges including aligning contextual motivations with concise queries, bridging the category-text gap, and filtering noise within sequence history. To address these, we propose a Motivation-Aware Personalized Search (MAPS) method. It embeds queries and consultations into a unified semantic space via LLMs, utilizes a Mixture of Attention Experts (MoAE) to prioritize critical semantics, and introduces dual alignment: (1) contrastive learning aligns consultations, reviews, and product features; (2) bidirectional attention integrates motivation-aware embeddings with user preferences. Extensive experiments on real and synthetic data show MAPS outperforms existing methods in both retrieval and ranking tasks.

arxiv情報

著者 Weicong Qin,Yi Xu,Weijie Yu,Chenglei Shen,Ming He,Jianping Fan,Xiao Zhang,Jun Xu
発行日 2025-03-05 05:52:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | MAPS: Motivation-Aware Personalized Search via LLM-Driven Consultation Alignment はコメントを受け付けていません

STAA-SNN: Spatial-Temporal Attention Aggregator for Spiking Neural Networks

要約

スパイクニューラルネットワーク(SNN)は、生物学的妥当性とエネルギー効率のために大きな注目を集めており、人工ニューラルネットワーク(ANN)の有望な代替品になっています。
ただし、SNNとANNSのパフォーマンスギャップは、SNNの広範な採用を妨げる大きな課題のままです。
この論文では、空間的な注意アグリゲーターSNN(STAA-SNN)フレームワークを提案します。これは、空間的依存性と時間的依存関係の両方に動的に焦点を当ててキャプチャします。
まず、SNN専用に設計されたスパイク駆動型の自己触媒メカニズムを紹介します。
さらに、潜在的な時間的関係を着信機能に統合するためのポジションエンコードを先駆的に組み込みます。
空間的情報集約については、ステップに注意を払って、さまざまなステップで関連する機能を選択的に増幅します。
最後に、ローカルオプティマを回避するためのタイムステップのランダムドロップアウト戦略を実装します。
その結果、STAA-SNNは空間的および時間的依存関係の両方を効果的にキャプチャし、モデルが複雑なパターンを分析し、正確な予測を行うことができます。
このフレームワークは、多様なデータセット全体で並外れたパフォーマンスを実証し、強力な一般化機能を示しています。
特に、STAA-SNNは、神経形態のデータセットCIFAR10-DVで最新の結果を達成し、静的データセットCIFAR-10、CIFAR-100、およびイメージェットで97.14%、82.05%、70.40%の顕著なパフォーマンスを実現します。
さらに、私たちのモデルは、0.33 \%から2.80 \%の範囲のパフォーマンスの改善を示し、時間ステップが少なくなります。
モデルのコードはGitHubで入手できます。

要約(オリジナル)

Spiking Neural Networks (SNNs) have gained significant attention due to their biological plausibility and energy efficiency, making them promising alternatives to Artificial Neural Networks (ANNs). However, the performance gap between SNNs and ANNs remains a substantial challenge hindering the widespread adoption of SNNs. In this paper, we propose a Spatial-Temporal Attention Aggregator SNN (STAA-SNN) framework, which dynamically focuses on and captures both spatial and temporal dependencies. First, we introduce a spike-driven self-attention mechanism specifically designed for SNNs. Additionally, we pioneeringly incorporate position encoding to integrate latent temporal relationships into the incoming features. For spatial-temporal information aggregation, we employ step attention to selectively amplify relevant features at different steps. Finally, we implement a time-step random dropout strategy to avoid local optima. As a result, STAA-SNN effectively captures both spatial and temporal dependencies, enabling the model to analyze complex patterns and make accurate predictions. The framework demonstrates exceptional performance across diverse datasets and exhibits strong generalization capabilities. Notably, STAA-SNN achieves state-of-the-art results on neuromorphic datasets CIFAR10-DVS, with remarkable performances of 97.14%, 82.05% and 70.40% on the static datasets CIFAR-10, CIFAR-100 and ImageNet, respectively. Furthermore, our model exhibits improved performance ranging from 0.33\% to 2.80\% with fewer time steps. The code for the model is available on GitHub.

arxiv情報

著者 Tianqing Zhang,Kairong Yu,Xian Zhong,Hongwei Wang,Qi Xu,Qiang Zhang
発行日 2025-03-05 03:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STAA-SNN: Spatial-Temporal Attention Aggregator for Spiking Neural Networks はコメントを受け付けていません

Near-infrared Image Deblurring and Event Denoising with Synergistic Neuromorphic Imaging

要約

夜間のダイナミックおよびその他の非常に暗い条件におけるイメージングの分野は、近年、印象的で変革的な進歩を見てきました。これは、新しいセンシングアプローチの台頭、たとえば近赤外(NIR)カメラの高感度とイベントカメラを最小限に抑えるイベントカメラの台頭によって推進されています。
ただし、近赤外カメラの不適切な暴露比は、歪みやぼやけの影響を受けやすくなります。
イベントカメラは、夜間の弱い信号にも非常に敏感ですが、干渉する傾向があり、多くの場合、かなりのノイズを生成し、観測と分析を大幅に分解します。
ここでは、NIRイメージングとイベントベースの技術と組み合わせた低光光イメージングの新しいフレームワークを開発します。これは、NIRイメージの脱bluringとイベントの除去を共同で実現できる相乗的神経形成イメージングと呼ばれます。
NIR画像のクロスモーダル機能と、スペクトルの一貫性と高次相互作用を介して目に見えるイベントのクロスモーダル機能を活用して、NIRの画像とイベントは同時に融合、強化、ブートストラップされます。
実際および現実的にシミュレートされたシーケンスの実験は、私たちの方法の有効性を示し、実際のシナリオで他の方法よりも精度と堅牢性が優れていることを示しています。
この研究は、NIRの画像とイベントの両方を強化するための推進力を与えます。

要約(オリジナル)

The fields of imaging in the nighttime dynamic and other extremely dark conditions have seen impressive and transformative advancements in recent years, partly driven by the rise of novel sensing approaches, e.g., near-infrared (NIR) cameras with high sensitivity and event cameras with minimal blur. However, inappropriate exposure ratios of near-infrared cameras make them susceptible to distortion and blur. Event cameras are also highly sensitive to weak signals at night yet prone to interference, often generating substantial noise and significantly degrading observations and analysis. Herein, we develop a new framework for low-light imaging combined with NIR imaging and event-based techniques, named synergistic neuromorphic imaging, which can jointly achieve NIR image deblurring and event denoising. Harnessing cross-modal features of NIR images and visible events via spectral consistency and higher-order interaction, the NIR images and events are simultaneously fused, enhanced, and bootstrapped. Experiments on real and realistically simulated sequences demonstrate the effectiveness of our method and indicate better accuracy and robustness than other methods in practical scenarios. This study gives impetus to enhance both NIR images and events, which paves the way for high-fidelity low-light imaging and neuromorphic reasoning.

arxiv情報

著者 Chao Qu,Shuo Zhu,Yuhang Wang,Zongze Wu,Xiaoyu Chen,Edmund Y. Lam,Jing Han
発行日 2025-03-05 03:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Near-infrared Image Deblurring and Event Denoising with Synergistic Neuromorphic Imaging はコメントを受け付けていません

ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse Points

要約

アーキテクチャプログラムに基づいて構築された新しい学習フレームワークであるArcproを紹介し、非常にまばらで低品質のポイント雲から構造化された3D抽象化を回復します。
具体的には、ドメイン固有の言語(DSL)を設計して、プログラムとして構築構造を階層的に表現し、メッシュに効率的に変換できます。
フィードフォワードプロセスを使用してデータ合成をトレーニングし、ネットワークが逆予測を行うことを可能にすることにより、フィードフォワードおよび逆手続きモデリングを橋渡しします。
ポイントプログラムペアでエンコーダーデコーダーをトレーニングして、非構造化ポイントクラウドからアーキテクチャプログラムへのマッピングを確立します。3D畳み込みエンコーダがポイントクラウド機能を抽出し、トランスデコーダーがトークン化されたフォームのプログラムを自動再生します。
私たちの方法による推論は非常に効率的であり、もっともらしく忠実な3D抽象化を生成します。
包括的な実験は、Arcproが従来の建築プロキシの再構成と学習ベースの抽象化方法の両方を上回ることを示しています。
さらに、マルチビューイメージと自然言語の入力を使用する可能性をさらに調査します。

要約(オリジナル)

We introduce ArcPro, a novel learning framework built on architectural programs to recover structured 3D abstractions from highly sparse and low-quality point clouds. Specifically, we design a domain-specific language (DSL) to hierarchically represent building structures as a program, which can be efficiently converted into a mesh. We bridge feedforward and inverse procedural modeling by using a feedforward process for training data synthesis, allowing the network to make reverse predictions. We train an encoder-decoder on the points-program pairs to establish a mapping from unstructured point clouds to architectural programs, where a 3D convolutional encoder extracts point cloud features and a transformer decoder autoregressively predicts the programs in a tokenized form. Inference by our method is highly efficient and produces plausible and faithful 3D abstractions. Comprehensive experiments demonstrate that ArcPro outperforms both traditional architectural proxy reconstruction and learning-based abstraction methods. We further explore its potential to work with multi-view image and natural language inputs.

arxiv情報

著者 Qirui Huang,Runze Zhang,Kangjun Liu,Minglun Gong,Hao Zhang,Hui Huang
発行日 2025-03-05 04:49:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse Points はコメントを受け付けていません

Unified Video Action Model

要約

統一されたビデオとアクションモデルは、動画がアクション予測のための豊富なシーン情報を提供し、アクションがビデオ予測のダイナミクス情報を提供するロボット工学に大きな約束を保持しています。
ただし、ビデオ生成とアクションの予測を効果的に組み合わせることは依然として挑戦的であり、現在のビデオ生成ベースの方法は、アクションの正確性と推論速度における直接政策学習のパフォーマンスに合わせるのに苦労しています。
このギャップを埋めるために、統一されたビデオアクションモデル(UVA)を導入します。これは、ビデオとアクションの予測を共同で最適化して、高精度と効率的なアクション推論の両方を実現します。
重要なのは、共同ビデオアクションの潜在的な表現を学び、ビデオアクションデコードを切り離すことにあります。
共同潜在表現は、視覚およびアクションドメインを橋渡しし、ビデオとアクションシーケンスの関係を効果的にモデル化します。
一方、2つの軽量拡散ヘッドを搭載した分離されたデコードにより、推論中にビデオ生成をバイパスすることにより、高速アクション推論が可能になります。
このような統一されたフレームワークは、マスクされた入力トレーニングを通じて汎用性の高い機能をさらに可能にします。
アクションやビデオを選択的にマスキングすることにより、単一のモデルは、フォワードダイナミクスモデリングやビデオ生成など、ポリシー学習を超えて多様なタスクに取り組むことができます。
広範な一連の実験を介して、UVAが、特定のアプリケーションに合わせた方法と比較してパフォーマンスを損なうことなく、ポリシー学習、フォワード/逆ダイナミクス、ビデオ観測予測などの幅広いロボットタスクの汎用ソリューションとして機能できることを実証します。
結果は、https://unifided-video-chract-model.github.io/で最もよく表示されます。

要約(オリジナル)

A unified video and action model holds significant promise for robotics, where videos provide rich scene information for action prediction, and actions provide dynamics information for video prediction. However, effectively combining video generation and action prediction remains challenging, and current video generation-based methods struggle to match the performance of direct policy learning in action accuracy and inference speed. To bridge this gap, we introduce the Unified Video Action model (UVA), which jointly optimizes video and action predictions to achieve both high accuracy and efficient action inference. The key lies in learning a joint video-action latent representation and decoupling video-action decoding. The joint latent representation bridges the visual and action domains, effectively modeling the relationship between video and action sequences. Meanwhile, the decoupled decoding, powered by two lightweight diffusion heads, enables high-speed action inference by bypassing video generation during inference. Such a unified framework further enables versatile functionality through masked input training. By selectively masking actions or videos, a single model can tackle diverse tasks beyond policy learning, such as forward and inverse dynamics modeling and video generation. Via an extensive set of experiments, we demonstrate that UVA can serve as a general-purpose solution for a wide range of robotics tasks, such as policy learning, forward/inverse dynamics and video observation prediction, without compromising performance compared to methods tailored for specific applications. Results are best viewed on https://unified-video-action-model.github.io/.

arxiv情報

著者 Shuang Li,Yihuai Gao,Dorsa Sadigh,Shuran Song
発行日 2025-03-04 08:26:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Unified Video Action Model はコメントを受け付けていません

OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation

要約

Vision-Language Navigation(VLN)は、言語の指示と視覚的な手がかりの両方を活用して、具体化されたAIで極めて重要な役割を果たすことにより、エージェントを環境に導くことを目的としています。
屋内VLNは広範囲に研究されていますが、屋外の空中VLNは未掘削装置のままです。
潜在的な理由は、屋外の空中ビューには広大なエリアが含まれ、データ収集がより困難になり、ベンチマークが不足していることです。
この問題に対処するために、汎用性の高いツールチェーンと空中VLNの大規模なベンチマークを含むプラットフォームであるOpenFlyを提案します。
まず、データ収集用の高度に自動化されたツールチェーンを開発し、自動ポイントクラウドの取得、シーンセマンティックセグメンテーション、フライト軌道の作成、および命令生成を可能にします。
第二に、ツールチェーンに基づいて、100kの軌跡を備えた大規模な空中VLNデータセットを構築し、18シーンの多様な高さと長さをカバーします。
対応する視覚データは、Unreal Engine、GTA V、Google Earth、3D Gaussian Splatting(3D GS)など、さまざまなレンダリングエンジンと高度な技術を使用して生成されます。
すべてのデータは高い視覚品質を示しています。
特に、3D GSは実際のレンダリングをサポートし、データセットのリアリズムをさらに強化します。
第三に、言語命令、現在の観測、および履歴キーフレームを入力として採用し、飛行アクションを直接出力するキーフレーム認識VLNモデルであるOpenFly-Agentを提案します。
広範な分析と実験が行われ、OpenFlyプラットフォームとOpenFly-Agentの優位性を示しています。
ツールチェーン、データセット、およびコードはオープンソースをかけます。

要約(オリジナル)

Vision-Language Navigation (VLN) aims to guide agents through an environment by leveraging both language instructions and visual cues, playing a pivotal role in embodied AI. Indoor VLN has been extensively studied, whereas outdoor aerial VLN remains underexplored. The potential reason is that outdoor aerial view encompasses vast areas, making data collection more challenging, which results in a lack of benchmarks. To address this problem, we propose OpenFly, a platform comprising a versatile toolchain and large-scale benchmark for aerial VLN. Firstly, we develop a highly automated toolchain for data collection, enabling automatic point cloud acquisition, scene semantic segmentation, flight trajectory creation, and instruction generation. Secondly, based on the toolchain, we construct a large-scale aerial VLN dataset with 100k trajectories, covering diverse heights and lengths across 18 scenes. The corresponding visual data are generated using various rendering engines and advanced techniques, including Unreal Engine, GTA V, Google Earth, and 3D Gaussian Splatting (3D GS). All data exhibit high visual quality. Particularly, 3D GS supports real-to-sim rendering, further enhancing the realism of the dataset. Thirdly, we propose OpenFly-Agent, a keyframe-aware VLN model, which takes language instructions, current observations, and historical keyframes as input, and outputs flight actions directly. Extensive analyses and experiments are conducted, showcasing the superiority of our OpenFly platform and OpenFly-Agent. The toolchain, dataset, and codes will be open-sourced.

arxiv情報

著者 Yunpeng Gao,Chenhui Li,Zhongrui You,Junli Liu,Zhen Li,Pengan Chen,Qizhi Chen,Zhonghan Tang,Liansheng Wang,Penghui Yang,Yiwen Tang,Yuhang Tang,Shuai Liang,Songyi Zhu,Ziqin Xiong,Yifei Su,Xinyi Ye,Jianan Li,Yan Ding,Dong Wang,Zhigang Wang,Bin Zhao,Xuelong Li
発行日 2025-03-04 08:38:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation はコメントを受け付けていません

MARLIN: Multi-Agent Reinforcement Learning Guided by Language-Based Inter-Robot Negotiation

要約

マルチエージェント強化学習は、ロボットがパフォーマンスに応じて報われるか罰せられる一連のエピソードでマルチロボットシステムをトレーニングするための重要な方法です。
システムが適切な基準に合わせてトレーニングされた後にのみ、現実の世界に展開されます。
システムが十分にトレーニングされていない場合、タスクは完了しない可能性が高く、周囲の環境にリスクをもたらす可能性があります。
言語ベースのロボット間交渉(Marlin)に導かれるマルチエージェントの強化学習を紹介します。これにより、トレーニングプロセスでは、ピークパフォーマンスに達するためにトレーニングエピソードが少なくなります。
ロボットには、タスクを交渉して議論する大規模な言語モデルが装備されており、トレーニング中にポリシーを導くために使用される計画を作成します。
このアプローチは、補強学習とトレーニング全体の大規模な言語モデルベースのアクションネゴシエーションを使用することを動的に切り替えます。
これにより、標準のマルチエージェント強化学習と比較して、必要なトレーニングエピソードの数が減少するため、システムをより早く物理的なハードウェアに展開できます。
このアプローチのパフォーマンスは、マルチエージェントの強化学習に対して評価され、私たちのハイブリッド方法がトレーニング時間を大幅に短縮し、同等の結果を達成することを示しています。

要約(オリジナル)

Multi-agent reinforcement learning is a key method for training multi-robot systems over a series of episodes in which robots are rewarded or punished according to their performance; only once the system is trained to a suitable standard is it deployed in the real world. If the system is not trained enough, the task will likely not be completed and could pose a risk to the surrounding environment. We introduce Multi-Agent Reinforcement Learning guided by Language-based Inter-Robot Negotiation (MARLIN), in which the training process requires fewer training episodes to reach peak performance. Robots are equipped with large language models that negotiate and debate a task, producing plans used to guide the policy during training. The approach dynamically switches between using reinforcement learning and large language model-based action negotiation throughout training. This reduces the number of training episodes required, compared to standard multi-agent reinforcement learning, and hence allows the system to be deployed to physical hardware earlier. The performance of this approach is evaluated against multi-agent reinforcement learning, showing that our hybrid method achieves comparable results with significantly reduced training time.

arxiv情報

著者 Toby Godfrey,William Hunt,Mohammad D. Soorati
発行日 2025-03-04 08:39:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MARLIN: Multi-Agent Reinforcement Learning Guided by Language-Based Inter-Robot Negotiation はコメントを受け付けていません