DYNUS: Uncertainty-aware Trajectory Planner in Dynamic Unknown Environments

要約

このペーパーでは、動的未知の環境向けに設計された不確実な軌跡プランナーであるDynusを紹介します。
このような設定での動作には多くの課題があります。最も顕著なのは、エージェントが障害物の根底にある真実の将来の経路を予測できないため、以前に計画されていた軌道はいつでも安全ではないため、衝突を回避するために迅速な再生を必要とします。
最近開発されたプランナーは、ソフトコントラリングアプローチを使用して、必要な高速計算時間を達成しました。
ただし、これらの方法は、静的な障害物があっても衝突のないパスを保証するものではありません。
対照的に、ハードコンストラリング方法は衝突のない安全性を確保しますが、通常は計算時間が長くなります。
これらの問題に対処するために、3つの重要な貢献を提案します。
第一に、Dynusグローバルプランナー(DGP)と時間的安全回廊の生成は、時空間空間で動作し、3D環境の静的障害と動的障害物の両方を処理します。
第二に、安全な計画フレームワークは、動的障害との潜在的な将来の衝突が検出された場合に、探索的、安全、および偶発性の軌跡の組み合わせを活用して柔軟に再ルーティングします。
最後に、高速で固定されたローカル軌道定式化は、可変除去アプローチを使用して問題のサイズを縮小し、自由変数と従属変数の間の依存関係を事前に計算することにより、衝突のない軌跡を確保することにより、より速い計算を可能にします。
密な森林、限られたオフィススペース、洞窟システム、動的環境など、さまざまなシミュレーションでDynusを評価しました。
私たちの実験は、Dynusが100%の成功率と、最先端の方法よりも約25.0%高速な移動時間を達成することを示しています。
また、シミュレーションとハードウェアの両方の実験で、四足動物、車輪付きロボット、および四足動物の複数のプラットフォームでDynusを評価しました。

要約(オリジナル)

This paper introduces DYNUS, an uncertainty-aware trajectory planner designed for dynamic unknown environments. Operating in such settings presents many challenges — most notably, because the agent cannot predict the ground-truth future paths of obstacles, a previously planned trajectory can become unsafe at any moment, requiring rapid replanning to avoid collisions. Recently developed planners have used soft-constraint approaches to achieve the necessary fast computation times; however, these methods do not guarantee collision-free paths even with static obstacles. In contrast, hard-constraint methods ensure collision-free safety, but typically have longer computation times. To address these issues, we propose three key contributions. First, the DYNUS Global Planner (DGP) and Temporal Safe Corridor Generation operate in spatio-temporal space and handle both static and dynamic obstacles in the 3D environment. Second, the Safe Planning Framework leverages a combination of exploratory, safe, and contingency trajectories to flexibly re-route when potential future collisions with dynamic obstacles are detected. Finally, the Fast Hard-Constraint Local Trajectory Formulation uses a variable elimination approach to reduce the problem size and enable faster computation by pre-computing dependencies between free and dependent variables while still ensuring collision-free trajectories. We evaluated DYNUS in a variety of simulations, including dense forests, confined office spaces, cave systems, and dynamic environments. Our experiments show that DYNUS achieves a success rate of 100% and travel times that are approximately 25.0% faster than state-of-the-art methods. We also evaluated DYNUS on multiple platforms — a quadrotor, a wheeled robot, and a quadruped — in both simulation and hardware experiments.

arxiv情報

著者 Kota Kondo,Mason Peterson,Nicholas Rober,Juan Rached Viso,Lucas Jia,Jialin Chen,Harvey Merton,Jonathan P. How
発行日 2025-04-23 14:05:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DYNUS: Uncertainty-aware Trajectory Planner in Dynamic Unknown Environments はコメントを受け付けていません

Graph2Nav: 3D Object-Relation Graph Generation to Robot Navigation

要約

現実世界での自律的なナビゲーションのために、リアルタイムの3Dオブジェクト関連グラフ生成フレームワークであるGraph2Navを提案します。
私たちのフレームワークは、3Dレイヤードシーングラフの3Dオブジェクトとオブジェクト間のセマンティック関係の両方のセットの両方を完全に生成および悪用します。これは、屋内と屋外シーンの両方に適用されます。
最新の2Dパノプティックシーングラフを活用して進め、3Dセマンティックマッピング技術を介して3Dワールドに機能することにより、オブジェクト間の3Dセマンティック関係を生成することを学びます。
このアプローチは、3Dデータから直接3Dシーングラフを学習する際の以前のトレーニングデータの制約を回避します。
3Dオブジェクトの検索と3Dシーングラフでオブジェクト関連のラベル付けにおける精度を検証するための実験を実施します。
また、大規模な言語モデルに基づいた最先端のプランナーであるSaynavとの統合を介してGraph2Navの影響を評価します。
私たちの結果は、シーングラフのオブジェクト関係をモデリングすることで、これらのナビゲーションタスクの検索効率が向上することを示しています。

要約(オリジナル)

We propose Graph2Nav, a real-time 3D object-relation graph generation framework, for autonomous navigation in the real world. Our framework fully generates and exploits both 3D objects and a rich set of semantic relationships among objects in a 3D layered scene graph, which is applicable to both indoor and outdoor scenes. It learns to generate 3D semantic relations among objects, by leveraging and advancing state-of-the-art 2D panoptic scene graph works into the 3D world via 3D semantic mapping techniques. This approach avoids previous training data constraints in learning 3D scene graphs directly from 3D data. We conduct experiments to validate the accuracy in locating 3D objects and labeling object-relations in our 3D scene graphs. We also evaluate the impact of Graph2Nav via integration with SayNav, a state-of-the-art planner based on large language models, on an unmanned ground robot to object search tasks in real environments. Our results demonstrate that modeling object relations in our scene graphs improves search efficiency in these navigation tasks.

arxiv情報

著者 Tixiao Shan,Abhinav Rajvanshi,Niluthpol Mithun,Han-Pang Chiu
発行日 2025-04-23 14:58:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Graph2Nav: 3D Object-Relation Graph Generation to Robot Navigation はコメントを受け付けていません

Physically Consistent Humanoid Loco-Manipulation using Latent Diffusion Models

要約

このホワイトペーパーでは、潜在的拡散モデル(LDMS)の機能を使用して、現実的なRGBヒトオブジェクト相互作用シーンを生成して、ヒューマノイド操作計画を導きます。
そのために、生成された画像から、連絡先の場所とロボット構成の両方を抽出し、全身軌跡最適化(to)で使用され、ヒューマノイドの物理的に一貫した軌跡を生成します。
さまざまな長老型操作シナリオのシミュレーションの完全なパイプラインを検証し、提案された連絡先およびロボット構成抽出パイプラインの広範な分析を実行します。
私たちの結果は、LDMSから抽出された情報を使用して、長期の推論を必要とする物理的に一貫した軌道を生成できることを示しています。

要約(オリジナル)

This paper uses the capabilities of latent diffusion models (LDMs) to generate realistic RGB human-object interaction scenes to guide humanoid loco-manipulation planning. To do so, we extract from the generated images both the contact locations and robot configurations that are then used inside a whole-body trajectory optimization (TO) formulation to generate physically consistent trajectories for humanoids. We validate our full pipeline in simulation for different long-horizon loco-manipulation scenarios and perform an extensive analysis of the proposed contact and robot configuration extraction pipeline. Our results show that using the information extracted from LDMs, we can generate physically consistent trajectories that require long-horizon reasoning.

arxiv情報

著者 Ilyass Taouil,Haizhou Zhao,Angela Dai,Majid Khadiv
発行日 2025-04-23 16:07:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.RO | Physically Consistent Humanoid Loco-Manipulation using Latent Diffusion Models はコメントを受け付けていません

MorphoNavi: Aerial-Ground Robot Navigation with Object Oriented Mapping in Digital Twin

要約

このペーパーでは、単一の単眼カメラを使用して、ユニバーサルエアリアルグラウンドロボットシステムの新しいマッピングアプローチを紹介します。
提案されたシステムは、さまざまな範囲のオブジェクトを検出し、特定の環境に微調整することなく位置を推定することができます。
システムのパフォーマンスは、シミュレートされた検索とレスキューのシナリオを通じて評価されました。そこでは、オペレーターがプロセスを監視している間、モルフォギアロボットがロボット犬を正常に配置しました。
この作業は、構造化されていない環境で動作できるインテリジェントなマルチモーダルロボットシステムの開発に貢献しています。

要約(オリジナル)

This paper presents a novel mapping approach for a universal aerial-ground robotic system utilizing a single monocular camera. The proposed system is capable of detecting a diverse range of objects and estimating their positions without requiring fine-tuning for specific environments. The system’s performance was evaluated through a simulated search-and-rescue scenario, where the MorphoGear robot successfully located a robotic dog while an operator monitored the process. This work contributes to the development of intelligent, multimodal robotic systems capable of operating in unstructured environments.

arxiv情報

著者 Sausar Karaf,Mikhail Martynov,Oleg Sautenkov,Zhanibek Darush,Dzmitry Tsetserukou
発行日 2025-04-23 17:41:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MorphoNavi: Aerial-Ground Robot Navigation with Object Oriented Mapping in Digital Twin はコメントを受け付けていません

Zero-shot Sim-to-Real Transfer for Reinforcement Learning-based Visual Servoing of Soft Continuum Arms

要約

柔らかい連続腕(SCAS)柔らかく変形可能な自然は、無限の自由度と非線形行動のために、モデリングと制御に課題を提示します。
この作業では、曲げとねじれが可能な単一の空気圧マニピュレーターで実証された、ゼロショットSIMからリアルへの転送機能を備えたSCASの視覚サーボのタスクのための強化学習(RL)ベースのフレームワークを紹介します。
このフレームワークは、運動計画のためのRL運動学的コントローラーと作動洗練のためのローカルコントローラーを使用して、運動学を機械的特性から切り離し、視覚的なフィードバックで最小センシングを活用します。
完全にシミュレーションでトレーニングされたRLコントローラーは、99.8%の成功率を達成しました。
ハードウェアに展開すると、ゼロショットSIMからリアルへの転送で67%の成功率が達成され、堅牢性と適応性が実証されました。
このアプローチは、3DビジュアルサーボにおけるSCASのスケーラブルなソリューションを提供し、さらに改良および拡張されたアプリケーションの可能性があります。

要約(オリジナル)

Soft continuum arms (SCAs) soft and deformable nature presents challenges in modeling and control due to their infinite degrees of freedom and non-linear behavior. This work introduces a reinforcement learning (RL)-based framework for visual servoing tasks on SCAs with zero-shot sim-to-real transfer capabilities, demonstrated on a single section pneumatic manipulator capable of bending and twisting. The framework decouples kinematics from mechanical properties using an RL kinematic controller for motion planning and a local controller for actuation refinement, leveraging minimal sensing with visual feedback. Trained entirely in simulation, the RL controller achieved a 99.8% success rate. When deployed on hardware, it achieved a 67% success rate in zero-shot sim-to-real transfer, demonstrating robustness and adaptability. This approach offers a scalable solution for SCAs in 3D visual servoing, with potential for further refinement and expanded applications.

arxiv情報

著者 Hsin-Jung Yang,Mahsa Khosravi,Benjamin Walt,Girish Krishnan,Soumik Sarkar
発行日 2025-04-23 17:41:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Zero-shot Sim-to-Real Transfer for Reinforcement Learning-based Visual Servoing of Soft Continuum Arms はコメントを受け付けていません

Should We Learn Contact-Rich Manipulation Policies from Sampling-Based Planners?

要約

ロボット操作における行動クローニング(BC)の途方もない成功は、主にヒトの遠隔操作を通じてデモンストレーションを効果的に収集できるタスクに限定されてきました。
ただし、複数の連絡先の複雑な調整を必要とする接触豊富な操作タスクのデモンストレーションは、現在のテレオ操作インターフェイスの制限のために収集することが困難です。
モデルベースの計画と最適化を活用して、連絡先が豊富な器用な操作タスクのトレーニングデータを生成する方法を調査します。
私たちの分析により、人気のあるサンプリングベースのプランナーは、ランダムツリー(RRT)を迅速に探索するのが好きで、モーションプランニングに効率的であることが、好ましくないエントロピーを備えたデモンストレーションを生成します。
これにより、ソリューションの多様性を維持しながら、デモンストレーションの一貫性を優先するデータ生成パイプラインの変更が動機付けられます。
拡散ベースのゴールコンディショニングBCアプローチと組み合わせて、当社の方法により、効果的なポリシー学習とハードウェアへのゼロショット転送は、2つの挑戦的な接触豊富な操作タスクを実現します。

要約(オリジナル)

The tremendous success of behavior cloning (BC) in robotic manipulation has been largely confined to tasks where demonstrations can be effectively collected through human teleoperation. However, demonstrations for contact-rich manipulation tasks that require complex coordination of multiple contacts are difficult to collect due to the limitations of current teleoperation interfaces. We investigate how to leverage model-based planning and optimization to generate training data for contact-rich dexterous manipulation tasks. Our analysis reveals that popular sampling-based planners like rapidly exploring random tree (RRT), while efficient for motion planning, produce demonstrations with unfavorably high entropy. This motivates modifications to our data generation pipeline that prioritizes demonstration consistency while maintaining solution diversity. Combined with a diffusion-based goal-conditioned BC approach, our method enables effective policy learning and zero-shot transfer to hardware for two challenging contact-rich manipulation tasks.

arxiv情報

著者 Huaijiang Zhu,Tong Zhao,Xinpei Ni,Jiuguang Wang,Kuan Fang,Ludovic Righetti,Tao Pang
発行日 2025-04-23 17:54:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Should We Learn Contact-Rich Manipulation Policies from Sampling-Based Planners? はコメントを受け付けていません

Energy-Efficient Autonomous Aerial Navigation with Dynamic Vision Sensors: A Physics-Guided Neuromorphic Approach

要約

ビジョンベースのオブジェクト追跡は、特に障害物回避のために、自律航空航空ナビゲーションを実現するための重要なコンポーネントです。
生物学的ビジョンに触発された神経形成動的視覚センサー(DVS)またはイベントカメラは、従来のフレームベースのカメラに有望な代替品を提供します。
これらのカメラは、挑戦的な照明条件であっても、高ダイナミックレンジとモーションブラーに対する抵抗を伴う、非同期的に強度の変化を検出できます。
スパイクニューラルネットワーク(SNN)は、これらのイベントベースの信号を効率的かつ非同期に処理するためにますます使用されています。
一方、物理ベースの人工知能(AI)は、物理モデリングを介してシステムレベルの知識をニューラルネットワークに組み込む手段を提供します。
これにより、堅牢性、エネルギー効率が向上し、象徴的な説明可能性が提供されます。
この作業では、自律ドローンナビゲーションのための神経形態ナビゲーションフレームワークを提示します。
焦点は、衝突を避けながら、移動する門を検出してナビゲートすることです。
イベントカメラを使用して、監視されていない方法で浅いSNNアーキテクチャを介して移動オブジェクトを検出します。
これは、深度入力で訓練された最適な飛行時間を予測する軽量エネルギーを認識している物理誘導ニューラルネットワーク(PGNN)と組み合わされ、最小のエネルギーパスを生成します。
このシステムは、Gazebo Simulatorに実装され、ロボットオペレーティングシステム(ROS)ミドルウェアで構築されたセンサー融合視力視力から計画するニューロシンボリックフレームワークを統合します。
この作業は、特に低遅延の意思決定のために、イベントベースのビジョンをエネルギー効率の高い自律的ナビゲーションのための物理的誘導計画と統合する将来の可能性を強調しています。

要約(オリジナル)

Vision-based object tracking is a critical component for achieving autonomous aerial navigation, particularly for obstacle avoidance. Neuromorphic Dynamic Vision Sensors (DVS) or event cameras, inspired by biological vision, offer a promising alternative to conventional frame-based cameras. These cameras can detect changes in intensity asynchronously, even in challenging lighting conditions, with a high dynamic range and resistance to motion blur. Spiking neural networks (SNNs) are increasingly used to process these event-based signals efficiently and asynchronously. Meanwhile, physics-based artificial intelligence (AI) provides a means to incorporate system-level knowledge into neural networks via physical modeling. This enhances robustness, energy efficiency, and provides symbolic explainability. In this work, we present a neuromorphic navigation framework for autonomous drone navigation. The focus is on detecting and navigating through moving gates while avoiding collisions. We use event cameras for detecting moving objects through a shallow SNN architecture in an unsupervised manner. This is combined with a lightweight energy-aware physics-guided neural network (PgNN) trained with depth inputs to predict optimal flight times, generating near-minimum energy paths. The system is implemented in the Gazebo simulator and integrates a sensor-fused vision-to-planning neuro-symbolic framework built with the Robot Operating System (ROS) middleware. This work highlights the future potential of integrating event-based vision with physics-guided planning for energy-efficient autonomous navigation, particularly for low-latency decision-making.

arxiv情報

著者 Sourav Sanyal,Amogh Joshi,Manish Nagaraj,Rohan Kumar Manna,Kaushik Roy
発行日 2025-04-23 17:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Energy-Efficient Autonomous Aerial Navigation with Dynamic Vision Sensors: A Physics-Guided Neuromorphic Approach はコメントを受け付けていません

Plane-Wave Decomposition and Randomised Training; a Novel Path to Generalised PINNs for SHM

要約

この論文では、フーリエ分解の形式の学習に基づいて、物理学に基づいた神経ネットワーク(PINNS)の定式化と、ランダムに選択された境界条件の広がりに基づくトレーニング方法論を紹介します。
このようにトレーニングすることにより、一般化するPINNを作成します。
トレーニング後、それは任意の一連の境界条件のソリューションを正しく予測し、トレーニングドメインに及ぶサンプル間のこのソリューションを補間するために使用できます。
2つの結合オシレーターのおもちゃシステムに対して、これにより、特定の境界条件からの解のこの分離により、トレーニング時間比と評価時間比の効果的な削減により、PINNの定式化が真の予測機能を与えることを実証します。

要約(オリジナル)

In this paper, we introduce a formulation of Physics-Informed Neural Networks (PINNs), based on learning the form of the Fourier decomposition, and a training methodology based on a spread of randomly chosen boundary conditions. By training in this way we produce a PINN that generalises; after training it can be used to correctly predict the solution for an arbitrary set of boundary conditions and interpolate this solution between the samples that spanned the training domain. We demonstrate for a toy system of two coupled oscillators that this gives the PINN formulation genuine predictive capability owing to an effective reduction of the training to evaluation times ratio due to this decoupling of the solution from specific boundary conditions.

arxiv情報

著者 Rory Clements,James Ellis,Geoff Hassall,Simon Horsley,Gavin Tabor
発行日 2025-04-23 13:21:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.comp-ph | Plane-Wave Decomposition and Randomised Training; a Novel Path to Generalised PINNs for SHM はコメントを受け付けていません

PIN-WM: Learning Physics-INformed World Models for Non-Prehensile Manipulation

要約

非摂食操作(たとえば、制御されたプッシュ/突き刺し)は基礎的なロボットスキルを構成しますが、その学習は、摩擦と賠償を含む複雑な物理的相互作用に対する感受性のために依然として困難です。
堅牢な政策学習と一般化を達成するために、非摂食操作に関与する3D剛体の体のダイナミクスの世界モデルを学び、モデルベースの強化学習に使用することを選択します。
視覚的観測から3Dリジッドボディダイナミカルシステムの効率的なエンドツーエンドの識別を可能にする物理学に基づいた世界モデルであるPIN-WMを提案します。
微分可能な物理シミュレーションを採用すると、PIN-WMは、少数のショットとタスクに依存しない物理的相互作用の軌跡しか得られません。
さらに、PIN-WMは、状態の推定を必要とせずにガウスのスプラッティングによって引き起こされる観察損失で学習されます。
SIM2REALのギャップをブリッジするために、学習したPIN-WMを、物理学を妨害し、パラメーターをレンダリングしてPIN-WMの多様で意味のあるバリエーションを生成するパラメーターをレンダリングする物理的なランダム化を介して、デジタルカズンのグループに変えます。
シミュレーションと現実世界の両方のテストでの広範な評価は、物理学を認識しているデジタルのいとこで強化されたPIN-WMが、SIM2REAL転送で堅牢な非摂取操作スキルを促進し、Real2Sim2realの最先端を上回ることを示しています。

要約(オリジナル)

While non-prehensile manipulation (e.g., controlled pushing/poking) constitutes a foundational robotic skill, its learning remains challenging due to the high sensitivity to complex physical interactions involving friction and restitution. To achieve robust policy learning and generalization, we opt to learn a world model of the 3D rigid body dynamics involved in non-prehensile manipulations and use it for model-based reinforcement learning. We propose PIN-WM, a Physics-INformed World Model that enables efficient end-to-end identification of a 3D rigid body dynamical system from visual observations. Adopting differentiable physics simulation, PIN-WM can be learned with only few-shot and task-agnostic physical interaction trajectories. Further, PIN-WM is learned with observational loss induced by Gaussian Splatting without needing state estimation. To bridge Sim2Real gaps, we turn the learned PIN-WM into a group of Digital Cousins via physics-aware randomizations which perturb physics and rendering parameters to generate diverse and meaningful variations of the PIN-WM. Extensive evaluations on both simulation and real-world tests demonstrate that PIN-WM, enhanced with physics-aware digital cousins, facilitates learning robust non-prehensile manipulation skills with Sim2Real transfer, surpassing the Real2Sim2Real state-of-the-arts.

arxiv情報

著者 Wenxuan Li,Hang Zhao,Zhiyuan Yu,Yu Du,Qin Zou,Ruizhen Hu,Kai Xu
発行日 2025-04-23 13:27:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | PIN-WM: Learning Physics-INformed World Models for Non-Prehensile Manipulation はコメントを受け付けていません

A Unified Retrieval Framework with Document Ranking and EDU Filtering for Multi-document Summarization

要約

マルチドキュメント要約(MDS)の分野では、変圧器ベースのモデルは驚くべき成功を示していますが、入力長の制限があります。
現在の方法は、検索プロセスの後に切り捨てを適用して、コンテキストの長さに適合します。
ただし、それらは手動で巧みに作られたクエリに大きく依存しています。これは、MDSのドキュメントセットごとに作成するのは実用的ではありません。
さらに、これらの方法は、粗い粒度で情報を取得し、無関係なコンテンツを含めることにつながります。
これらの問題に対処するために、クエリの選択とドキュメントのランキングを統合し、統一されたプロセスに短縮する新しい検索ベースのフレームワークを提案します。
私たちのアプローチは、入力ドキュメントから最も顕著な基本談話ユニット(EDU)を特定し、それらを潜在クエリとして利用しています。
これらのクエリは、関連性スコアを計算することにより、ドキュメントのランキングをガイドします。
従来の切り捨ての代わりに、私たちのアプローチは、コンテキストの長さに適合するように無関係なEDUを除外し、要約のために重要な情報のみが保持されるようにします。
複数のMDSデータセットでのフレームワークを評価し、ルージュメトリックの一貫した改善を実証しながら、多様なモデルアーキテクチャ全体のスケーラビリティと柔軟性を確認します。
さらに、詳細な分析を通じてその有効性を検証し、適切なクエリを動的に選択し、関連スコアに基づいてドキュメントを正確にランク付けする能力を強調します。
これらの結果は、私たちのフレームワークがコンテキストの長さの制約に効果的に対処し、MDSの堅牢で信頼できるソリューションとして確立されることを示しています。

要約(オリジナル)

In the field of multi-document summarization (MDS), transformer-based models have demonstrated remarkable success, yet they suffer an input length limitation. Current methods apply truncation after the retrieval process to fit the context length; however, they heavily depend on manually well-crafted queries, which are impractical to create for each document set for MDS. Additionally, these methods retrieve information at a coarse granularity, leading to the inclusion of irrelevant content. To address these issues, we propose a novel retrieval-based framework that integrates query selection and document ranking and shortening into a unified process. Our approach identifies the most salient elementary discourse units (EDUs) from input documents and utilizes them as latent queries. These queries guide the document ranking by calculating relevance scores. Instead of traditional truncation, our approach filters out irrelevant EDUs to fit the context length, ensuring that only critical information is preserved for summarization. We evaluate our framework on multiple MDS datasets, demonstrating consistent improvements in ROUGE metrics while confirming its scalability and flexibility across diverse model architectures. Additionally, we validate its effectiveness through an in-depth analysis, emphasizing its ability to dynamically select appropriate queries and accurately rank documents based on their relevance scores. These results demonstrate that our framework effectively addresses context-length constraints, establishing it as a robust and reliable solution for MDS.

arxiv情報

著者 Shiyin Tan,Jaeeon Park,Dongyuan Li,Renhe Jiang,Manabu Okumura
発行日 2025-04-23 13:41:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG | A Unified Retrieval Framework with Document Ranking and EDU Filtering for Multi-document Summarization はコメントを受け付けていません