Anatomy-Aware Conditional Image-Text Retrieval

要約

Image-Text検索(ITR)は、特に希少疾患の場合、より効率的な臨床診断と治療のために、クエリイメージおよび/またはレポートを考慮して、データベースで関連する患者の症例を自動的に取得することにより、医療に幅広いアプリケーションを見つけ、臨床医と放射線科医を支援します。
ただし、従来のITRシステムは通常、患者のイメージ/レポートの類似性を測定するためのグローバルな画像またはテキスト表現のみに依存しています。
これにより、最適ではない検索パフォーマンスが発生します。
この論文では、クエリ画像と関連する疑わしい解剖学的領域を与えられた解剖学的位置的位置条件付き画像テキスト検索(ALC-ITR)フレームワークを提案します。
位置的に条件付けされたマルチモーダル検索を実行するために、セマンティックグローバルレベルと地域/単語レベルのアライメントを備えた医療関連の関連性領域に整合したビジョン言語(RRA-VL)モデルを学習して、一般化可能でよく整合したマルチモーダル表現を生成します。
さらに、ロケーション条件のコントラスト学習を実行して、マルチモーダル検索を改善するために、クロスペア地域レベルのコントラストをさらに利用します。
提案されているRRA-VLが、位相グラウンドタスクで最先端のローカリゼーションパフォーマンスを達成し、ロケーションコンディショニングの有無にかかわらずマルチモーダル検索パフォーマンスを満たすことを示します。
最後に、適切な既製のLLMプロンプトを使用して、検索された患者症例(解剖学的領域に条件付けられている)を与えられた説明と予備診断レポートを提供する際に提案されたALC-ITRシステムの一般化可能性と説明可能性を徹底的に調査します。

要約(オリジナル)

Image-Text Retrieval (ITR) finds broad applications in healthcare, aiding clinicians and radiologists by automatically retrieving relevant patient cases in the database given the query image and/or report, for more efficient clinical diagnosis and treatment, especially for rare diseases. However conventional ITR systems typically only rely on global image or text representations for measuring patient image/report similarities, which overlook local distinctiveness across patient cases. This often results in suboptimal retrieval performance. In this paper, we propose an Anatomical Location-Conditioned Image-Text Retrieval (ALC-ITR) framework, which, given a query image and the associated suspicious anatomical region(s), aims to retrieve similar patient cases exhibiting the same disease or symptoms in the same anatomical region. To perform location-conditioned multimodal retrieval, we learn a medical Relevance-Region-Aligned Vision Language (RRA-VL) model with semantic global-level and region-/word-level alignment to produce generalizable, well-aligned multi-modal representations. Additionally, we perform location-conditioned contrastive learning to further utilize cross-pair region-level contrastiveness for improved multi-modal retrieval. We show that our proposed RRA-VL achieves state-of-the-art localization performance in phase-grounding tasks, and satisfying multi-modal retrieval performance with or without location conditioning. Finally, we thoroughly investigate the generalizability and explainability of our proposed ALC-ITR system in providing explanations and preliminary diagnosis reports given retrieved patient cases (conditioned on anatomical regions), with proper off-the-shelf LLM prompts.

arxiv情報

著者 Meng Zheng,Jiajin Zhang,Benjamin Planche,Zhongpai Gao,Terrence Chen,Ziyan Wu
発行日 2025-03-10 15:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Anatomy-Aware Conditional Image-Text Retrieval はコメントを受け付けていません

YOLOE: Real-Time Seeing Anything

要約

オブジェクトの検出とセグメンテーションはコンピュータービジョンアプリケーションで広く採用されていますが、ヨロシリーズのような従来のモデルは、効率的で正確であるが、事前定義されたカテゴリによって制限され、オープンシナリオでの適応性を妨げます。
最近のオープンセットの方法は、これを克服するためにテキストプロンプト、視覚的な手がかり、またはプロンプトフリーパラダイムを活用しますが、多くの場合、高い計算需要または展開の複雑さによりパフォーマンスと効率性を妥協します。
この作業では、単一の非常に効率的なモデル内の多様なオープンプロンプトメカニズム全体で検出とセグメンテーションを統合し、何でもリアルタイムで達成するヨーローを紹介します。
テキストのプロンプトについては、再パラメーター化可能な領域テキストアライメント(REPRTA)戦略を提案します。
再パラメーター化可能な軽量補助ネットワークを介して、前処理されたテキスト埋め込みを改良し、ゼロ推論とオーバーヘッドの転送で視覚的テキストアライメントを強化します。
視覚的なプロンプトについては、セマンティックアクティブ化された視覚プロンプトエンコーダー(SAVPE)を提示します。
デカップされたセマンティックおよびアクティベーションブランチを使用して、視覚的な埋め込みと精度を最小限に抑えて改善します。
プロンプトフリーシナリオについては、Lazy Region-Prompt Contrast(LRPC)戦略を紹介します。
コストのかかる言語モデルの依存関係を避けるために、すべてのオブジェクトを識別するために、組み込みの大きな語彙と特殊な埋め込みを利用します。
広範な実験では、ヨーローの並外れたゼロショットパフォーマンスと、高い耐久効率と低トレーニングコストを備えた転送可能性が示されています。
特に、LVIでは、3 $ \ Times $のトレーニングコストと1.4 $ \ Times $ Inference Speepupで、Yoloe-V8-Sは3.5 APでYolo-Worldv2-Sを上回ります。
ココに移動すると、Yoloe-V8-Lは0.6 AP $^b $および0.4 AP $^m $の閉じたセットYolov8-Lを獲得し、トレーニング時間が約4 $ \ times $ $ \ timesを達成します。
コードとモデルはhttps://github.com/thu-mig/yoloeで入手できます。

要約(オリジナル)

Object detection and segmentation are widely employed in computer vision applications, yet conventional models like YOLO series, while efficient and accurate, are limited by predefined categories, hindering adaptability in open scenarios. Recent open-set methods leverage text prompts, visual cues, or prompt-free paradigm to overcome this, but often compromise between performance and efficiency due to high computational demands or deployment complexity. In this work, we introduce YOLOE, which integrates detection and segmentation across diverse open prompt mechanisms within a single highly efficient model, achieving real-time seeing anything. For text prompts, we propose Re-parameterizable Region-Text Alignment (RepRTA) strategy. It refines pretrained textual embeddings via a re-parameterizable lightweight auxiliary network and enhances visual-textual alignment with zero inference and transferring overhead. For visual prompts, we present Semantic-Activated Visual Prompt Encoder (SAVPE). It employs decoupled semantic and activation branches to bring improved visual embedding and accuracy with minimal complexity. For prompt-free scenario, we introduce Lazy Region-Prompt Contrast (LRPC) strategy. It utilizes a built-in large vocabulary and specialized embedding to identify all objects, avoiding costly language model dependency. Extensive experiments show YOLOE’s exceptional zero-shot performance and transferability with high inference efficiency and low training cost. Notably, on LVIS, with 3$\times$ less training cost and 1.4$\times$ inference speedup, YOLOE-v8-S surpasses YOLO-Worldv2-S by 3.5 AP. When transferring to COCO, YOLOE-v8-L achieves 0.6 AP$^b$ and 0.4 AP$^m$ gains over closed-set YOLOv8-L with nearly 4$\times$ less training time. Code and models are available at https://github.com/THU-MIG/yoloe.

arxiv情報

著者 Ao Wang,Lihao Liu,Hui Chen,Zijia Lin,Jungong Han,Guiguang Ding
発行日 2025-03-10 15:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | YOLOE: Real-Time Seeing Anything はコメントを受け付けていません

A Review on Geometry and Surface Inspection in 3D Concrete Printing

要約

建設中の添加剤の使用(AMC)の使用の大幅な成長を考えると、従来の製造された部品よりもはるかに複雑な印刷標本の品質を確保する必要があります。
この研究では、3Dコンクリート印刷(3DCP)のジオメトリと表面品質制御のさまざまな側面を調査し、堆積ベースの方法、つまり押出およびショットクリート3D印刷(SC3DP)に特に重点を置いています。
既存の品質管理(QC)の方法と戦略の包括的な概要が提供され、詳細な議論があります。
4つのカテゴリのデータキャプチャテクノロジーが調査され、AMCのコンテキストでのその利点と制限について説明します。
さらに、データキャプチャに対する環境条件とオブジェクトの特性の影響も分析されます。
この調査は、さまざまなセンサーの自動データキャプチャ計画方法にまで及びます。
さらに、(i)印刷中、(ii)層的、(iii)Preasembly、および(iv)アセンブリを含む、印刷オブジェクトの製造サイクルのさまざまな段階でさまざまな品質管理戦略が調査されます。
AMCですでに適用されている方法のレビューに加えて、さまざまな研究ギャップと将来の傾向にも対処し、AMCに転送できる隣接するドメインからの潜在的な方法論を強調します。

要約(オリジナル)

Given the substantial growth in the use of additive manufacturing in construction (AMC), it is necessary to ensure the quality of printed specimens which can be much more complex than conventionally manufactured parts. This study explores the various aspects of geometry and surface quality control for 3D concrete printing (3DCP), with a particular emphasis on deposition-based methods, namely extrusion and shotcrete 3D printing (SC3DP). A comprehensive overview of existing quality control (QC) methods and strategies is provided and preceded by an in-depth discussion. Four categories of data capture technologies are investigated and their advantages and limitations in the context of AMC are discussed. Additionally, the effects of environmental conditions and objects’ properties on data capture are also analyzed. The study extends to automated data capture planning methods for different sensors. Furthermore, various quality control strategies are explored across different stages of the fabrication cycle of the printed object including: (i) During printing, (ii) Layer-wise, (iii) Preassembly, and (iv) Assembly. In addition to reviewing the methods already applied in AMC, we also address various research gaps and future trends and highlight potential methodologies from adjacent domains that could be transferred to AMC.

arxiv情報

著者 K. Mawas,M. Maboudi,M. Gerke
発行日 2025-03-10 15:48:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A Review on Geometry and Surface Inspection in 3D Concrete Printing はコメントを受け付けていません

SOGS: Second-Order Anchor for Advanced 3D Gaussian Splatting

要約

アンカーベースの3Dガウススプラッティング(3D-GS)は、3Dガウス予測でアンカー機能を悪用し、ガウス冗長性を低下させて印象的な3Dレンダリング品質を達成しました。
一方、アンカーの特徴、モデルサイズ、レンダリング品質のジレンマにしばしば遭遇します。大規模なアンカー機能は、大規模な3Dモデルと高品質のレンダリングにつながりますが、アンカー機能の低下はガウス属性の予測を分解し、レンダリングされたテクスチャーと幾何学の透明なアーティファクトを引き起こします。
2次アンカーを導入して、優れたレンダリング品質とアンカー機能とモデルサイズの削減を同時に実現するアンカーベースの3D-GSテクニックであるSOGSを設計します。
具体的には、SOGSには、各アンカー内の特徴を拡張するための特徴の寸法を介した共分散ベースの2次統計と相関関係を組み込み、機能サイズの削減を補償し、品質を効果的に改善します。
さらに、シーンのテクスチャとシーンの形状の最適化を強化するための選択的勾配損失を導入し、小さなアンカー機能を使用した高品質のレンダリングにつながります。
複数の広く採用されているベンチマークをめぐる広範な実験は、SOGがモデルサイズを明確に縮小した新しいビューシンシシスで優れたレンダリング品質を達成することを示しています。

要約(オリジナル)

Anchor-based 3D Gaussian splatting (3D-GS) exploits anchor features in 3D Gaussian prediction, which has achieved impressive 3D rendering quality with reduced Gaussian redundancy. On the other hand, it often encounters the dilemma among anchor features, model size, and rendering quality – large anchor features lead to large 3D models and high-quality rendering whereas reducing anchor features degrades Gaussian attribute prediction which leads to clear artifacts in the rendered textures and geometries. We design SOGS, an anchor-based 3D-GS technique that introduces second-order anchors to achieve superior rendering quality and reduced anchor features and model size simultaneously. Specifically, SOGS incorporates covariance-based second-order statistics and correlation across feature dimensions to augment features within each anchor, compensating for the reduced feature size and improving rendering quality effectively. In addition, it introduces a selective gradient loss to enhance the optimization of scene textures and scene geometries, leading to high-quality rendering with small anchor features. Extensive experiments over multiple widely adopted benchmarks show that SOGS achieves superior rendering quality in novel view synthesis with clearly reduced model size.

arxiv情報

著者 Jiahui Zhang,Fangneng Zhan,Ling Shao,Shijian Lu
発行日 2025-03-10 15:50:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SOGS: Second-Order Anchor for Advanced 3D Gaussian Splatting はコメントを受け付けていません

VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models

要約

大規模な視覚言語モデル(LVLMS)は、マルチモーダルタスクで強力なパフォーマンスを実証していますが、推論プロセス中にバイアスのためにエラーが発生する場合があります。
最近、報酬モデル(RMS)は、推論プロセスでますます極めて重要になっています。
具体的には、プロセスRMSは各推論ステップを評価し、結果RMSが推論結果の評価に焦点を当て、批評RMS RMSが推論プロセス全体でエラー分析を実行し、それに続いて修正を行います。
ただし、ビジョン言語RMS(VLRMS)の既存のベンチマークは、通常、機能の単一の側面のみを評価します(たとえば、2つの回答を区別します)。
このギャップに対処するために、vlrmbenchと呼ばれる包括的で挑戦的なベンチマークを提案し、12,634の質問を網羅しています。
VLRMBenchは、数学的推論、幻覚の理解、およびマルチイメージの理解をカバーする3つの異なるタイプのデータセットに基づいて構築されています。
3つの主要なカテゴリにわたって12のタスクを設計し、プロセスの理解、結果の判断、批評の生成の側面におけるVLRMの評価に焦点を当てています。
21のオープンソースモデルと5つの高度な閉鎖モデルで広範な実験が行われ、VLRMBenchがもたらす課題を強調しています。
たとえば、バイナリ分類タスクである「将来の予測」では、高度なGPT-4oは76.0%の精度のみを達成します。
さらに、包括的な分析研究を実施し、VLRMSの将来の発展に貴重な洞察を提供します。
VLRMBenchは、VLRMを進める上で重要なベンチマークとして機能すると予想しています。
コードとデータセットはhttps://github.com/jcruan519/vlrmbenchで入手できます。

要約(オリジナル)

Although large visual-language models (LVLMs) have demonstrated strong performance in multimodal tasks, errors may occasionally arise due to biases during the reasoning process. Recently, reward models (RMs) have become increasingly pivotal in the reasoning process. Specifically, process RMs evaluate each reasoning step, outcome RMs focus on the assessment of reasoning results, and critique RMs perform error analysis on the entire reasoning process, followed by corrections. However, existing benchmarks for vision-language RMs (VLRMs) typically assess only a single aspect of their capabilities (e.g., distinguishing between two answers), thus limiting the all-round evaluation and restricting the development of RMs in the visual-language domain. To address this gap, we propose a comprehensive and challenging benchmark, dubbed as VLRMBench, encompassing 12,634 questions. VLRMBench is constructed based on three distinct types of datasets, covering mathematical reasoning, hallucination understanding, and multi-image understanding. We design 12 tasks across three major categories, focusing on evaluating VLRMs in the aspects of process understanding, outcome judgment, and critique generation. Extensive experiments are conducted on 21 open-source models and 5 advanced closed-source models, highlighting the challenges posed by VLRMBench. For instance, in the `Forecasting Future’, a binary classification task, the advanced GPT-4o achieves only a 76.0% accuracy. Additionally, we perform comprehensive analytical studies, offering valuable insights for the future development of VLRMs. We anticipate that VLRMBench will serve as a pivotal benchmark in advancing VLRMs. Code and datasets will be available at https://github.com/JCruan519/VLRMBench.

arxiv情報

著者 Jiacheng Ruan,Wenzhen Yuan,Xian Gao,Ye Guo,Daoxin Zhang,Zhe Xu,Yao Hu,Ting Liu,Yuzhuo Fu
発行日 2025-03-10 15:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models はコメントを受け付けていません

Chameleon: Fast-slow Neuro-symbolic Lane Topology Extraction

要約

レーントポロジ抽出には、車線と交通要素を検出し、その関係を決定することが含まれます。これは、地図のない自律運転の重要な知覚タスクです。
このタスクには、左折することが可能かどうかを判断するなど、複雑な推論が必要です。
この課題に対処するために、Vision-Language Foundation Models(VLMS)を搭載したニューロシンボリック法を紹介します。
既存のアプローチには顕著な制限があります。(1)VLMSによる密度の高い視覚的プロンプトは、財源と二酸化炭素排出量の両方の点でコストがかかるため、ロボット工学アプリケーションでは非現実的です。
(2)3Dシーンの理解のためのニューロシンボリック推論方法は、プログラムを合成するときに視覚入力を統合することができず、複雑なコーナーケースの処理に効果がありません。
この目的のために、Chameleonという名前の高速スローニューロシンボリックレーントポロジ抽出アルゴリズムを提案します。これは、合成プログラムを使用して検出されたインスタンスを直接推論する高速システムと、コーナーケースを処理するためのチェーンデザインでVLMを使用する遅いシステムを直接推論することを交互に交互に交互に行います。
カメレオンは両方のアプローチの強みを活用し、高性能を維持しながら手頃なソリューションを提供します。
OpenLane-V2データセットのメソッドを評価し、さまざまなベースライン検出器にわたって一貫した改善を示します。
私たちのコード、データ、モデルはhttps://github.com/xr-lee/neural-symbolicで公開されています

要約(オリジナル)

Lane topology extraction involves detecting lanes and traffic elements and determining their relationships, a key perception task for mapless autonomous driving. This task requires complex reasoning, such as determining whether it is possible to turn left into a specific lane. To address this challenge, we introduce neuro-symbolic methods powered by vision-language foundation models (VLMs). Existing approaches have notable limitations: (1) Dense visual prompting with VLMs can achieve strong performance but is costly in terms of both financial resources and carbon footprint, making it impractical for robotics applications. (2) Neuro-symbolic reasoning methods for 3D scene understanding fail to integrate visual inputs when synthesizing programs, making them ineffective in handling complex corner cases. To this end, we propose a fast-slow neuro-symbolic lane topology extraction algorithm, named Chameleon, which alternates between a fast system that directly reasons over detected instances using synthesized programs and a slow system that utilizes a VLM with a chain-of-thought design to handle corner cases. Chameleon leverages the strengths of both approaches, providing an affordable solution while maintaining high performance. We evaluate the method on the OpenLane-V2 dataset, showing consistent improvements across various baseline detectors. Our code, data, and models are publicly available at https://github.com/XR-Lee/neural-symbolic

arxiv情報

著者 Zongzheng Zhang,Xinrun Li,Sizhe Zou,Guoxuan Chi,Siqi Li,Xuchong Qiu,Guoliang Wang,Guantian Zheng,Leichen Wang,Hang Zhao,Hao Zhao
発行日 2025-03-10 16:02:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Chameleon: Fast-slow Neuro-symbolic Lane Topology Extraction はコメントを受け付けていません

LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition?

要約

最近、マルチモーダル大規模モデル(MLLM)は、さまざまなビジョン言語タスクにわたる視覚的理解と推論において並外れた能力を実証しています。
ただし、MLLMは通常、撮影された機能や利用可能な医療知識を完全に活用していないため、ゼロショットの医療疾患認識ではあまり機能しません。
この課題に対処するために、ゼロショット医療疾患認識のためのシンプルで効果的なフレームワークであるLlava-Radzを提案します。
具体的には、MLLMデコーダーアーキテクチャの特性を活用して、さまざまなモダリティに合わせたモダリティ固有のトークンを組み込み、画像とテキストの表現を効果的に活用し、堅牢な交代アライメントを促進するために、エンドツーエンドのトレーニング戦略を設計します。
さらに、ドメインナレッジアンカーモジュール(DKAM)を導入して、画像テキストアライメントのカテゴリセマンティックギャップを軽減する大きなモデルの本質的な医学的知識を活用します。
DKAMはカテゴリレベルのアラインメントを改善し、正確な疾患認識を可能にします。
複数のベンチマークでの広範な実験は、Llava-Radzがゼロショットの疾患認識で従来のMLLMを大幅に上回り、確立された高度に最適化されたクリップベースのアプローチと比較して最先端のパフォーマンスを示すことを示しています。

要約(オリジナル)

Recently, multimodal large models (MLLMs) have demonstrated exceptional capabilities in visual understanding and reasoning across various vision-language tasks. However, MLLMs usually perform poorly in zero-shot medical disease recognition, as they do not fully exploit the captured features and available medical knowledge. To address this challenge, we propose LLaVA-RadZ, a simple yet effective framework for zero-shot medical disease recognition. Specifically, we design an end-to-end training strategy, termed Decoding-Side Feature Alignment Training (DFAT) to take advantage of the characteristics of the MLLM decoder architecture and incorporate modality-specific tokens tailored for different modalities, which effectively utilizes image and text representations and facilitates robust cross-modal alignment. Additionally, we introduce a Domain Knowledge Anchoring Module (DKAM) to exploit the intrinsic medical knowledge of large models, which mitigates the category semantic gap in image-text alignment. DKAM improves category-level alignment, allowing for accurate disease recognition. Extensive experiments on multiple benchmarks demonstrate that our LLaVA-RadZ significantly outperforms traditional MLLMs in zero-shot disease recognition and exhibits the state-of-the-art performance compared to the well-established and highly-optimized CLIP-based approaches.

arxiv情報

著者 Bangyan Li,Wenxuan Huang,Yunhang Shen,Yeqiang Wang,Shaohui Lin,Jingzhong Lin,Ling You,Yinqi Zhang,Ke Li,Xing Sun,Yuling Sun
発行日 2025-03-10 16:05:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? はコメントを受け付けていません

Small-Scale Testbeds for Connected and Automated Vehicles and Robot Swarms: Challenges and a Roadmap

要約

この記事では、接続された自動化された車両(CAVS)およびロボットの群れの小規模なテストベッドの現在の課題に対処するためのロードマップを提案しています。
ロードマップは、6月2日に韓国のジェジュで開催されたIEEEインテリジェント車両シンポジウム(IV)2024で6月2日に開催された、接続された自動車およびロボット群のためのワークショップの第1ワークショップの参加者の共同努力です。
ロードマップには、1)特に過小評価されているコミュニティのアクセシビリティと多様性の向上、2)テストベッドの開発とメンテナンスのベストプラクティスを共有する3つの部分、3)コラボレーションをサポートするために抽象化層を介してテストベッドを接続する。
ワークショップには、8人の招待されたスピーカー、4つの貢献した論文[1] – [4]、およびテストベッドに関する調査ペーパーの提示が特徴です[5]。
調査用紙は、https://bassamlab.github.io/testbeds-surveyで入手可能な25を超えるテストベッドのオンライン比較表を提供します。
ワークショップ独自のウェブサイトは、https://cpm-remote.lrt.unibw-muenchen.de/iv24-workshopで入手できます。

要約(オリジナル)

This article proposes a roadmap to address the current challenges in small-scale testbeds for Connected and Automated Vehicles (CAVs) and robot swarms. The roadmap is a joint effort of participants in the workshop ‘1st Workshop on Small-Scale Testbeds for Connected and Automated Vehicles and Robot Swarms,’ held on June 2 at the IEEE Intelligent Vehicles Symposium (IV) 2024 in Jeju, South Korea. The roadmap contains three parts: 1) enhancing accessibility and diversity, especially for underrepresented communities, 2) sharing best practices for the development and maintenance of testbeds, and 3) connecting testbeds through an abstraction layer to support collaboration. The workshop features eight invited speakers, four contributed papers [1]-[4], and a presentation of a survey paper on testbeds [5]. The survey paper provides an online comparative table of more than 25 testbeds, available at https://bassamlab.github.io/testbeds-survey. The workshop’s own website is available at https://cpm-remote.lrt.unibw-muenchen.de/iv24-workshop.

arxiv情報

著者 Jianye Xu,Bassam Alrifaee,Johannes Betz,Armin Mokhtarian,Archak Mittal,Mengchi Cai,Rahul Mangharam,Omar M. Shehata,Catherine M. Elias,Jan-Nico Zaech,Patrick Scheffe,Felix Jahncke,Sangeet Sankaramangalam Ulhas,Kaj Munhoz Arfvidsson
発行日 2025-03-10 17:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | Small-Scale Testbeds for Connected and Automated Vehicles and Robot Swarms: Challenges and a Roadmap はコメントを受け付けていません

Decision-aware training of spatiotemporal forecasting models to select a top K subset of sites for intervention

要約

希少な資源の最適な割り当ては、介入のための限られた数の場所を選択することに直面する意思決定者にとって一般的な問題です。
時空間予測モデルは、そのような決定をデータ駆動型にする可能性があります。
可能な限り最高のリーチ(BPR)と呼ばれる最近のパフォーマンスメトリックは、後知恵で可能な限り最高のTop-Kと比較して、サイトのモデルの推奨サイズKサブセットを使用することの影響を測定します。
BPRに関連する2つのオープンな問題に取り組みます。
まず、サイト間でイベントカウントを共同で予測する確率モデルを与えられたすべてのサイトを数値的にランク付けする方法を探ります。
サイトごとの平均を介してランク付けすることは、BPRの最適です。
代わりに、意思決定理論に裏付けられたBPRに対してより良いランキングを提供します。
第二に、BPRを最大化するために確率モデルのパラメーターをトレーニングする方法を探ります。
Kサイトの離散選択は、標準の勾配トレーニングを防ぐ全ゼロパラメーター勾配を意味します。
摂動オプティマイザーの進歩を介してこの障壁を克服します。
さらに、尤度を意思決定に対応するBPR制約を組み合わせて、高品質のTOP-Kランキングとすべてのサイトに優れた予測を提供するトレーニング目標を提案します。
私たちは、オピオイド関連の致命的な過剰摂取を緩和し、危険にさらされた野生生物を監視するという2つの場所でのアプリケーションに関するアプローチを実証します。

要約(オリジナル)

Optimal allocation of scarce resources is a common problem for decision makers faced with choosing a limited number of locations for intervention. Spatiotemporal prediction models could make such decisions data-driven. A recent performance metric called fraction of best possible reach (BPR) measures the impact of using a model’s recommended size K subset of sites compared to the best possible top-K in hindsight. We tackle two open problems related to BPR. First, we explore how to rank all sites numerically given a probabilistic model that predicts event counts jointly across sites. Ranking via the per-site mean is suboptimal for BPR. Instead, we offer a better ranking for BPR backed by decision theory. Second, we explore how to train a probabilistic model’s parameters to maximize BPR. Discrete selection of K sites implies all-zero parameter gradients which prevent standard gradient training. We overcome this barrier via advances in perturbed optimizers. We further suggest a training objective that combines likelihood with a decision-aware BPR constraint to deliver high-quality top-K rankings as well as good forecasts for all sites. We demonstrate our approach on two where-to-intervene applications: mitigating opioid-related fatal overdoses for public health and monitoring endangered wildlife.

arxiv情報

著者 Kyle Heuton,F. Samuel Muench,Shikhar Shrestha,Thomas J. Stopka,Michael C. Hughes
発行日 2025-03-10 15:25:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Decision-aware training of spatiotemporal forecasting models to select a top K subset of sites for intervention はコメントを受け付けていません

Context-Based Meta Reinforcement Learning for Robust and Adaptable Peg-in-Hole Assembly Tasks

要約

自律的なアセンブリは、産業およびサービスロボットにとって不可欠な機能であり、PEG-inhole(PIH)挿入はコアタスクの1つです。
ただし、未知の環境でのPIHアセンブリは、センサーノイズに起因する穴の位置や方向などのタスクパラメーターの不確実性のため、依然として困難です。
コンテキストベースのメタ補強学習(RL)メソッドは、PIHアセンブリタスクで未知のタスクパラメーターに適応するために以前に提示されていますが、パフォーマンスはサンプルではない手順または人間のデモに依存します。
したがって、実際のP​​IHアセンブリタスクにおけるメタRLの適用性を高めるために、ロボットの前方運動学と非調整カメラからの情報を使用するようにエージェントを訓練することを提案します。
さらに、メタトレーニングエージェントを効率的に適応させることにより、力/トルクセンサーからのデータを使用することにより、パフォーマンスを向上させます。
最後に、パラメーターがトレーニングタスクとは異なる分散式タスクの適応手順を提案します。
シミュレートされた実際のロボットの実験では、変更が以前のアプローチと比較してPIHアセンブリタスクにおけるコンテキストベースのメタRLエージェントのメタトレーニング、現実世界の適応パフォーマンス、および一般化中のサンプル効率が向上することを証明しています。

要約(オリジナル)

Autonomous assembly is an essential capability for industrial and service robots, with Peg-in-Hole (PiH) insertion being one of the core tasks. However, PiH assembly in unknown environments is still challenging due to uncertainty in task parameters, such as the hole position and orientation, resulting from sensor noise. Although context-based meta reinforcement learning (RL) methods have been previously presented to adapt to unknown task parameters in PiH assembly tasks, the performance depends on a sample-inefficient procedure or human demonstrations. Thus, to enhance the applicability of meta RL in real-world PiH assembly tasks, we propose to train the agent to use information from the robot’s forward kinematics and an uncalibrated camera. Furthermore, we improve the performance by efficiently adapting the meta-trained agent to use data from force/torque sensor. Finally, we propose an adaptation procedure for out-of-distribution tasks whose parameters are different from the training tasks. Experiments on simulated and real robots prove that our modifications enhance the sample efficiency during meta training, real-world adaptation performance, and generalization of the context-based meta RL agent in PiH assembly tasks compared to previous approaches.

arxiv情報

著者 Ahmed Shokry,Walid Gomaa,Tobias Zaenker,Murad Dawood,Rohit Menon,Shady A. Maged,Mohammed I. Awad,Maren Bennewitz
発行日 2025-03-10 14:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Context-Based Meta Reinforcement Learning for Robust and Adaptable Peg-in-Hole Assembly Tasks はコメントを受け付けていません