Hakim: Farsi Text Embedding Model

要約

テキストの埋め込みにおける最近の進歩により、多くの言語で自然言語の理解が大幅に改善されましたが、ペルシャ語は大規模な埋め込み研究で特に過小評価されています。
この論文では、FAMTEBベンチマーク上の既存のアプローチより8.5%のパフォーマンス改善を達成する、以前に開発されたすべてのペルシャ語モデルを上回る、既存のアプローチよりも8.5%のパフォーマンス改善を達成する、ペルシャのテキスト埋め込みモデルであるHakimを紹介します。
この作業の一環として、監督された監視されていないトレーニングシナリオをサポートするために、コーペシア、ペイリアサップ、ペイリアアンサップの3つの新しいデータセットを紹介します。
さらに、Hakimは、チャットボットおよび検索された生成(RAG)システムのアプリケーション用に設計されており、特にこれらのシステムにメッセージ履歴を組み込む必要がある検索タスクに対処します。
また、Bert Architectureに基づいて構築された新しいベースラインモデルも提案します。
私たちの言語モデルは、さまざまなペルシャのNLPタスクで一貫してより高い精度を達成しますが、レトロマベースのモデルはテキスト情報検索アプリケーションに特に効果的であることが証明されています。
一緒に、これらの貢献は、ペルシャ語の理解を深めるための新しい基盤を確立します。

要約(オリジナル)

Recent advancements in text embedding have significantly improved natural language understanding across many languages, yet Persian remains notably underrepresented in large-scale embedding research. In this paper, we present Hakim, a novel state-of-the-art Persian text embedding model that achieves a 8.5% performance improvement over existing approaches on the FaMTEB benchmark, outperforming all previously developed Persian language models. As part of this work, we introduce three new datasets – Corpesia, Pairsia-sup, and Pairsia-unsup – to support supervised and unsupervised training scenarios. Additionally, Hakim is designed for applications in chatbots and retrieval-augmented generation (RAG) systems, particularly addressing retrieval tasks that require incorporating message history within these systems. We also propose a new baseline model built on the BERT architecture. Our language model consistently achieves higher accuracy across various Persian NLP tasks, while the RetroMAE-based model proves particularly effective for textual information retrieval applications. Together, these contributions establish a new foundation for advancing Persian language understanding.

arxiv情報

著者 Mehran Sarmadi,Morteza Alikhani,Erfan Zinvandi,Zahra Pourbahman
発行日 2025-05-14 13:47:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Hakim: Farsi Text Embedding Model はコメントを受け付けていません

SafeMate: A Modular RAG-Based Agent for Context-Aware Emergency Guidance

要約

豊富な公共安全文書と緊急プロトコルにもかかわらず、ほとんどの個人は、危機中にそのような情報を解釈し、行動するために装備されていないままです。
従来の緊急決定支援システム(EDSS)は、専門家向けに設計されており、PDFやSOPSなどの静的なドキュメントに大きく依存しています。
制度的知識と公共のアクセシビリティの間のこのギャップは、効果的な緊急時の準備と対応に重大な障壁をもたらします。
SafeMateを紹介します。これは、準備とアクティブな緊急シナリオの両方で、一般ユーザーに正確でコンテキスト対応のガイダンスを提供する検索されたAIアシスタントです。
モデルコンテキストプロトコル(MCP)に基づいて構築されたSafeMateは、ドキュメント取得、チェックリストの生成、および構造化された要約のためのツールにユーザークエリを動的にルーティングします。
Cosineの類似性を備えたFAISSを使用して、信頼できるソースから関連するコンテンツを識別します。

要約(オリジナル)

Despite the abundance of public safety documents and emergency protocols, most individuals remain ill-equipped to interpret and act on such information during crises. Traditional emergency decision support systems (EDSS) are designed for professionals and rely heavily on static documents like PDFs or SOPs, which are difficult for non-experts to navigate under stress. This gap between institutional knowledge and public accessibility poses a critical barrier to effective emergency preparedness and response. We introduce SafeMate, a retrieval-augmented AI assistant that delivers accurate, context-aware guidance to general users in both preparedness and active emergency scenarios. Built on the Model Context Protocol (MCP), SafeMate dynamically routes user queries to tools for document retrieval, checklist generation, and structured summarization. It uses FAISS with cosine similarity to identify relevant content from trusted sources.

arxiv情報

著者 Junfeng Jiao,Jihyung Park,Yiming Xu,Kristen Sussman,Lucy Atkinson
発行日 2025-05-14 14:30:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | SafeMate: A Modular RAG-Based Agent for Context-Aware Emergency Guidance はコメントを受け付けていません

Thermal Detection of People with Mobility Restrictions for Barrier Reduction at Traffic Lights Controlled Intersections

要約

コンピュータービジョンの深い学習における急速な進歩により、RGBカメラベースの適応トラフィックシステムが採用され、交通の安全性と歩行者の快適性が向上しました。
ただし、これらのシステムは、しばしばモビリティ制限のある人々のニーズを見落としています。
さらに、RGBカメラの使用には、有害な天候や視認性の低い条件下での限られた検出性能、およびプライバシーの懸念が高まるなど、重要な課題があります。
これらの問題に対処するために、歩行障害または移動性の負担のある個人の信号持続時間を動的に調整し、視覚障害のある個人の聴覚信号をトリガーする完全に自動化された熱検出器ベースのトラフィックシステムを提案し、それによってすべてのユーザーのバリアフリーの交差点に向かって進みます。
この目的のために、多様な歩行者シナリオをキャプチャするように設計されたモビリティ制限のある人(TD4PWMR)のサーマルデータセットを構築します。特に、さまざまな照明、天候、混雑した都市環境など、さまざまな環境条件の下で移動補助剤またはモビリティの負担を伴う個人に焦点を当てています。
サーマルイメージングは​​、プライバシーと不利な条件に対する堅牢性の点で利点を提供しますが、色の不足と細かいテクスチャの詳細と一般的に熱画像の解像度が低いため、オブジェクト検出に固有のハードルも導入します。
これらの制限を克服するために、熱イメージングの検出精度と堅牢性を高めるための高度な特徴抽出と注意メカニズムを統合するYoloアーキテクチャの新しいバリアントであるYolo-Thermalを開発します。
実験は、提案された熱検出器が既存の検出器よりも優れていることを実証し、提案された信号システムはバリアフリーの交差点を効果的に強化することを示しています。
ソースコードとデータセットは、https://github.com/leon2014dresden/yolo-thermalで入手できます。

要約(オリジナル)

Rapid advances in deep learning for computer vision have driven the adoption of RGB camera-based adaptive traffic light systems to improve traffic safety and pedestrian comfort. However, these systems often overlook the needs of people with mobility restrictions. Moreover, the use of RGB cameras presents significant challenges, including limited detection performance under adverse weather or low-visibility conditions, as well as heightened privacy concerns. To address these issues, we propose a fully automated, thermal detector-based traffic light system that dynamically adjusts signal durations for individuals with walking impairments or mobility burden and triggers the auditory signal for visually impaired individuals, thereby advancing towards barrier-free intersection for all users. To this end, we build the thermal dataset for people with mobility restrictions (TD4PWMR), designed to capture diverse pedestrian scenarios, particularly focusing on individuals with mobility aids or mobility burden under varying environmental conditions, such as different lighting, weather, and crowded urban settings. While thermal imaging offers advantages in terms of privacy and robustness to adverse conditions, it also introduces inherent hurdles for object detection due to its lack of color and fine texture details and generally lower resolution of thermal images. To overcome these limitations, we develop YOLO-Thermal, a novel variant of the YOLO architecture that integrates advanced feature extraction and attention mechanisms for enhanced detection accuracy and robustness in thermal imaging. Experiments demonstrate that the proposed thermal detector outperforms existing detectors, while the proposed traffic light system effectively enhances barrier-free intersection. The source codes and dataset are available at https://github.com/leon2014dresden/YOLO-THERMAL.

arxiv情報

著者 Xiao Ni,Carsten Kuehnel,Xiaoyi Jiang
発行日 2025-05-14 13:01:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Thermal Detection of People with Mobility Restrictions for Barrier Reduction at Traffic Lights Controlled Intersections はコメントを受け付けていません

MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification

要約

全体のスライド病理学の画像分類は、ギガピクセルの画像サイズと限られた注釈ラベルのために課題を提示し、モデルの一般化を妨げます。
このペーパーでは、少数のショット病理分類のために大規模なビジョン言語モデルを適応させるための迅速な学習方法を紹介します。
最初に、13億の病理学のイメージタイルで事前に訓練されたProv-Gigapath Vision Foundationモデルを、アダプターを追加し、923K画像テキストペアの対照学習を介して医療テキストエンコーダーと整列することにより、ビジョン言語モデルに拡張します。
次に、このモデルを使用して、視覚的な特徴とテキスト埋め込みを抽出して、少数のショット注釈と微細チューンを学習可能な迅速な埋め込みで抽出します。
プロンプトと接頭辞埋め込みまたは自己触媒を使用して凍結機能を組み合わせた以前の方法とは異なり、学習可能なプロンプトとそれらのグループとの相互作用を比較する多顆粒の注意を提案します。
このアプローチは、細かい細部とより広いコンテキストの両方をキャプチャするモデルの能力を改善し、サブリージョン全体の複雑なパターンの認識を高めます。
精度をさらに向上させるために、データ増強プロセス中に発生する可能性のある摂動を緩和することにより、モデルの堅牢性を確保するために、最適な輸送ベースの視覚テキスト距離を活用します。
肺、腎臓、および乳房の病理学のモダリティに関する経験的実験は、私たちのアプローチの有効性を検証します。
これにより、最新の競合他社のいくつかを上回り、クリップ、プリップ、プロブギガパス統合プリップなど、多様なアーキテクチャ全体のパフォーマンスを一貫して改善します。
このMGPATHで実装と事前に訓練されたモデルをリリースします。

要約(オリジナル)

Whole slide pathology image classification presents challenges due to gigapixel image sizes and limited annotation labels, hindering model generalization. This paper introduces a prompt learning method to adapt large vision-language models for few-shot pathology classification. We first extend the Prov-GigaPath vision foundation model, pre-trained on 1.3 billion pathology image tiles, into a vision-language model by adding adaptors and aligning it with medical text encoders via contrastive learning on 923K image-text pairs. The model is then used to extract visual features and text embeddings from few-shot annotations and fine-tunes with learnable prompt embeddings. Unlike prior methods that combine prompts with frozen features using prefix embeddings or self-attention, we propose multi-granular attention that compares interactions between learnable prompts with individual image patches and groups of them. This approach improves the model’s ability to capture both fine-grained details and broader context, enhancing its recognition of complex patterns across sub-regions. To further improve accuracy, we leverage (unbalanced) optimal transport-based visual-text distance to secure model robustness by mitigating perturbations that might occur during the data augmentation process. Empirical experiments on lung, kidney, and breast pathology modalities validate the effectiveness of our approach; thereby, we surpass several of the latest competitors and consistently improve performance across diverse architectures, including CLIP, PLIP, and Prov-GigaPath integrated PLIP. We release our implementations and pre-trained models at this MGPATH.

arxiv情報

著者 Anh-Tien Nguyen,Duy Minh Ho Nguyen,Nghiem Tuong Diep,Trung Quoc Nguyen,Nhat Ho,Jacqueline Michelle Metsch,Miriam Cindy Maurer,Daniel Sonntag,Hanibal Bohnenberger,Anne-Christin Hauschild
発行日 2025-05-14 14:57:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification はコメントを受け付けていません

The RaspGrade Dataset: Towards Automatic Raspberry Ripeness Grading with Deep Learning

要約

この研究では、迅速で正確で非侵襲的な食品品質評価のためのコンピュータービジョンの適用を調査し、フルーツがコンベアベルトに沿って移動するにつれて、産業環境内の5つの異なるクラスにリアルタイムのラズベリーグレーディングの新しい課題に焦点を当てています。
これに対処するために、ラズベリーの専用データセット、つまりRaspgradeが取得され、細心の注意を払って注釈が付けられました。
インスタンスセグメンテーション実験により、正確な果物レベルのマスクが得られることが明らかになりました。
ただし、特定のラズベリーグレードの分類は、色の類似性と閉塞のために課題を提示しますが、他のものは色に基づいてより容易に区別できます。
取得および注釈付きのraspgradeデータセットは、https://huggingface.co/datasets/fbk-tev/raspgradeで顔を抱き締めることができます。

要約(オリジナル)

This research investigates the application of computer vision for rapid, accurate, and non-invasive food quality assessment, focusing on the novel challenge of real-time raspberry grading into five distinct classes within an industrial environment as the fruits move along a conveyor belt. To address this, a dedicated dataset of raspberries, namely RaspGrade, was acquired and meticulously annotated. Instance segmentation experiments revealed that accurate fruit-level masks can be obtained; however, the classification of certain raspberry grades presents challenges due to color similarities and occlusion, while others are more readily distinguishable based on color. The acquired and annotated RaspGrade dataset is accessible on Hugging Face at: https://huggingface.co/datasets/FBK-TeV/RaspGrade.

arxiv情報

著者 Mohamed Lamine Mekhalfi,Paul Chippendale,Fabio Poiesi,Samuele Bonecher,Gilberto Osler,Nicola Zancanella
発行日 2025-05-14 10:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The RaspGrade Dataset: Towards Automatic Raspberry Ripeness Grading with Deep Learning はコメントを受け付けていません

WaveGuard: Robust Deepfake Detection and Source Tracing via Dual-Tree Complex Wavelet and Graph Neural Networks

要約

Deepfakeテクノロジーは、プライバシーの侵略や個人情報の盗難などのリスクを高めます。
これらの脅威に対処するために、周波数領域の埋め込みとグラフベースの構造一貫性を介して堅牢性と知覚性を高めるプロアクティブな透かし枠である導波管を提案します。
具体的には、デュアルツリー複合体ウェーブレット変換(DT-CWT)を使用して透かしを高周波サブバンドに埋め込み、構造一貫性グラフニューラルネットワーク(SC-GNN)を使用して視覚品質を維持しました。
また、埋め込み精度を改良するための注意モジュールを設計します。
フェイススワップと再現のタスクの実験結果は、導導体が堅牢性と視覚品質の両方で最先端の方法を上回ることを示しています。
コードはhttps://github.com/vpsg-research/waveguardで入手できます。

要約(オリジナル)

Deepfake technology poses increasing risks such as privacy invasion and identity theft. To address these threats, we propose WaveGuard, a proactive watermarking framework that enhances robustness and imperceptibility via frequency-domain embedding and graph-based structural consistency. Specifically, we embed watermarks into high-frequency sub-bands using Dual-Tree Complex Wavelet Transform (DT-CWT) and employ a Structural Consistency Graph Neural Network (SC-GNN) to preserve visual quality. We also design an attention module to refine embedding precision. Experimental results on face swap and reenactment tasks demonstrate that WaveGuard outperforms state-of-the-art methods in both robustness and visual quality. Code is available at https://github.com/vpsg-research/WaveGuard.

arxiv情報

著者 Ziyuan He,Zhiqing Guo,Liejun Wang,Gaobo Yang,Yunfeng Diao,Dan Ma
発行日 2025-05-14 03:27:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | WaveGuard: Robust Deepfake Detection and Source Tracing via Dual-Tree Complex Wavelet and Graph Neural Networks はコメントを受け付けていません

Beyond Single-Turn: A Survey on Multi-Turn Interactions with Large Language Models

要約

大規模な言語モデル(LLMS)の最近の進歩は、単一ターンタスクを処理する能力に革命をもたらしましたが、実際のアプリケーションでは洗練されたマルチターン相互作用が必要です。
この調査では、LLMでのマルチターン相互作用の評価と強化における最近の進歩の包括的なレビューを提供します。
数学やコーディングなどの多様なドメインでの指導から、ロールプレイ、ヘルスケア、教育、さらには敵対的な脱獄の設定における複雑な会話エンゲージメントまで、タスク固有のシナリオに焦点を当てて、長期にわたる対話上のコンテキスト、一貫性、公平性、および応答性を維持するという課題を体系的に調べます。
このペーパーは、現在のベンチマークとデータセットを、マルチターンダイアログ評価の進化する状況を反映する一貫したカテゴリに整理しています。
さらに、モデル中心の戦略(コンテキスト学習、監視された微調整、強化学習、および新しいアーキテクチャ)、外部統合アプローチ(メモリ能力、検索ベースの方法、知識グラフ)、および共同相互作用のエージェントベースの技術など、多ターン設定に基づくさまざまな強化方法論をレビューします。
最後に、LLMSにおけるマルチターン相互作用の堅牢性と有効性をさらに進めるために、研究のための将来の課題について議論し、将来の方向性を提案します。
関連リソースと論文は、https://github.com/yubol-cmu/awesome-multi-turn-llmsで入手できます。

要約(オリジナル)

Recent advancements in large language models (LLMs) have revolutionized their ability to handle single-turn tasks, yet real-world applications demand sophisticated multi-turn interactions. This survey provides a comprehensive review of recent advancements in evaluating and enhancing multi-turn interactions in LLMs. Focusing on task-specific scenarios, from instruction following in diverse domains such as math and coding to complex conversational engagements in roleplay, healthcare, education, and even adversarial jailbreak settings, we systematically examine the challenges of maintaining context, coherence, fairness, and responsiveness over prolonged dialogues. The paper organizes current benchmarks and datasets into coherent categories that reflect the evolving landscape of multi-turn dialogue evaluation. In addition, we review a range of enhancement methodologies under multi-turn settings, including model-centric strategies (contextual learning, supervised fine-tuning, reinforcement learning, and new architectures), external integration approaches (memory-augmented, retrieval-based methods, and knowledge graph), and agent-based techniques for collaborative interactions. Finally, we discuss open challenges and propose future directions for research to further advance the robustness and effectiveness of multi-turn interactions in LLMs. Related resources and papers are available at https://github.com/yubol-cmu/Awesome-Multi-Turn-LLMs.

arxiv情報

著者 Yubo Li,Xiaobin Shen,Xinyu Yao,Xueying Ding,Yidi Miao,Ramayya Krishnan,Rema Padman
発行日 2025-05-14 01:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Beyond Single-Turn: A Survey on Multi-Turn Interactions with Large Language Models はコメントを受け付けていません

Leveraging Segment Anything Model for Source-Free Domain Adaptation via Dual Feature Guided Auto-Prompting

要約

セグメンテーション用のソースフリードメイン適応(SFDA)は、ソースモデルのみでターゲットドメインでうまく機能するように、ソースドメインでうまく機能するように適応することを目的としています。
自動的に正確な境界ボックスプロンプトを見つけることによるSFDAのモデル。
既存のSFDAアプローチで直接生成された境界ボックスは、ドメインギャップのために欠陥があることがわかります。この問題に取り組むために、ボックスプロンプトを検索するために、新しいデュアル機能ガイド(DFG)オートプロンプキングアプローチを提案します。
具体的には、ソースモデルは最初に機能集約フェーズでトレーニングされます。これは、ソースモデルをターゲットドメインに事前に適応させるだけでなく、ボックスプロンプト検索用に適切に準備された機能分布を構築します。
2番目のフェーズでは、2つの機能分布観測に基づいて、ターゲットモデル機能のガイダンスと、クラスごとのクラスター化されたターゲット機能とクラスごとの分散ターゲット機能をそれぞれ処理するSAM機能のガイダンスでボックスプロンプトを徐々に展開します。
ターゲットモデルの自信過剰予測によって引き起こされる潜在的に拡大された偽陽性領域を除去するために、SAMが生成する洗練された擬似適応は、接続性分析に基づいてさらに後処理されます。
3Dおよび2Dデータセットでの実験は、私たちのアプローチが従来の方法と比較して優れた性能をもたらすことを示しています。
コードはhttps://github.com/xmed-lab/dfgで入手できます。

要約(オリジナル)

Source-free domain adaptation (SFDA) for segmentation aims at adapting a model trained in the source domain to perform well in the target domain with only the source model and unlabeled target data.Inspired by the recent success of Segment Anything Model (SAM) which exhibits the generality of segmenting images of various modalities and in different domains given human-annotated prompts like bounding boxes or points, we for the first time explore the potentials of Segment Anything Model for SFDA via automatedly finding an accurate bounding box prompt. We find that the bounding boxes directly generated with existing SFDA approaches are defective due to the domain gap.To tackle this issue, we propose a novel Dual Feature Guided (DFG) auto-prompting approach to search for the box prompt. Specifically, the source model is first trained in a feature aggregation phase, which not only preliminarily adapts the source model to the target domain but also builds a feature distribution well-prepared for box prompt search. In the second phase, based on two feature distribution observations, we gradually expand the box prompt with the guidance of the target model feature and the SAM feature to handle the class-wise clustered target features and the class-wise dispersed target features, respectively. To remove the potentially enlarged false positive regions caused by the over-confident prediction of the target model, the refined pseudo-labels produced by SAM are further postprocessed based on connectivity analysis. Experiments on 3D and 2D datasets indicate that our approach yields superior performance compared to conventional methods. Code is available at https://github.com/xmed-lab/DFG.

arxiv情報

著者 Zheang Huai,Hui Tang,Yi Li,Zhuangzhuang Chen,Xiaomeng Li
発行日 2025-05-14 02:43:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging Segment Anything Model for Source-Free Domain Adaptation via Dual Feature Guided Auto-Prompting はコメントを受け付けていません

Towards Autonomous UAV Visual Object Search in City Space: Benchmark and Agentic Methodology

要約

都市環境での航空視覚オブジェクト検索(AVOS)タスクでは、外部ガイダンスなしで視覚的およびテキストキューを使用してターゲットオブジェクトを自律的に検索および識別するために、無人航空機(UAV)が必要です。
既存のアプローチは、冗長なセマンティック処理、同様のオブジェクトの区別、および探査爆発のジレンマのために、複雑な都市環境で闘っています。
このギャップを埋め、AVOSタスクをサポートするために、一般的な都市オブジェクトの自律検索のための最初のベンチマークデータセットであるCityAvosを紹介します。
このデータセットは、さまざまな難易度レベルを持つ6つのオブジェクトカテゴリにわたる2,420のタスクで構成されており、UAVエージェントの検索機能を包括的に評価できます。
AVOSタスクを解決するために、人間の3層認知を模倣するマルチモーダル大手言語モデル(MLLM)を搭載した新しいエージェントメソッドであるPrpsearcher(知覚リアーズリング計画検索者)も提案します。
具体的には、PRPSearcherは、3つの特殊なマップを構築します。オブジェクト中心の動的セマンティックマップ空間知覚を強化する、ターゲット推論のセマンティックアトラクション値に基づく3D認知マップ、およびバランスの取れた探索 – 爆発検索の3D不確実性マップ。
また、私たちのアプローチには、類似のオブジェクトからの干渉を緩和するための除去メカニズムが組み込まれ、インスピレーション促進思想(IPT)促進メカニズムのインスピレーションを利用します。
CityAvosの実験結果は、Prpsearcherが成功率と検索効率の両方で既存のベースラインを上回ることを示しています(平均: +37.69%SR、 +28.96%SPL、-30.69%MSS、および-46.40%NE)。
有望である一方で、人間と比較したパフォーマンスのギャップは、AVOSタスクにおけるより良い意味的推論と空間的探査機能の必要性を強調しています。
この作業は、具体化されたターゲット検索における将来の進歩の基盤を確立します。
データセットとソースコードは、https://anonymous.4open.science/r/cityavos-3df8で入手できます。

要約(オリジナル)

Aerial Visual Object Search (AVOS) tasks in urban environments require Unmanned Aerial Vehicles (UAVs) to autonomously search for and identify target objects using visual and textual cues without external guidance. Existing approaches struggle in complex urban environments due to redundant semantic processing, similar object distinction, and the exploration-exploitation dilemma. To bridge this gap and support the AVOS task, we introduce CityAVOS, the first benchmark dataset for autonomous search of common urban objects. This dataset comprises 2,420 tasks across six object categories with varying difficulty levels, enabling comprehensive evaluation of UAV agents’ search capabilities. To solve the AVOS tasks, we also propose PRPSearcher (Perception-Reasoning-Planning Searcher), a novel agentic method powered by multi-modal large language models (MLLMs) that mimics human three-tier cognition. Specifically, PRPSearcher constructs three specialized maps: an object-centric dynamic semantic map enhancing spatial perception, a 3D cognitive map based on semantic attraction values for target reasoning, and a 3D uncertainty map for balanced exploration-exploitation search. Also, our approach incorporates a denoising mechanism to mitigate interference from similar objects and utilizes an Inspiration Promote Thought (IPT) prompting mechanism for adaptive action planning. Experimental results on CityAVOS demonstrate that PRPSearcher surpasses existing baselines in both success rate and search efficiency (on average: +37.69% SR, +28.96% SPL, -30.69% MSS, and -46.40% NE). While promising, the performance gap compared to humans highlights the need for better semantic reasoning and spatial exploration capabilities in AVOS tasks. This work establishes a foundation for future advances in embodied target search. Dataset and source code are available at https://anonymous.4open.science/r/CityAVOS-3DF8.

arxiv情報

著者 Yatai Ji,Zhengqiu Zhu,Yong Zhao,Beidan Liu,Chen Gao,Yihao Zhao,Sihang Qiu,Yue Hu,Quanjun Yin,Yong Li
発行日 2025-05-14 01:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards Autonomous UAV Visual Object Search in City Space: Benchmark and Agentic Methodology はコメントを受け付けていません

Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles

要約

自動運転車(AV)は、水中追跡などの科学ミッションに費用対効果の高いソリューションを提供します。
最近、Renforce Learning(RL)は、複雑な海洋環境でAVSを制御するための強力な方法として浮上しています。
ただし、これらの手法を艦隊にスケーリングする – マルチターゲット追跡または迅速で予測不可能な動きを備えたターゲットには必須であるため、重要な計算上の課題があります。
マルチエージェント補強学習(MARL)はサンプルでは有名であり、Gazebo’s Lrauvのような高忠実度シミュレーターは、100倍の速いシングルロボットシミュレーションを提供しますが、マルチビークルシナリオの大幅なスピードアップは提供されないため、Marlトレーニングは不可欠です。
これらの制限に対処するために、高レベルのダイナミクスを維持しながら、高忠実度シミュレーションを単純化されたGPUアクセラレーションの環境に転送する反復蒸留方法を提案します。
このアプローチは、並列化によりガゼボよりも最大30,000倍のスピードアップを実現し、エンドツーエンドのGPU加速により効率的なトレーニングを可能にします。
さらに、エージェントとターゲットの数に不変のマルチエージェントポリシーを学習する新しいトランスベースのアーキテクチャ(TransFMappo)を紹介し、サンプル効率を大幅に改善します。
GPUで完全に実施された大規模なカリキュラム学習に続いて、ガゼボで広範な評価を実行し、複数の急速に変動するターゲットが存在する場合でも、長期間で5メートル未満の追跡エラーを維持することを実証します。
この作業は、大規模なMarlトレーニングと高忠実度の展開とのギャップを埋め、現実世界の海上ミッションで自律的な艦隊制御のためのスケーラブルなフレームワークを提供します。

要約(オリジナル)

Autonomous vehicles (AV) offer a cost-effective solution for scientific missions such as underwater tracking. Recently, reinforcement learning (RL) has emerged as a powerful method for controlling AVs in complex marine environments. However, scaling these techniques to a fleet–essential for multi-target tracking or targets with rapid, unpredictable motion–presents significant computational challenges. Multi-Agent Reinforcement Learning (MARL) is notoriously sample-inefficient, and while high-fidelity simulators like Gazebo’s LRAUV provide 100x faster-than-real-time single-robot simulations, they offer no significant speedup for multi-vehicle scenarios, making MARL training impractical. To address these limitations, we propose an iterative distillation method that transfers high-fidelity simulations into a simplified, GPU-accelerated environment while preserving high-level dynamics. This approach achieves up to a 30,000x speedup over Gazebo through parallelization, enabling efficient training via end-to-end GPU acceleration. Additionally, we introduce a novel Transformer-based architecture (TransfMAPPO) that learns multi-agent policies invariant to the number of agents and targets, significantly improving sample efficiency. Following large-scale curriculum learning conducted entirely on GPU, we perform extensive evaluations in Gazebo, demonstrating that our method maintains tracking errors below 5 meters over extended durations, even in the presence of multiple fast-moving targets. This work bridges the gap between large-scale MARL training and high-fidelity deployment, providing a scalable framework for autonomous fleet control in real-world sea missions.

arxiv情報

著者 Matteo Gallici,Ivan Masmitja,Mario Martín
発行日 2025-05-13 04:42:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.PF, cs.RO | Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles はコメントを受け付けていません