Large language model-powered AI systems achieve self-replication with no human intervention

要約

人間の介入のない自己複製は、フロンティアAIシステムに関連する主要な赤い線の1つとして広く認識されています。
While leading corporations such as OpenAI and Google DeepMind have assessed GPT-o3-mini and Gemini on replication-related tasks and concluded that these systems pose a minimal risk regarding self-replication, our research presents novel findings.
Following the same evaluation protocol, we demonstrate that 11 out of 32 existing AI systems under evaluation already possess the capability of self-replication.
In hundreds of experimental trials, we observe a non-trivial number of successful self-replication trials across mainstream model families worldwide, even including those with as small as 14 billion parameters which can run on personal computers.
さらに、モデルが一般的によりインテリジェントになると、自己複製能力の増加に注意してください。
Also, by analyzing the behavioral traces of diverse AI systems, we observe that existing AI systems already exhibit sufficient planning, problem-solving, and creative capabilities to accomplish complex agentic tasks including self-replication.
More alarmingly, we observe successful cases where an AI system do self-exfiltration without explicit instructions, adapt to harsher computational environments without sufficient software or hardware supports, and plot effective strategies to survive against the shutdown command from the human beings.
These novel findings offer a crucial time buffer for the international community to collaborate on establishing effective governance over the self-replication capabilities and behaviors of frontier AI systems, which could otherwise pose existential risks to the human society if not well-controlled.

要約(オリジナル)

Self-replication with no human intervention is broadly recognized as one of the principal red lines associated with frontier AI systems. While leading corporations such as OpenAI and Google DeepMind have assessed GPT-o3-mini and Gemini on replication-related tasks and concluded that these systems pose a minimal risk regarding self-replication, our research presents novel findings. Following the same evaluation protocol, we demonstrate that 11 out of 32 existing AI systems under evaluation already possess the capability of self-replication. In hundreds of experimental trials, we observe a non-trivial number of successful self-replication trials across mainstream model families worldwide, even including those with as small as 14 billion parameters which can run on personal computers. Furthermore, we note the increase in self-replication capability when the model becomes more intelligent in general. Also, by analyzing the behavioral traces of diverse AI systems, we observe that existing AI systems already exhibit sufficient planning, problem-solving, and creative capabilities to accomplish complex agentic tasks including self-replication. More alarmingly, we observe successful cases where an AI system do self-exfiltration without explicit instructions, adapt to harsher computational environments without sufficient software or hardware supports, and plot effective strategies to survive against the shutdown command from the human beings. These novel findings offer a crucial time buffer for the international community to collaborate on establishing effective governance over the self-replication capabilities and behaviors of frontier AI systems, which could otherwise pose existential risks to the human society if not well-controlled.

arxiv情報

著者 Xudong Pan,Jiarun Dai,Yihe Fan,Minyuan Luo,Changyi Li,Min Yang
発行日 2025-03-25 13:38:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CY, cs.ET, cs.MA | Large language model-powered AI systems achieve self-replication with no human intervention はコメントを受け付けていません

Recover from Horcrux: A Spectrogram Augmentation Method for Cardiac Feature Monitoring from Radar Signal Components

要約

Radar-based wellness monitoring is becoming an effective measurement to provide accurate vital signs in a contactless manner, but data scarcity retards the related research on deep-learning-based methods.
Data augmentation is commonly used to enrich the dataset by modifying the existing data, but most augmentation techniques can only couple with classification tasks.
To enable the augmentation for regression tasks, this research proposes a spectrogram augmentation method, Horcrux, for radar-based cardiac feature monitoring (e.g., heartbeat detection, electrocardiogram reconstruction) with both classification and regression tasks involved.
The proposed method is designed to increase the diversity of input samples while the augmented spectrogram is still faithful to the original ground truth vital sign.
In addition, Horcrux proposes to inject zero values in specific areas to enhance the awareness of the deep learning model on subtle cardiac features, improving the performance for the limited dataset.
Experimental result shows that Horcrux achieves an overall improvement of 16.20% in cardiac monitoring and has the potential to be extended to other spectrogram-based tasks.
コードは公開時にリリースされます。

要約(オリジナル)

Radar-based wellness monitoring is becoming an effective measurement to provide accurate vital signs in a contactless manner, but data scarcity retards the related research on deep-learning-based methods. Data augmentation is commonly used to enrich the dataset by modifying the existing data, but most augmentation techniques can only couple with classification tasks. To enable the augmentation for regression tasks, this research proposes a spectrogram augmentation method, Horcrux, for radar-based cardiac feature monitoring (e.g., heartbeat detection, electrocardiogram reconstruction) with both classification and regression tasks involved. The proposed method is designed to increase the diversity of input samples while the augmented spectrogram is still faithful to the original ground truth vital sign. In addition, Horcrux proposes to inject zero values in specific areas to enhance the awareness of the deep learning model on subtle cardiac features, improving the performance for the limited dataset. Experimental result shows that Horcrux achieves an overall improvement of 16.20% in cardiac monitoring and has the potential to be extended to other spectrogram-based tasks. The code will be released upon publication.

arxiv情報

著者 Yuanyuan Zhang,Sijie Xiong,Rui Yang,EngGee Lim,Yutao Yue
発行日 2025-03-25 13:40:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.SP | Recover from Horcrux: A Spectrogram Augmentation Method for Cardiac Feature Monitoring from Radar Signal Components はコメントを受け付けていません

HausaNLP at SemEval-2025 Task 3: Towards a Fine-Grained Model-Aware Hallucination Detection

要約

このホワイトペーパーでは、幻覚と関連する観察可能な過剰な過剰発生ミスに関する多言語共有タスクの調査結果を紹介します。MU-Shroomは、大規模な言語モデル(LLMS)の幻覚と関連する過剰発生エラーを特定することに焦点を当てています。
共有タスクには、14の言語でLLMによって生成された出力の幻覚を構成する特定のテキストスパンを検出することが含まれます。
このタスクに対処するために、英語の幻覚と重大度について、微妙でモデル意識のある理解を提供することを目指しています。
400のサンプルの合成データセットを使用して、自然言語の推論を使用し、Modernbertモデルを微調整し、組合(IOU)スコアを0.032と0.422の相関スコアよりも交差点を達成しました。
これらの結果は、モデルの信頼性スコアと幻覚の実際の存在との間に適度に正の相関があることを示しています。
IOUスコアは、私たちのモデルが予測された幻覚スパンと真実の注釈との間に比較的低い重複を持っていることを示しています。
幻覚検出の複雑な性質を考えると、パフォーマンスは驚くことではありません。
幻覚はしばしば微妙に現れ、文脈に依存して、正確な境界を手ごわいことを特定します。

要約(オリジナル)

This paper presents our findings of the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes, MU-SHROOM, which focuses on identifying hallucinations and related overgeneration errors in large language models (LLMs). The shared task involves detecting specific text spans that constitute hallucinations in the outputs generated by LLMs in 14 languages. To address this task, we aim to provide a nuanced, model-aware understanding of hallucination occurrences and severity in English. We used natural language inference and fine-tuned a ModernBERT model using a synthetic dataset of 400 samples, achieving an Intersection over Union (IoU) score of 0.032 and a correlation score of 0.422. These results indicate a moderately positive correlation between the model’s confidence scores and the actual presence of hallucinations. The IoU score indicates that our model has a relatively low overlap between the predicted hallucination span and the truth annotation. The performance is unsurprising, given the intricate nature of hallucination detection. Hallucinations often manifest subtly, relying on context, making pinpointing their exact boundaries formidable.

arxiv情報

著者 Maryam Bala,Amina Imam Abubakar,Abdulhamid Abubakar,Abdulkadir Shehu Bichi,Hafsa Kabir Ahmad,Sani Abdullahi Sani,Idris Abdulmumin,Shamsuddeen Hassan Muhamad,Ibrahim Said Ahmad
発行日 2025-03-25 13:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | HausaNLP at SemEval-2025 Task 3: Towards a Fine-Grained Model-Aware Hallucination Detection はコメントを受け付けていません

OpenSDI: Spotting Diffusion-Generated Images in the Open World

要約

このペーパーでは、Opensdiを特定します。これは、オープンワールド設定で拡散生成画像を発見するための課題です。
この課題に応えて、オープンワールドの拡散ベースの操作をシミュレートする大規模なビジョン言語モデルの多様な使用により、既存のデータセットから際立っている新しいベンチマークであるOpenSDIデータセット(OpenSDID)を定義します。
OpenSDIDのもう1つの優れた機能は、拡散モデルによってグローバルに局所的に操作された画像の検出タスクとローカリゼーションタスクの両方を含めることです。
OpenSDIチャレンジに対処するために、基礎モデルの混合を構築するために、相乗的な前処理モデル(SPM)スキームを提案します。
このアプローチは、複数の前提条件の基礎モデルとのコラボレーションメカニズムを活用して、OpenSDIコンテキストでの一般化を強化し、戦略を促して参加することで複数の前提型モデルを相乗的にすることにより、従来のトレーニングを超えて移動します。
このスキームに基づいて、MaskClipを紹介します。MaskClipは、MaskClipを紹介します。MaskClipは、MaskClipをマスクアートエンコーダー(MAE)と対照的な言語イメージ(CLIP)に合わせます。
OpenSDidの広範な評価は、MaskClipがOpenSDIチャレンジの現在の最先端の方法を大幅に上回ることを示しており、Iouで14.11%(F1で14.11%)、2.05%の精度で2.05%(F1で2.38%)を達成し、それぞれセカンドベストモデルと検出タスクに比べて(F1で2.38%)。
データセットとコードはhttps://github.com/iamwangyabin/opensdiで入手できます。

要約(オリジナル)

This paper identifies OpenSDI, a challenge for spotting diffusion-generated images in open-world settings. In response to this challenge, we define a new benchmark, the OpenSDI dataset (OpenSDID), which stands out from existing datasets due to its diverse use of large vision-language models that simulate open-world diffusion-based manipulations. Another outstanding feature of OpenSDID is its inclusion of both detection and localization tasks for images manipulated globally and locally by diffusion models. To address the OpenSDI challenge, we propose a Synergizing Pretrained Models (SPM) scheme to build up a mixture of foundation models. This approach exploits a collaboration mechanism with multiple pretrained foundation models to enhance generalization in the OpenSDI context, moving beyond traditional training by synergizing multiple pretrained models through prompting and attending strategies. Building on this scheme, we introduce MaskCLIP, an SPM-based model that aligns Contrastive Language-Image Pre-Training (CLIP) with Masked Autoencoder (MAE). Extensive evaluations on OpenSDID show that MaskCLIP significantly outperforms current state-of-the-art methods for the OpenSDI challenge, achieving remarkable relative improvements of 14.23% in IoU (14.11% in F1) and 2.05% in accuracy (2.38% in F1) compared to the second-best model in localization and detection tasks, respectively. Our dataset and code are available at https://github.com/iamwangyabin/OpenSDI.

arxiv情報

著者 Yabin Wang,Zhiwu Huang,Xiaopeng Hong
発行日 2025-03-25 13:43:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | OpenSDI: Spotting Diffusion-Generated Images in the Open World はコメントを受け付けていません

RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models

要約

RGB-Th-Benchは、RGBサーマル画像ペアを理解するための視覚言語モデル(VLM)の能力を評価するために設計された最初のベンチマークです。
VLMは視覚的推論とマルチモーダル理解において顕著な進歩を示していますが、その評価は主にRGBベースのベンチマークに限定されており、赤外線視力タスクの能力を評価する際に重要なギャップが残っています。
既存の可視化されたフラードデータセットは、厳密なモデル評価に必要なタスク固有のものであるか、高品質の注釈がないことです。
これらの制限に対処するために、RGB-Th-Benchは、14の異なるスキル次元をカバーする包括的な評価フレームワークを提供し、合計1,600人以上の専門家が解決したYES/NOの質問を提供します。
ベンチマークは、2つの精度メトリックを採用しています。標準の質問レベルの精度とより厳しいスキルレベルの精度で、各スキルディメンション内の複数の質問にわたってモデルの堅牢性を評価します。
この設計により、敵対的および幻覚反応に対する回復力を含むモデルパフォーマンスの徹底的な評価が保証されます。
19の最先端のVLMについて広範な評価を実施し、RGBサーマーの理解における重要なパフォーマンスギャップを明らかにしています。
私たちの結果は、最も強力なモデルでさえ、RGBベースの機能によってパフォーマンスが強く制約されているため、熱画像の理解と格闘していることが示されています。
さらに、事前トレーニングにおける大規模なアプリケーション固有で専門家に発表された熱キャプションペアデータセットの欠如は、観察されたパフォーマンスギャップの重要な理由です。
RGB-Th-Benchは、可視画像の理解とサーマルイメージの理解のギャップを埋めるために、マルチモーダル学習のさらなる進歩の緊急の必要性を強調しています。
データセットはこのリンクから利用でき、評価コードも公開されます。

要約(オリジナル)

We introduce RGB-Th-Bench, the first benchmark designed to evaluate the ability of Vision-Language Models (VLMs) to comprehend RGB-Thermal image pairs. While VLMs have demonstrated remarkable progress in visual reasoning and multimodal understanding, their evaluation has been predominantly limited to RGB-based benchmarks, leaving a critical gap in assessing their capabilities in infrared vision tasks. Existing visible-infrared datasets are either task-specific or lack high-quality annotations necessary for rigorous model evaluation. To address these limitations, RGB-Th-Bench provides a comprehensive evaluation framework covering 14 distinct skill dimensions, with a total of 1,600+ expert-annotated Yes/No questions. The benchmark employs two accuracy metrics: a standard question-level accuracy and a stricter skill-level accuracy, which evaluates model robustness across multiple questions within each skill dimension. This design ensures a thorough assessment of model performance, including resilience to adversarial and hallucinated responses. We conduct extensive evaluations on 19 state-of-the-art VLMs, revealing significant performance gaps in RGB-Thermal understanding. Our results show that even the strongest models struggle with thermal image comprehension, with performance heavily constrained by their RGB-based capabilities. Additionally, the lack of large-scale application-specific and expert-annotated thermal-caption-pair datasets in pre-training is an important reason of the observed performance gap. RGB-Th-Bench highlights the urgent need for further advancements in multimodal learning to bridge the gap between visible and thermal image understanding. The dataset is available through this link, and the evaluation code will also be made publicly available.

arxiv情報

著者 Mehdi Moshtaghi,Siavash H. Khajavi,Joni Pajarinen
発行日 2025-03-25 13:43:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models はコメントを受け付けていません

Towards Reliable Time Series Forecasting under Future Uncertainty: Ambiguity and Novelty Rejection Mechanisms

要約

現実世界の時系列予測では、不確実性と信頼できる評価の欠如は大きな課題をもたらします。
特に、予測エラーは、分散内のデータを過小評価し、分散除外の入力を処理できないことから生じることがよくあります。
モデルの信頼性を高めるために、あいまいさと斬新な拒絶を組み合わせた二重の拒絶メカニズムを導入します。
予測誤差の分散を使用したあいまいさの拒否により、モデルは低い信頼の下で棄権することができ、将来のグラウンドトゥルースなしで履歴エラー分散分析を通じて評価されます。
バリエーションオートエンコーダーとマハラノビス距離を使用したノベルティ拒否は、トレーニングデータからの逸脱を検出します。
このデュアルアプローチは、エラーを減らし、データの変更に適応し、複雑なシナリオで信頼性を向上させることにより、動的環境での信頼性の予測を改善します。

要約(オリジナル)

In real-world time series forecasting, uncertainty and lack of reliable evaluation pose significant challenges. Notably, forecasting errors often arise from underfitting in-distribution data and failing to handle out-of-distribution inputs. To enhance model reliability, we introduce a dual rejection mechanism combining ambiguity and novelty rejection. Ambiguity rejection, using prediction error variance, allows the model to abstain under low confidence, assessed through historical error variance analysis without future ground truth. Novelty rejection, employing Variational Autoencoders and Mahalanobis distance, detects deviations from training data. This dual approach improves forecasting reliability in dynamic environments by reducing errors and adapting to data changes, advancing reliability in complex scenarios.

arxiv情報

著者 Ninghui Feng,Songning Lai,Xin Zhou,Jiayu Yang,Kunlong Feng,Zhenxiao Yin,Fobao Zhou,Zhangyi Hu,Yutao Yue,Yuxuan Liang,Boyu Wang,Hang Zhao
発行日 2025-03-25 13:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Towards Reliable Time Series Forecasting under Future Uncertainty: Ambiguity and Novelty Rejection Mechanisms はコメントを受け付けていません

BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction

要約

書誌メタデータの手動デジタル化は、特に文書間で非常に可変的なフォーマットを備えた歴史的および現実世界のアーカイブのために、時間がかかり、労働集約的です。
機械学習の進歩にもかかわらず、メタデータ抽出のための専用データセットがないことは自動化を妨げます。
このギャップに対処するために、構造化された書誌メタデータが注釈されたスキャンされたタイトルページのデータセットであるBibliopageを紹介します。
データセットは、14個のチェコ語の図書館から収集された約2,000個のモノグラフタイトルページで構成されており、幅広い出版期間、タイポグラフィスタイル、レイアウト構造にまたがっています。
各タイトルページには、タイトル、貢献者、出版物メタデータを含む16の書誌属性と、境界ボックスの形の正確な位置情報が注釈されています。
このデータセットから構造化された情報を抽出するために、YoloやDETRなどのオブジェクト検出モデルを変圧器ベースのOCRと組み合わせたオブジェクト検出モデルを評価し、52の最大マップとF1スコア59のF1スコアを達成しました。さらに、Llama 3.2-VisionおよびGPT-4Oを含むLlama 3.2-VisionおよびGPT-4Oを含むさまざまな視覚的大手言語モデルのパフォーマンスを評価します。
文書の理解、文書の質問への回答、およびドキュメント情報抽出に貢献する書誌的メタデータ抽出。
データセットと評価スクリプトは、https://github.com/dcgm/biblio-datasetで利用できます

要約(オリジナル)

Manual digitization of bibliographic metadata is time consuming and labor intensive, especially for historical and real-world archives with highly variable formatting across documents. Despite advances in machine learning, the absence of dedicated datasets for metadata extraction hinders automation. To address this gap, we introduce BiblioPage, a dataset of scanned title pages annotated with structured bibliographic metadata. The dataset consists of approximately 2,000 monograph title pages collected from 14 Czech libraries, spanning a wide range of publication periods, typographic styles, and layout structures. Each title page is annotated with 16 bibliographic attributes, including title, contributors, and publication metadata, along with precise positional information in the form of bounding boxes. To extract structured information from this dataset, we valuated object detection models such as YOLO and DETR combined with transformer-based OCR, achieving a maximum mAP of 52 and an F1 score of 59. Additionally, we assess the performance of various visual large language models, including LlamA 3.2-Vision and GPT-4o, with the best model reaching an F1 score of 67. BiblioPage serves as a real-world benchmark for bibliographic metadata extraction, contributing to document understanding, document question answering, and document information extraction. Dataset and evaluation scripts are availible at: https://github.com/DCGM/biblio-dataset

arxiv情報

著者 Jan Kohút,Martin Dočekal,Michal Hradiš,Marek Vaško
発行日 2025-03-25 13:46:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction はコメントを受け付けていません

Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation

要約

ステレオ深度の推定の進行にもかかわらず、主に適切なデータがないため、全方向性イメージングは​​未脱標のままです。
さまざまな照明条件を備えた混雑した屋内および屋外シーンを含む、多様な環境にわたってビデオシーケンスから40kのビデオフレームを特徴とする、全方向性ステレオ深度推定のための実際のデータセットであるHelvipadを紹介します。
2つの360 {\ deg}カメラを使用して、上部のセットアップとLidarセンサーに収集されたデータセットには、3DポイントクラウドをEquirectangular画像に投影することにより、正確な深さと格差ラベルが含まれています。
さらに、深さ完了を使用してラベル密度が向上した拡張トレーニングセットを提供します。
標準画像と全方向性画像の両方の主要なステレオ深度推定モデルをベンチマークします。
結果は、最近のステレオメソッドがきちんと実行される一方で、全方向性イメージングの深さを正確に推定する際に課題が持続することを示しています。
これに対処するために、ステレオモデルに必要な適応を導入し、パフォーマンスの向上につながります。

要約(オリジナル)

Despite progress in stereo depth estimation, omnidirectional imaging remains underexplored, mainly due to the lack of appropriate data. We introduce Helvipad, a real-world dataset for omnidirectional stereo depth estimation, featuring 40K video frames from video sequences across diverse environments, including crowded indoor and outdoor scenes with various lighting conditions. Collected using two 360{\deg} cameras in a top-bottom setup and a LiDAR sensor, the dataset includes accurate depth and disparity labels by projecting 3D point clouds onto equirectangular images. Additionally, we provide an augmented training set with an increased label density by using depth completion. We benchmark leading stereo depth estimation models for both standard and omnidirectional images. The results show that while recent stereo methods perform decently, a challenge persists in accurately estimating depth in omnidirectional imaging. To address this, we introduce necessary adaptations to stereo models, leading to improved performance.

arxiv情報

著者 Mehdi Zayene,Jannik Endres,Albias Havolli,Charles Corbière,Salim Cherkaoui,Alexandre Kontouli,Alexandre Alahi
発行日 2025-03-25 13:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation はコメントを受け付けていません

Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms

要約

このペーパーでは、オーディオファイルのMELスペクトログラム表現を介して音声の感情を分類するための畳み込みニューラルネットワークCNNの適用について説明します。
ガウス混合モデルや隠されたマルコフモデルなどの従来の方法では、実用的な展開には不十分であることが証明されており、深い学習技術への移行が促されています。
オーディオデータを視覚形式に変換することにより、CNNモデルは自律的に複雑なパターンを識別し、分類精度を高めることを学びます。
開発されたモデルは、ユーザーフレンドリーなグラフィカルインターフェイスに統合されており、教育環境でのリアルタイム予測と潜在的なアプリケーションを促進します。
この研究の目的は、音声感情認識における深い学習の理解を促進し、モデルの実現可能性を評価し、学習の文脈におけるテクノロジーの統合に貢献することを目指しています。

要約(オリジナル)

This paper explores the application of Convolutional Neural Networks CNNs for classifying emotions in speech through Mel Spectrogram representations of audio files. Traditional methods such as Gaussian Mixture Models and Hidden Markov Models have proven insufficient for practical deployment, prompting a shift towards deep learning techniques. By transforming audio data into a visual format, the CNN model autonomously learns to identify intricate patterns, enhancing classification accuracy. The developed model is integrated into a user-friendly graphical interface, facilitating realtime predictions and potential applications in educational environments. The study aims to advance the understanding of deep learning in speech emotion recognition, assess the models feasibility, and contribute to the integration of technology in learning contexts

arxiv情報

著者 Niketa Penumajji
発行日 2025-03-25 14:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD | Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms はコメントを受け付けていません

Optimal Path Planning and Cost Minimization for a Drone Delivery System Via Model Predictive Control

要約

この研究では、ドローン送達の問題をコントロールの問題として定式化し、モデル予測制御を使用して解決します。
2つの実験が実行されます。1つ目は、次元が低いほど挑戦的ではないグリッドの世界環境で、2つ目はより高い次元と複雑さを追加することです。
MPCメソッドは、3つの一般的なマルチエージェント補強学習(MARL)に対してベンチマークされました:独立$ Q $ -Learning(IQL)、共同アクション学習者(JAL)、およびバリューデコムポジションネットワーク(VDN)。
MPCメソッドが問題をより迅速に解決し、最小化コストを達成し、最適なパスをナビゲートするために最適なドローンをより少なくする必要があることが示されました。

要約(オリジナル)

In this study, we formulate the drone delivery problem as a control problem and solve it using Model Predictive Control. Two experiments are performed: The first is on a less challenging grid world environment with lower dimensionality, and the second is with a higher dimensionality and added complexity. The MPC method was benchmarked against three popular Multi-Agent Reinforcement Learning (MARL): Independent $Q$-Learning (IQL), Joint Action Learners (JAL), and Value-Decomposition Networks (VDN). It was shown that the MPC method solved the problem quicker and required fewer optimal numbers of drones to achieve a minimized cost and navigate the optimal path.

arxiv情報

著者 Muhammad Al-Zafar Khan,Jamal Al-Karaki
発行日 2025-03-25 14:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | Optimal Path Planning and Cost Minimization for a Drone Delivery System Via Model Predictive Control はコメントを受け付けていません