DEFT: Differentiable Branched Discrete Elastic Rods for Modeling Furcated DLOs in Real-Time

要約

自律ワイヤーハーネスアセンブリには、高精度と信頼性で複雑な分岐ケーブルを操作するためにロボットが必要です。
このプロセスを自動化する上での重要な課題は、これらの柔軟な構造と分岐構造が操作中にどのように振る舞うかを予測することです。
正確な予測がなければ、ロボットが組み立て操作を確実に計画または実行することは困難です。
既存の研究により、単一スレッドの変形可能な線形オブジェクト(DLOS)のモデリングが進歩しましたが、これらのアプローチを分岐した変形可能な線形オブジェクト(BDLOS)に拡張することは、基本的な課題を提示します。
BDLOSのジャンクションポイントは、複数のシングルドロモデルを接続するだけでは適切にキャプチャできない複雑な力の相互作用とひずみ伝播パターンを作成します。
これらの課題に対処するために、このペーパーでは、差別化可能な物理学ベースのモデルと学習フレームワークを組み合わせた新しいフレームワークである縁石のDLOSをリアルタイム(DEFT)でモデル化するための微分可能な離散分岐弾性ロッドを提示します。
BDLO操作。
包括的な一連の実世界の実験は、最先端の代替案と比較した精度、計算速度、および一般化可能性の観点からDeftの有効性を示しています。
プロジェクトページ:https://roahmlab.github.io/deft/。

要約(オリジナル)

Autonomous wire harness assembly requires robots to manipulate complex branched cables with high precision and reliability. A key challenge in automating this process is predicting how these flexible and branched structures behave under manipulation. Without accurate predictions, it is difficult for robots to reliably plan or execute assembly operations. While existing research has made progress in modeling single-threaded Deformable Linear Objects (DLOs), extending these approaches to Branched Deformable Linear Objects (BDLOs) presents fundamental challenges. The junction points in BDLOs create complex force interactions and strain propagation patterns that cannot be adequately captured by simply connecting multiple single-DLO models. To address these challenges, this paper presents Differentiable discrete branched Elastic rods for modeling Furcated DLOs in real-Time (DEFT), a novel framework that combines a differentiable physics-based model with a learning framework to: 1) accurately model BDLO dynamics, including dynamic propagation at junction points and grasping in the middle of a BDLO, 2) achieve efficient computation for real-time inference, and 3) enable planning to demonstrate dexterous BDLO manipulation. A comprehensive series of real-world experiments demonstrates DEFT’s efficacy in terms of accuracy, computational speed, and generalizability compared to state-of-the-art alternatives. Project page:https://roahmlab.github.io/DEFT/.

arxiv情報

著者 Yizhou Chen,Xiaoyue Wu,Yeheng Zong,Anran Li,Yuzhen Chen,Julie Wu,Bohao Zhang,Ram Vasudevan
発行日 2025-03-06 18:50:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GR, cs.RO | DEFT: Differentiable Branched Discrete Elastic Rods for Modeling Furcated DLOs in Real-Time はコメントを受け付けていません

Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size

要約

エントロピー加重量子化(EWQ)を使用して、大規模な言語モデル(LLMS)の構造固有およびサイズ依存の圧縮法の制限を超越する選択モデル量子化に対する新しいアプローチを提示します。
変圧器ブロック全体のエントロピー分布を分析することにより、EWQは、モデルアーキテクチャやサイズとは無関係に、かなりの性能劣化を引き起こすことなく安全に量子化できるブロックを決定します。
私たちの方法は、均一な量子化アプローチよりも優れており、重要なモデルの0.5%内で大規模なマルチタスク言語理解(MMLU)精度スコアを維持しながら、メモリの使用量を最大18%削減します。
1.6Bから70Bの複数のアーキテクチャにわたるEWQの有効性を実証します。モデルスケールやアーキテクチャの設計に関係なく、品質コンプレッションのトレードオフの一貫した改善を示すパラメーターを除きます。
EWQの驚くべき発見は、未定量のモデルと比較して困惑を軽減する能力であり、選択的精密削減による有益な正則化の存在を示唆しています。
この改善は、さまざまなモデルファミリ全体でもたらされ、レイヤーレベルのエントロピーと最適な精度要件との根本的な関係を示しています。
さらに、モデルの重みをロードする必要性を排除するエントロピー分布分析の迅速な方法であるFasteWQを紹介します。
この手法は、さまざまなアーキテクチャやスケール全体にわたって持続するエントロピー分布の普遍的な特性を活用し、完全なエントロピー分析で80%の分類精度を維持しながら、吸気型の量子化決定を可能にします。
我々の結果は、効果的な量子化戦略を特定の建築の選択またはモデルサイズとは無関係に開発し、効率的なLLM展開の新しい可能性を開始できることを示しています。

要約(オリジナル)

We present a novel approach to selective model quantization that transcends the limitations of architecture-specific and size-dependent compression methods for Large Language Models (LLMs) using Entropy-Weighted Quantization (EWQ). By analyzing the entropy distribution across transformer blocks, EWQ determines which blocks can be safely quantized without causing significant performance degradation, independent of model architecture or size. Our method outperforms uniform quantization approaches, maintaining Massive Multitask Language Understanding (MMLU) accuracy scores within 0.5% of unquantized models while reducing memory usage by up to 18%. We demonstrate the effectiveness of EWQ across multiple architectures-from 1.6B to 70B parameters-showcasing consistent improvements in the quality-compression trade-off regardless of model scale or architectural design. A surprising finding of EWQ is its ability to reduce perplexity compared to unquantized models, suggesting the presence of beneficial regularization through selective precision reduction. This improvement holds across different model families, indicating a fundamental relationship between layer-level entropy and optimal precision requirements. Additionally, we introduce FastEWQ, a rapid method for entropy distribution analysis that eliminates the need for loading model weights. This technique leverages universal characteristics of entropy distribution that persist across various architectures and scales, enabling near-instantaneous quantization decisions while maintaining 80% classification accuracy with full entropy analysis. Our results demonstrate that effective quantization strategies can be developed independently of specific architectural choices or model sizes, opening new possibilities for efficient LLM deployment.

arxiv情報

著者 Alireza Behtash,Marijan Fofonjka,Ethan Baird,Tyler Mauer,Hossein Moghimifam,David Stout,Joel Dennison
発行日 2025-03-06 18:54:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size はコメントを受け付けていません

Self-Supervised Models for Phoneme Recognition: Applications in Children’s Speech for Reading Learning

要約

子どもの音声認識は、データの不足(特に英語以外の言語)とこのタスクの具体的な困難により、依然として未発達の研究分野です。
以前の研究で子供の音声認識のためのさまざまなアーキテクチャを探求した後、この記事では、最近の自己監視モデルに取り組んでいます。
最初にWAV2VEC 2.0、フランスの子供の発話の音素認識に適応したHubertおよびWAVLMモデルを比較し、それらの最高のWAVLM Base+を使用して実験を続けます。
次に、子どものスピーチを微調整中に変圧器ブロックを解除することでさらに適応します。これにより、パフォーマンスが大幅に向上し、ベースモデルであるトランス+CTCを大幅に上回ります。
最後に、アプリケーションの実際の条件下でこれら2つのモデルの動作を詳細に検討し、WAVLMベース+がさまざまな読み取りタスクとノイズレベルにより堅牢であることを示します。
インデックスの用語:音声認識、子どもの発話、自己教師の学習

要約(オリジナル)

Child speech recognition is still an underdeveloped area of research due to the lack of data (especially on non-English languages) and the specific difficulties of this task. Having explored various architectures for child speech recognition in previous work, in this article we tackle recent self-supervised models. We first compare wav2vec 2.0, HuBERT and WavLM models adapted to phoneme recognition in French child speech, and continue our experiments with the best of them, WavLM base+. We then further adapt it by unfreezing its transformer blocks during fine-tuning on child speech, which greatly improves its performance and makes it significantly outperform our base model, a Transformer+CTC. Finally, we study in detail the behaviour of these two models under the real conditions of our application, and show that WavLM base+ is more robust to various reading tasks and noise levels. Index Terms: speech recognition, child speech, self-supervised learning

arxiv情報

著者 Lucas Block Medin,Thomas Pellegrini,Lucile Gelin
発行日 2025-03-06 18:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | Self-Supervised Models for Phoneme Recognition: Applications in Children’s Speech for Reading Learning はコメントを受け付けていません

Scaling Rich Style-Prompted Text-to-Speech Datasets

要約

豊かなスタイルのキャプションでスピーチの発話を注釈する大規模なデータセットであるパラリング語の音声キャプション(ParaspeechCaps)を紹介します。
豊富な抽象タグ(guttural、鼻、痛みなど)は小規模なヒトが発音したデータセットで探索されていますが、既存の大規模なデータセットは基本的なタグのみをカバーしています(例:ローピッチ、スロー、ラウド)。
既製のテキストと音声埋め込み剤、分類子、オーディオ言語モデルを組み合わせて、リッチタグアノテーションを初めて自動的にスケーリングします。
ParaspeechCapsは、スピーカーレベルの内因性タグと発話レベルの状況タグの両方を含む、合計59のスタイルタグをカバーしています。
これは、342時間のヒト標識データ(PSCベース)と2427時間の自動注釈データ(PSCスケール)で構成されています。
ParaspeechCapsで、オープンソーススタイルでプロンプト化されたTTSモデルであるFinetune Parler-TTSは、既存のリッチスタイルタグデータセットを組み合わせた最高のパフォーマンスのベースラインで、スタイルの一貫性(+7.9%の一貫性MO)と音声品質(+15.5%自然性MO)を実現します。
この分野での将来の作業の基礎を築くために、データセット設計の選択肢のいくつかを和らげます。
データセット、モデル、コードはhttps://github.com/ajd12342/paraspeechcapsでリリースされます。

要約(オリジナル)

We introduce Paralinguistic Speech Captions (ParaSpeechCaps), a large-scale dataset that annotates speech utterances with rich style captions. While rich abstract tags (e.g. guttural, nasal, pained) have been explored in small-scale human-annotated datasets, existing large-scale datasets only cover basic tags (e.g. low-pitched, slow, loud). We combine off-the-shelf text and speech embedders, classifiers and an audio language model to automatically scale rich tag annotations for the first time. ParaSpeechCaps covers a total of 59 style tags, including both speaker-level intrinsic tags and utterance-level situational tags. It consists of 342 hours of human-labelled data (PSC-Base) and 2427 hours of automatically annotated data (PSC-Scaled). We finetune Parler-TTS, an open-source style-prompted TTS model, on ParaSpeechCaps, and achieve improved style consistency (+7.9% Consistency MOS) and speech quality (+15.5% Naturalness MOS) over the best performing baseline that combines existing rich style tag datasets. We ablate several of our dataset design choices to lay the foundation for future work in this space. Our dataset, models and code are released at https://github.com/ajd12342/paraspeechcaps .

arxiv情報

著者 Anuj Diwan,Zhisheng Zheng,David Harwath,Eunsol Choi
発行日 2025-03-06 18:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Scaling Rich Style-Prompted Text-to-Speech Datasets はコメントを受け付けていません

How Far Are We on the Decision-Making of LLMs? Evaluating LLMs’ Gaming Ability in Multi-Agent Environments

要約

意思決定は、多様な能力を必要とする複雑なプロセスであり、大規模な言語モデル(LLM)を評価するための優れたフレームワークとなっています。
研究者は、ゲーム理論のレンズを通してLLMSの意思決定を調査しました。
ただし、既存の評価は、主にLLMが別のプレイヤーと競合する2つのプレイヤーシナリオに焦点を当てています。
さらに、以前のベンチマークは、静的な設計により、テストセットの漏れに悩まされています。
Multi-Agent環境でLLMSのゲーム能力を評価するための新しいフレームワークであるGama($ \ gamma $) – ベンチを紹介します。
8つの古典的なゲーム理論シナリオと、LLMSのパフォーマンスを定量的に評価するために特別に設計された動的なスコアリングスキームが含まれます。
$ \ gamma $ -benchは、柔軟なゲーム設定を可能にし、スコアリングシステムをさまざまなゲームパラメーターに適応させ、堅牢性、一般化可能性、および改善戦略の包括的な評価を可能にします。
我々の結果は、GPT-3.5が強い堅牢性を示しているが、一般化が制限されていることを示しています。
また、GPT-3.5、GPT-4、GEMINI、LLAMA-3.1、MIXTRAL、QWEN-2を含む6つのモデルファミリから13 LMSを評価します。
Gemini-1.5-Proは他の人を上回り、100ドルのうち69.8ドルを獲得し、続いてLlama-3.1-70b($ 65.9 $)およびMixtral-8x22b($ 62.4 $)が続きます。
コードと実験結果は、https://github.com/cuhk-arise/gamabenchで公開されています。

要約(オリジナル)

Decision-making is a complex process requiring diverse abilities, making it an excellent framework for evaluating Large Language Models (LLMs). Researchers have examined LLMs’ decision-making through the lens of Game Theory. However, existing evaluation mainly focus on two-player scenarios where an LLM competes against another. Additionally, previous benchmarks suffer from test set leakage due to their static design. We introduce GAMA($\gamma$)-Bench, a new framework for evaluating LLMs’ Gaming Ability in Multi-Agent environments. It includes eight classical game theory scenarios and a dynamic scoring scheme specially designed to quantitatively assess LLMs’ performance. $\gamma$-Bench allows flexible game settings and adapts the scoring system to different game parameters, enabling comprehensive evaluation of robustness, generalizability, and strategies for improvement. Our results indicate that GPT-3.5 demonstrates strong robustness but limited generalizability, which can be enhanced using methods like Chain-of-Thought. We also evaluate 13 LLMs from 6 model families, including GPT-3.5, GPT-4, Gemini, LLaMA-3.1, Mixtral, and Qwen-2. Gemini-1.5-Pro outperforms others, scoring of $69.8$ out of $100$, followed by LLaMA-3.1-70B ($65.9$) and Mixtral-8x22B ($62.4$). Our code and experimental results are publicly available at https://github.com/CUHK-ARISE/GAMABench.

arxiv情報

著者 Jen-tse Huang,Eric John Li,Man Ho Lam,Tian Liang,Wenxuan Wang,Youliang Yuan,Wenxiang Jiao,Xing Wang,Zhaopeng Tu,Michael R. Lyu
発行日 2025-03-06 18:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | How Far Are We on the Decision-Making of LLMs? Evaluating LLMs’ Gaming Ability in Multi-Agent Environments はコメントを受け付けていません

Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

要約

多様なタスクにわたる大規模な言語モデル(LLM)の印象的な機能は現在確立されていますが、それらの効果的な展開には慎重なハイパーパラメーターの最適化が必要です。
多様な構成全体のグリッド検索を含む広範な経験的研究を通じて、これらのハイパーパラメーターを管理するユニバーサルスケーリング法則を発見します。最適な学習レートは、モデルパラメーターとデータサイズの両方とのパワーロー関係に従いますが、最適なバッチサイズは主にデータサイズでスケーリングします。
私たちの分析により、固定モデルとデータサイズの条件下でのハイパーパラメーターの凸状の最適化ランドスケープが明らかになりました。
この凸性は、最適なハイパーパラメータープラトーを意味します。
コミュニティに普遍的でプラグアンドプレイの最適なハイパーパラメーターツールを提供しています。
テストセットの推定値は、徹底的な検索で見つかった世界的に最適なLLMパフォーマンスからわずか0.07 \%です。
これらの法則は、モデルの球位、トレーニングデータ分布、モデルの形状の変動にわたる顕著な堅牢性を示しています。
私たちの最もよく知られている人にとって、これは、混合物モデルや密な変圧器など、さまざまなモデルの形状と構造を統一し、多様なデータ分布全体で最適なハイパーパラメータースケーリング法則を確立する最初の作業です。
この徹底的な最適化プロセスには、約100万個のNVIDIA H800 GPU時間を利用して、3,700 LLMのさまざまなサイズとハイパーパラメーターをゼロから訓練し、合計で約100兆個のトークンを消費するかなりの計算リソースを必要とします。
再現性とさらなる研究を促進するために、指定されたリポジトリhttps://step-law.github.io/を介してすべての損失測定とモデルチェックポイントを徐々にリリースします。

要約(オリジナル)

The impressive capabilities of Large Language Models (LLMs) across diverse tasks are now well-established, yet their effective deployment necessitates careful hyperparameter optimization. Through extensive empirical studies involving grid searches across diverse configurations, we discover universal scaling laws governing these hyperparameters: optimal learning rate follows a power-law relationship with both model parameters and data sizes, while optimal batch size scales primarily with data sizes. Our analysis reveals a convex optimization landscape for hyperparameters under fixed models and data size conditions. This convexity implies an optimal hyperparameter plateau. We contribute a universal, plug-and-play optimal hyperparameter tool for the community. Its estimated values on the test set are merely 0.07\% away from the globally optimal LLM performance found via an exhaustive search. These laws demonstrate remarkable robustness across variations in model sparsity, training data distribution, and model shape. To our best known, this is the first work that unifies different model shapes and structures, such as Mixture-of-Experts models and dense transformers, as well as establishes optimal hyperparameter scaling laws across diverse data distributions. This exhaustive optimization process demands substantial computational resources, utilizing nearly one million NVIDIA H800 GPU hours to train 3,700 LLMs of varying sizes and hyperparameters from scratch and consuming approximately 100 trillion tokens in total. To facilitate reproducibility and further research, we will progressively release all loss measurements and model checkpoints through our designated repository https://step-law.github.io/

arxiv情報

著者 Houyi Li,Wenzheng Zheng,Jingcheng Hu,Qiufeng Wang,Hanshan Zhang,Zili Wang,Yangshijie Xu,Shuigeng Zhou,Xiangyu Zhang,Daxin Jiang
発行日 2025-03-06 18:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, F.2.2 | Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining はコメントを受け付けていません

Enough Coin Flips Can Make LLMs Act Bayesian

要約

大規模な言語モデル(LLMS)は、入力プロンプトに与えられた少数のショットの例を一般化する能力を示します。
LLMSがICLを利用して、ベイジアンフレームワークと一致する方法で構造化された推論を実行するか、パターンマッチングに依存しているかどうかを調査します。
偏ったコインフリップの制御された設定を使用して、(1)LLMSには偏りのあるプライアーがしばしば存在し、ゼロショット設定で初期の発散を引き起こすことがわかります。
ベイジアン推論への影響。
ICLを介したバイアスコインフリップの十分なデモンストレーションにより、LLMSはベイジアンの方法でプライアーを更新します。

要約(オリジナル)

Large language models (LLMs) exhibit the ability to generalize given few-shot examples in their input prompt, an emergent capability known as in-context learning (ICL). We investigate whether LLMs utilize ICL to perform structured reasoning in ways that are consistent with a Bayesian framework or rely on pattern matching. Using a controlled setting of biased coin flips, we find that: (1) LLMs often possess biased priors, causing initial divergence in zero-shot settings, (2) in-context evidence outweighs explicit bias instructions, (3) LLMs broadly follow Bayesian posterior updates, with deviations primarily due to miscalibrated priors rather than flawed updates, and (4) attention magnitude has negligible effect on Bayesian inference. With sufficient demonstrations of biased coin flips via ICL, LLMs update their priors in a Bayesian manner.

arxiv情報

著者 Ritwik Gupta,Rodolfo Corona,Jiaxin Ge,Eric Wang,Dan Klein,Trevor Darrell,David M. Chan
発行日 2025-03-06 18:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Enough Coin Flips Can Make LLMs Act Bayesian はコメントを受け付けていません

Shifting Long-Context LLMs Research from Input to Output

要約

長いコンテキストの大規模な言語モデル(LLM)の最近の進歩は、主に拡張された入力コンテキストの処理に集中しており、その結果、長いコンテキストの理解に大きな進歩があります。
ただし、長型の出力を生成することの同様に重要な側面は、比較的少ない注目を集めています。
このペーパーでは、長年の生成の課題に対処するためのNLP研究のパラダイムシフトを提唱しています。
斬新な執筆、長期計画、複雑な推論などのタスクでは、モデルが広範なコンテキストを理解し、一貫性があり、文脈的に豊富で、論理的に一貫した拡張テキストを生成する必要があります。
これらの要求は、現在のLLM機能の重要なギャップを強調しています。
この不足しているドメインの重要性を強調し、高品質で長期の出力を生成するために調整された基本的なLLMSを開発するための焦点を絞った努力を求め、実世界のアプリケーションの大きな可能性を秘めています。

要約(オリジナル)

Recent advancements in long-context Large Language Models (LLMs) have primarily concentrated on processing extended input contexts, resulting in significant strides in long-context comprehension. However, the equally critical aspect of generating long-form outputs has received comparatively less attention. This paper advocates for a paradigm shift in NLP research toward addressing the challenges of long-output generation. Tasks such as novel writing, long-term planning, and complex reasoning require models to understand extensive contexts and produce coherent, contextually rich, and logically consistent extended text. These demands highlight a critical gap in current LLM capabilities. We underscore the importance of this under-explored domain and call for focused efforts to develop foundational LLMs tailored for generating high-quality, long-form outputs, which hold immense potential for real-world applications.

arxiv情報

著者 Yuhao Wu,Yushi Bai,Zhiqing Hu,Shangqing Tu,Ming Shan Hee,Juanzi Li,Roy Ka-Wei Lee
発行日 2025-03-06 18:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Shifting Long-Context LLMs Research from Input to Output はコメントを受け付けていません

L$^2$M: Mutual Information Scaling Law for Long-Context Language Modeling

要約

私たちは、長距離依存関係を支配する自然言語で法律をスケーリングする二部の相互情報拡張法を厳密に確立します。
私たちが示すこのスケーリング法は、従来の2点相互情報とは独立して異なるものであり、スケールであり、長いコンテキスト言語モデリングを理解するための鍵です。
このスケーリング法則を使用して、長いコンテスト言語モデリング(L $^2 $ m)条件を策定します。これは、過去の情報を保存するための潜在的な状態サイズのスケーリングに、効果的な長いコンテキスト長モデリングのモデルの容量を関連付けます。
私たちの結果は、変圧器と状態空間モデルの両方での実験を通じて検証されています。
この作業は、より長いコンテキストの長さに向けて大規模な言語モデルの開発を導く理論的基盤を確立します。

要約(オリジナル)

We rigorously establish a bipartite mutual information scaling law in natural language that governs long-range dependencies. This scaling law, which we show is distinct from and scales independently of the conventional two-point mutual information, is the key to understanding long-context language modeling. Using this scaling law, we formulate the Long-context Language Modeling (L$^2$M) condition, which relates a model’s capacity for effective long context length modeling to the scaling of its latent state size for storing past information. Our results are validated through experiments on both transformers and state space models. This work establishes a theoretical foundation that guides the development of large language models toward longer context lengths.

arxiv情報

著者 Zhuo Chen,Oriol Mayné i Comas,Zhuotao Jin,Di Luo,Marin Soljačić
発行日 2025-03-06 18:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, cs.LG, math.IT, physics.data-an | L$^2$M: Mutual Information Scaling Law for Long-Context Language Modeling はコメントを受け付けていません

A lightweight model FDM-YOLO for small target improvement based on YOLOv8

要約

小さなターゲットは、ピクセルのカウントが低い、複雑な背景、さまざまな撮影角度があるため、特に検出が困難です。これにより、モデルが効果的な機能を抽出するのが難しくなります。
一部の大規模なモデルは高い精度を提供しますが、その長い推論時間により、エッジデバイスでのリアルタイムの展開には適していません。
一方、低い計算能力のために設計されたモデルは、しばしば検出の精度が低いことに苦しんでいます。
このペーパーでは、小さなターゲット検出に焦点を当て、低い計算制約の下でオブジェクト検出の方法を調査します。
Yolov8モデルに基づいて、FDM-Yoloと呼ばれる新しいネットワークアーキテクチャを提案します。
私たちの研究には、次の重要な貢献が含まれています。FDM-Yoloは、Yolov8検出ヘッドの出力を分析して紹介します。
高解像度層を追加し、大きなターゲット検出レイヤーを削除して、小さなターゲットをよりよく処理します。
PCONVに基づいて、モデルのPANモジュールに統合されたFast-C2Fと呼ばれる軽量ネットワーク構造を提案します。
モデルの軽量化によって引き起こされる精度の損失を軽減するために、動的アップサンプリング(Dysample)と軽量EMA注意メカニズムを採用します。FDM-YoloモデルはVisdroneデータセットで検証され、パラメーターカウントが38%減少し、MAP0.5スコアを38.4%から42.5%から改善しました。
これは、エッジデバイスの展開の精度と効率のバランスをとる際のアプローチの有効性を示しています。

要約(オリジナル)

Small targets are particularly difficult to detect due to their low pixel count, complex backgrounds, and varying shooting angles, which make it hard for models to extract effective features. While some large-scale models offer high accuracy, their long inference times make them unsuitable for real-time deployment on edge devices. On the other hand, models designed for low computational power often suffer from poor detection accuracy. This paper focuses on small target detection and explores methods for object detection under low computational constraints. Building on the YOLOv8 model, we propose a new network architecture called FDM-YOLO. Our research includes the following key contributions: We introduce FDM-YOLO by analyzing the output of the YOLOv8 detection head. We add a highresolution layer and remove the large target detection layer to better handle small targets. Based on PConv, we propose a lightweight network structure called Fast-C2f, which is integrated into the PAN module of the model. To mitigate the accuracy loss caused by model lightweighting, we employ dynamic upsampling (Dysample) and a lightweight EMA attention mechanism.The FDM-YOLO model was validated on the Visdrone dataset, achieving a 38% reduction in parameter count and improving the Map0.5 score from 38.4% to 42.5%, all while maintaining nearly the same inference speed. This demonstrates the effectiveness of our approach in balancing accuracy and efficiency for edge device deployment.

arxiv情報

著者 Xuerui Zhang
発行日 2025-03-06 14:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A lightweight model FDM-YOLO for small target improvement based on YOLOv8 はコメントを受け付けていません