Detecting Spelling and Grammatical Anomalies in Russian Poetry Texts

要約

微調整データセットの自然言語テキストの品質は、特に詩や歌の叙情性などの計算的な創造性タスクの生成モデルのパフォーマンスにおいて重要な役割を果たします。
生成された詩の流ency性欠陥は、その価値を大幅に低下させます。
ただし、トレーニングテキストは、多くの場合、厳しい品質制御なしでインターネットベースのプラットフォームから供給されることが多く、データエンジニアが欠陥レベルを効果的に管理するための課題を提起します。
この問題に対処するために、自動化された言語異常検出の使用を提案して、クリエイティブモデルのトレーニングデータセットから低品質のテキストを特定して除外します。
この論文では、合成データセットとヒト標識データセットの両方を利用して、教師なしで監督されたテキストの異常検出アプローチの包括的な比較を示します。
また、横断的文法エラー検出のために設計されたロシア語の人間標識詩のコレクションであるRupor Datasetを紹介し、完全な評価コードを提供します。
私たちの仕事の目的は、創造的なドメインの生成モデルのトレーニングデータセットの品質を向上させるためのツールと洞察をコミュニティに力に与えることを目的としています。

要約(オリジナル)

The quality of natural language texts in fine-tuning datasets plays a critical role in the performance of generative models, particularly in computational creativity tasks such as poem or song lyric generation. Fluency defects in generated poems significantly reduce their value. However, training texts are often sourced from internet-based platforms without stringent quality control, posing a challenge for data engineers to manage defect levels effectively. To address this issue, we propose the use of automated linguistic anomaly detection to identify and filter out low-quality texts from training datasets for creative models. In this paper, we present a comprehensive comparison of unsupervised and supervised text anomaly detection approaches, utilizing both synthetic and human-labeled datasets. We also introduce the RUPOR dataset, a collection of Russian-language human-labeled poems designed for cross-sentence grammatical error detection, and provide the full evaluation code. Our work aims to empower the community with tools and insights to improve the quality of training datasets for generative models in creative domains.

arxiv情報

著者 Ilya Koziev
発行日 2025-05-07 15:27:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Detecting Spelling and Grammatical Anomalies in Russian Poetry Texts はコメントを受け付けていません

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs

要約

専門家(MOE)と1兆近くのパラメーターの混合物を備えたまばらな大手言語モデル(LLM)が、最も有能な言語モデルの領域を支配しています。
ただし、大規模なモデルスケールは、基礎となるソフトウェアおよびハードウェアシステムに大きな課題をもたらします。
この論文では、Ascend NPUでそのような規模を活用するためのレシピを明らかにすることを目指しています。
主要な目標は、動的スパースモデル構造の下でのコンピューティングリソースのより良い使用と、実際のハードウェアの予想されるパフォーマンスゲインを実現することです。
高価な実験を繰り返し実行せずにAscend NPUに適したモデル構成を選択するために、シミュレーションを活用して、さまざまなモデルハイパーパラメーターのトレードオフを比較します。
この研究は、7180億パラメーターを持つまばらなLLMであるPangu Ultra Moeにつながり、シミュレーション結果を検証するためにモデルで実験を実施しました。
システム側では、NPUデバイス間の通信を最適化して同期オーバーヘッドを減らすために、専門家の並列性を掘り下げます。
また、デバイス内のメモリ効率を最適化して、パラメーターとアクティベーション管理のオーバーヘッドをさらに削減します。
最終的に、Pange Ultra Moeをトレーニングするときに30.0%のMFUを達成し、6K Ascend NPUでDeepSeek R1のパフォーマンスに匹敵し、Ascendシステムが最先端の言語モデルのすべてのトレーニング段階を活用できることを示しています。
広範な実験は、私たちのレシピがMOEを使用した大規模なスパース言語モデルの効率的なトレーニングにつながる可能性があることを示しています。
また、将来の参照のためにそのようなモデルの行動も研究します。

要約(オリジナル)

Sparse large language models (LLMs) with Mixture of Experts (MoE) and close to a trillion parameters are dominating the realm of most capable language models. However, the massive model scale poses significant challenges for the underlying software and hardware systems. In this paper, we aim to uncover a recipe to harness such scale on Ascend NPUs. The key goals are better usage of the computing resources under the dynamic sparse model structures and materializing the expected performance gain on the actual hardware. To select model configurations suitable for Ascend NPUs without repeatedly running the expensive experiments, we leverage simulation to compare the trade-off of various model hyperparameters. This study led to Pangu Ultra MoE, a sparse LLM with 718 billion parameters, and we conducted experiments on the model to verify the simulation results. On the system side, we dig into Expert Parallelism to optimize the communication between NPU devices to reduce the synchronization overhead. We also optimize the memory efficiency within the devices to further reduce the parameter and activation management overhead. In the end, we achieve an MFU of 30.0% when training Pangu Ultra MoE, with performance comparable to that of DeepSeek R1, on 6K Ascend NPUs, and demonstrate that the Ascend system is capable of harnessing all the training stages of the state-of-the-art language models. Extensive experiments indicate that our recipe can lead to efficient training of large-scale sparse language models with MoE. We also study the behaviors of such models for future reference.

arxiv情報

著者 Yehui Tang,Yichun Yin,Yaoyuan Wang,Hang Zhou,Yu Pan,Wei Guo,Ziyang Zhang,Miao Rang,Fangcheng Liu,Naifu Zhang,Binghan Li,Yonghan Dong,Xiaojun Meng,Yasheng Wang,Dong Li,Yin Li,Dandan Tu,Can Chen,Youliang Yan,Fisher Yu,Ruiming Tang,Yunhe Wang,Botian Huang,Bo Wang,Boxiao Liu,Changzheng Zhang,Da Kuang,Fei Liu,Gang Huang,Jiansheng Wei,Jiarui Qin,Jie Ran,Jinpeng Li,Jun Zhao,Liang Dai,Lin Li,Liqun Deng,Peifeng Qin,Pengyuan Zeng,Qiang Gu,Shaohua Tang,Shengjun Cheng,Tao Gao,Tao Yu,Tianshu Li,Tianyu Bi,Wei He,Weikai Mao,Wenyong Huang,Wulong Liu,Xiabing Li,Xianzhi Yu,Xueyu Wu,Xu He,Yangkai Du,Yan Xu,Ye Tian,Yimeng Wu,Yongbing Huang,Yong Tian,Yong Zhu,Yue Li,Yufei Wang,Yuhang Gai,Yujun Li,Yu Luo,Yunsheng Ni,Yusen Sun,Zelin Chen,Zhe Liu,Zhicheng Liu,Zhipeng Tu,Zilin Ding,Zongyuan Zhan
発行日 2025-05-07 15:46:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs はコメントを受け付けていません

High-Dimensional Interlingual Representations of Large Language Models

要約

大規模な多言語データセットでトレーニングされた大規模な言語モデル(LLMS)は、双方向の構成要素の形成を示唆しています。これは、表現スペースの共有サブスペースです。
ただし、この現象に関する証拠は混合されているため、これらのモデルが統一された統一性表現を真に発達させるのか、それとも部分的に整列した構造を提示するのかは不明です。
リソースレベル、類型、および地理的地域でさまざまな31の多様な言語を探ります。
そして、多言語のLLMが一貫性のない横断的なアラインメントを示すことを発見します。
これに対処するために、共有されているセマンティックサブスペースと断片化されたコンポーネントの両方を識別するintlinglingual表現フレームワークを提案します。
高次元表現のローカル近隣構造を比較することにより、局所的なオーバーラップ(ILO)スコアを導入して、間隔間アラインメントを定量化します。
ILOを利用して、多言語LLMSの診療間表現に対する単一言語の微調整の影響を調査します。
我々の結果は、単一の言語でのみトレーニングが初期層のアラインメントを破壊し、これらの層を凍結することで、診断間表現の整列が保持され、横断的な一般化が改善されることを示しています。
これらの結果は、間隔間表現を評価するためのフレームワークとメトリックを検証し、スケーラブルな多言語学習には間隔間アラインメントが重要であることをさらに強調します。

要約(オリジナル)

Large language models (LLMs) trained on massive multilingual datasets hint at the formation of interlingual constructs–a shared subspace in the representation space. However, evidence regarding this phenomenon is mixed, leaving it unclear whether these models truly develop unified interlingual representations, or present a partially aligned constructs. We explore 31 diverse languages varying on their resource-levels, typologies, and geographical regions; and find that multilingual LLMs exhibit inconsistent cross-lingual alignments. To address this, we propose an interlingual representation framework identifying both the shared interlingual semantic subspace and fragmented components, existed due to representational limitations. We introduce Interlingual Local Overlap (ILO) score to quantify interlingual alignment by comparing the local neighborhood structures of high-dimensional representations. We utilize ILO to investigate the impact of single-language fine-tuning on the interlingual representations in multilingual LLMs. Our results indicate that training exclusively on a single language disrupts the alignment in early layers, while freezing these layers preserves the alignment of interlingual representations, leading to improved cross-lingual generalization. These results validate our framework and metric for evaluating interlingual representation, and further underscore that interlingual alignment is crucial for scalable multilingual learning.

arxiv情報

著者 Bryan Wilie,Samuel Cahyawijaya,Junxian He,Pascale Fung
発行日 2025-05-07 16:03:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | High-Dimensional Interlingual Representations of Large Language Models はコメントを受け付けていません

Boosting Masked ECG-Text Auto-Encoders as Discriminative Learners

要約

心電図(ECG)シグナルの正確な解釈は、心血管疾患を診断するために極めて重要です。
ECGシグナルを添付したテキストレポートと統合すると、生理学的データと定性的洞察を組み合わせることにより、臨床診断を強化する大きな可能性がさらに低下します。
ただし、この統合は、固有のモダリティの格差と、堅牢なクロスモーダル学習のためのラベル付きデータの希少性により、大きな課題に直面しています。
これらの障害に対処するために、Contrastive Masked Auto-Encoderアーキテクチャを使用してECGとテキストデータを事前にトレインする新しいフレームワークであるD-Betaを提案します。
D-betaは、生成の強さをブーストされた識別能力と堅牢なクロスモーダル表現を実現するために独自に組み合わせています。
これは、マスクされたモダリティモデリング、専門的な損失関数、およびクロスモーダルアライメントに合わせた改善された負のサンプリング戦略によって達成されます。
多様なダウンストリームタスク全体の5つのパブリックデータセットでの広範な実験は、D-Betaが既存の方法を大幅に上回り、最先端モデルでトレーニングデータを必要とせずにトレーニングデータの1%とゼロショットパフォーマンスで2%のみで15%の平均AUC改善を達成することを示しています。
これらの結果は、D-Betaの有効性を強調し、マルチモーダル表現を通じて自動化された臨床診断を進める可能性を強調しています。
サンプルコードとチェックポイントは、https://github.com/manhph2211/d-betaで利用可能になります。

要約(オリジナル)

The accurate interpretation of Electrocardiogram (ECG) signals is pivotal for diagnosing cardiovascular diseases. Integrating ECG signals with accompanying textual reports further holds immense potential to enhance clinical diagnostics by combining physiological data and qualitative insights. However, this integration faces significant challenges due to inherent modality disparities and the scarcity of labeled data for robust cross-modal learning. To address these obstacles, we propose D-BETA, a novel framework that pre-trains ECG and text data using a contrastive masked auto-encoder architecture. D-BETA uniquely combines the strengths of generative with boosted discriminative capabilities to achieve robust cross-modal representations. This is accomplished through masked modality modeling, specialized loss functions, and an improved negative sampling strategy tailored for cross-modal alignment. Extensive experiments on five public datasets across diverse downstream tasks demonstrate that D-BETA significantly outperforms existing methods, achieving an average AUC improvement of 15% in linear probing with only one percent of training data and 2% in zero-shot performance without requiring training data over state-of-the-art models. These results highlight the effectiveness of D-BETA, underscoring its potential to advance automated clinical diagnostics through multi-modal representations. Our sample code and checkpoint are made available at https://github.com/manhph2211/D-BETA.

arxiv情報

著者 Hung Manh Pham,Aaqib Saeed,Dong Ma
発行日 2025-05-07 16:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Boosting Masked ECG-Text Auto-Encoders as Discriminative Learners はコメントを受け付けていません

A Character-based Diffusion Embedding Algorithm for Enhancing the Generation Quality of Generative Linguistic Steganographic Texts

要約

高品質のステガノグラフィテキストを生成することは、生成的言語ステガノグラフィの分野での基本的な課題です。
この課題は主に2つの側面から生じます。まず、テキスト生成における既存のモデルの機能は限られています。
第二に、アルゴリズムの埋め込みは、セマンティックコンテンツやランダム性などの機密情報のプロパティのマイナスの影響を効果的に軽減することができません。
具体的には、受信者が隠された情報を正確に抽出できるようにするために、アルゴリズムの埋め込みは、しばしば比較的低い確率で候補の単語を選択することを検討する必要があります。
この現象は、高パロビーズ候補の単語の数の減少と低確率候補の単語の増加につながり、それにより、ステガノグラフィテキストのセマンティックコヒーレンスと論理的流encyさを損ない、生成されたステガノグラフィ材料の全体的な品質を低下させます。
この問題に対処するために、このペーパーでは、新しい埋め込みアルゴリズム、文字ベースの拡散埋め込みアルゴリズム(CDEA)を提案します。
生成プロセスに対する機密情報のプロパティの影響を排除するように努める既存の埋め込みアルゴリズムとは異なり、CDEAは機密情報のプロパティを活用します。
候補レベルの一般的な統計的特性とパワーローの分布に基づいてグループ化方法に基づいて、候補プール内の高装備候補の単語の選択頻度を強化し、候補プールの低確率候補ワードの選択頻度を減らします。
さらに、長いシーケンスで機密情報の効果的な変換を確保するために、XLNETモデルも導入します。
実験結果は、CDEAとXLNETの組み合わせにより、特に知覚想像力の観点から生成されたステガノグラフィテキストの品質が大幅に向上することを示しています。

要約(オリジナル)

Generating high-quality steganographic text is a fundamental challenge in the field of generative linguistic steganography. This challenge arises primarily from two aspects: firstly, the capabilities of existing models in text generation are limited; secondly, embedding algorithms fail to effectively mitigate the negative impacts of sensitive information’s properties, such as semantic content or randomness. Specifically, to ensure that the recipient can accurately extract hidden information, embedding algorithms often have to consider selecting candidate words with relatively low probabilities. This phenomenon leads to a decrease in the number of high-probability candidate words and an increase in low-probability candidate words, thereby compromising the semantic coherence and logical fluency of the steganographic text and diminishing the overall quality of the generated steganographic material. To address this issue, this paper proposes a novel embedding algorithm, character-based diffusion embedding algorithm (CDEA). Unlike existing embedding algorithms that strive to eliminate the impact of sensitive information’s properties on the generation process, CDEA leverages sensitive information’s properties. It enhances the selection frequency of high-probability candidate words in the candidate pool based on general statistical properties at the character level and grouping methods based on power-law distributions, while reducing the selection frequency of low-probability candidate words in the candidate pool. Furthermore, to ensure the effective transformation of sensitive information in long sequences, we also introduce the XLNet model. Experimental results demonstrate that the combination of CDEA and XLNet significantly improves the quality of generated steganographic text, particularly in terms of perceptual-imperceptibility.

arxiv情報

著者 Yingquan Chen,Qianmu Li,Xiaocong Wu,Huifeng Li,Qing Chang
発行日 2025-05-07 17:00:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | A Character-based Diffusion Embedding Algorithm for Enhancing the Generation Quality of Generative Linguistic Steganographic Texts はコメントを受け付けていません

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

要約

効果的な情報検索は、大規模な言語モデル(LLM)の推論と生成の能力を高めるために不可欠です。
最近の研究では、RENFERTION LEARNIS(RL)を使用して、実際の環境でライブ検索エンジンと対話することにより、LLMSの検索機能を改善しました。
これらのアプローチは有望な結果を示していますが、2つの主要な課題に直面しています。(1)制御されていないドキュメントの品質:検索エンジンによって返されるドキュメントの品質は予測不可能であり、トレーニングプロセスにノイズと不安定性を導入します。
(2)非常に高いAPIコスト:RLトレーニングには、頻繁にロールアウトが必要であり、潜在的に数十万の検索リクエストが関与し、かなりのAPI費用がかかり、スケーラビリティを厳しく制限します。
これらの課題に対処するために、実際の検索エンジンと対話することなくLLMの検索機能を奨励する強化学習フレームワークであるZerosearchを紹介します。
私たちのアプローチは、LLMをクエリに応じて関連するドキュメントとノイズの多いドキュメントの両方を生成できる検索モジュールに変換するための軽量の監視された微調整から始まります。
RLトレーニング中に、生成されたドキュメントの品質を徐々に低下させるカリキュラムベースのロールアウト戦略を採用し、モデルの推論能力をますます困難な検索シナリオにさらすことで徐々に引き出します。
広範な実験は、Zerosearchが3B LLMを検索モジュールとして使用してLLMの検索機能を効果的にインセンティブすることを示しています。
驚くべきことに、7B検索モジュールは実際の検索エンジンに匹敵するパフォーマンスを達成し、14B検索モジュールでもそれを上回ります。
さらに、さまざまなパラメーターサイズのベースモデルと命令チューニングされたモデルの両方でよく一般化し、幅広いRLアルゴリズムと互換性があります。

要約(オリジナル)

Effective information searching is essential for enhancing the reasoning and generation capabilities of large language models (LLMs). Recent research has explored using reinforcement learning (RL) to improve LLMs’ search capabilities by interacting with live search engines in real-world environments. While these approaches show promising results, they face two major challenges: (1) Uncontrolled Document Quality: The quality of documents returned by search engines is often unpredictable, introducing noise and instability into the training process. (2) Prohibitively High API Costs: RL training requires frequent rollouts, potentially involving hundreds of thousands of search requests, which incur substantial API expenses and severely constrain scalability. To address these challenges, we introduce ZeroSearch, a reinforcement learning framework that incentivizes the search capabilities of LLMs without interacting with real search engines. Our approach begins with lightweight supervised fine-tuning to transform the LLM into a retrieval module capable of generating both relevant and noisy documents in response to a query. During RL training, we employ a curriculum-based rollout strategy that incrementally degrades the quality of generated documents, progressively eliciting the model’s reasoning ability by exposing it to increasingly challenging retrieval scenarios. Extensive experiments demonstrate that ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B LLM as the retrieval module. Remarkably, a 7B retrieval module achieves comparable performance to the real search engine, while a 14B retrieval module even surpasses it. Furthermore, it generalizes well across both base and instruction-tuned models of various parameter sizes and is compatible with a wide range of RL algorithms.

arxiv情報

著者 Hao Sun,Zile Qiao,Jiayan Guo,Xuanbo Fan,Yingyan Hou,Yong Jiang,Pengjun Xie,Fei Huang,Yan Zhang
発行日 2025-05-07 17:30:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ZeroSearch: Incentivize the Search Capability of LLMs without Searching はコメントを受け付けていません

KERAIA: An Adaptive and Explainable Framework for Dynamic Knowledge Representation and Reasoning

要約

このペーパーでは、ダイナミック、複雑、およびコンテキストに敏感な環境で知識を表現、推論、実行するという持続的な課題に対処するために設計された、象徴的な知識エンジニアリングのための新しいフレームワークとソフトウェアプラットフォームであるKeraiaを紹介します。
この作業を動機付ける中心的な研究の質問は、どのようにして構造化されていない、しばしば暗黙の、人間の専門知識を、AIシステムが効率的に利用できる計算的に扱いやすいアルゴリズムに効果的に変換することができますか?
Keraiaは、Minskyのフレームベースの推論やKラインなどの基本的な概念に基づいて構築することにより、このギャップを埋めることを目指しています。
これらには、動的集約のための知識の雲、コンテキストに敏感な継承のための動的な関係(DREL)、追跡可能な推論のための明示的な思考の線(ロット)、および適応知識変換のためのクラウドの詳細が含まれます。
このアプローチは、従来の、しばしば静的な知識表現パラダイムの制限を超えて移動します。
Keraiaは、特にロットの使用を通じて、透明性と解釈可能性を確保するために、説明可能なAI(XAI)を中核的な原則として設計されています。
このペーパーでは、フレームワークのアーキテクチャ、KSYNTH代表言語、および汎用パラダイムビルダー(GPPB)について詳しく説明し、統合された構造内に多様な推論方法を統合します。
海軍戦争シミュレーション、水処理プラントの産業診断、およびリスクのゲームにおける戦略的意思決定にまたがる複数のケーススタディの詳細な分析を通じて、ケライアの汎用性、表現力、および実用的な適用性を検証します。
さらに、確立された知識表現パラダイム(オントロジー、ルールベースのシステム、知識グラフを含む)に対する比較分析を提供し、Keraiaプラットフォームの実装の側面と計算上の考慮事項について説明します。

要約(オリジナル)

In this paper, we introduce KERAIA, a novel framework and software platform for symbolic knowledge engineering designed to address the persistent challenges of representing, reasoning with, and executing knowledge in dynamic, complex, and context-sensitive environments. The central research question that motivates this work is: How can unstructured, often tacit, human expertise be effectively transformed into computationally tractable algorithms that AI systems can efficiently utilise? KERAIA seeks to bridge this gap by building on foundational concepts such as Minsky’s frame-based reasoning and K-lines, while introducing significant innovations. These include Clouds of Knowledge for dynamic aggregation, Dynamic Relations (DRels) for context-sensitive inheritance, explicit Lines of Thought (LoTs) for traceable reasoning, and Cloud Elaboration for adaptive knowledge transformation. This approach moves beyond the limitations of traditional, often static, knowledge representation paradigms. KERAIA is designed with Explainable AI (XAI) as a core principle, ensuring transparency and interpretability, particularly through the use of LoTs. The paper details the framework’s architecture, the KSYNTH representation language, and the General Purpose Paradigm Builder (GPPB) to integrate diverse inference methods within a unified structure. We validate KERAIA’s versatility, expressiveness, and practical applicability through detailed analysis of multiple case studies spanning naval warfare simulation, industrial diagnostics in water treatment plants, and strategic decision-making in the game of RISK. Furthermore, we provide a comparative analysis against established knowledge representation paradigms (including ontologies, rule-based systems, and knowledge graphs) and discuss the implementation aspects and computational considerations of the KERAIA platform.

arxiv情報

著者 Stephen Richard Varey,Alessandro Di Stefano,The Anh Han
発行日 2025-05-07 10:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.SC | KERAIA: An Adaptive and Explainable Framework for Dynamic Knowledge Representation and Reasoning はコメントを受け付けていません

Mastering Multi-Drone Volleyball through Hierarchical Co-Self-Play Reinforcement Learning

要約

この論文では、高レベルの戦略的調整と低レベルのアジャイルコントロールの両方を必要とする新しい具体化された競争的タスクである3V3マルチドローンバレーボールをプレイすることを学ぶ問題に取り組んでいます。
このタスクは、ターンベース、マルチエージェント、および物理的に接地された、その長期の依存性、緊密なエージェント間結合、および四つの過少活動ダイナミクスのために大きな課題をもたらします。
これに対処するために、集中化された高レベルの戦略的意思決定を分散化された低レベルモーションコントロールと分離する階層補強学習フレームワークである階層的な共同セルフプレイ(HCSP)を提案します。
3段階の人口ベースのトレーニングパイプラインを設計して、戦略とスキルの両方が専門家のデモンストレーションなしでゼロから出現できるようにします。(i)多様な低レベルスキル、(ii)固定低レベルコントローラーでの自己プレイを介した高レベルの戦略を学習し、(iii)共同セルフプレイを通じて共同微調整。
実験では、HCSPが優れたパフォーマンスを達成し、平均82.9 \%の勝率と2段階のバリアントに対して71.5 \%の勝率で、非階層的な自己プレイとルールベースの階層ベースラインを上回ることが示されています。
さらに、共同自己プレイは、役割の切り替えや調整形成などの緊急チームの行動につながり、階層的な設計とトレーニングスキームの有効性を実証します。

要約(オリジナル)

In this paper, we tackle the problem of learning to play 3v3 multi-drone volleyball, a new embodied competitive task that requires both high-level strategic coordination and low-level agile control. The task is turn-based, multi-agent, and physically grounded, posing significant challenges due to its long-horizon dependencies, tight inter-agent coupling, and the underactuated dynamics of quadrotors. To address this, we propose Hierarchical Co-Self-Play (HCSP), a hierarchical reinforcement learning framework that separates centralized high-level strategic decision-making from decentralized low-level motion control. We design a three-stage population-based training pipeline to enable both strategy and skill to emerge from scratch without expert demonstrations: (I) training diverse low-level skills, (II) learning high-level strategy via self-play with fixed low-level controllers, and (III) joint fine-tuning through co-self-play. Experiments show that HCSP achieves superior performance, outperforming non-hierarchical self-play and rule-based hierarchical baselines with an average 82.9\% win rate and a 71.5\% win rate against the two-stage variant. Moreover, co-self-play leads to emergent team behaviors such as role switching and coordinated formations, demonstrating the effectiveness of our hierarchical design and training scheme.

arxiv情報

著者 Ruize Zhang,Sirui Xiang,Zelai Xu,Feng Gao,Shilong Ji,Wenhao Tang,Wenbo Ding,Chao Yu,Yu Wang
発行日 2025-05-07 11:04:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Mastering Multi-Drone Volleyball through Hierarchical Co-Self-Play Reinforcement Learning はコメントを受け付けていません

Detecting Concept Drift in Neural Networks Using Chi-squared Goodness of Fit Testing

要約

深い学習モデルの採用は、検証のために人間の能力を超えて成長しているため、信頼できるモデル推論を確保するためにメタアルゴリズムが必要です。
概念ドリフト検出は、トレーニングデータから分岐する分布特性を持つ推論データに遭遇する可能性のあるニューラルネットワークの監視で十分に活用されていない統計シフトを特定することに専念するフィールドです。
さまざまなモデルアーキテクチャ、アプリケーション、およびデータセットを考えると、概念ドリフト検出アルゴリズムが異なる推論シナリオに適応できることが重要です。
このホワイトペーパーでは、$ \ chi^2 $の適合仮説検定の適用を紹介します。マルチレイヤーパーセプトロンに適用されるドリフト検出メタアルゴリズム、畳み込みニューラルネットワーク、および推論中にシミュレートされたドリフトにさらされているため、機械視のために訓練された変圧器を紹介します。
そのために、推論出力を直接調べることなく、概念ドリフトによる精度が予期しない精度をどのように検出できるかを示します。
私たちのアプローチは、さまざまな条件での信頼性についてモデルが継続的に評価されるようにすることにより、安全性を高めます。

要約(オリジナル)

As the adoption of deep learning models has grown beyond human capacity for verification, meta-algorithms are needed to ensure reliable model inference. Concept drift detection is a field dedicated to identifying statistical shifts that is underutilized in monitoring neural networks that may encounter inference data with distributional characteristics diverging from their training data. Given the wide variety of model architectures, applications, and datasets, it is important that concept drift detection algorithms are adaptable to different inference scenarios. In this paper, we introduce an application of the $\chi^2$ Goodness of Fit Hypothesis Test as a drift detection meta-algorithm applied to a multilayer perceptron, a convolutional neural network, and a transformer trained for machine vision as they are exposed to simulated drift during inference. To that end, we demonstrate how unexpected drops in accuracy due to concept drift can be detected without directly examining the inference outputs. Our approach enhances safety by ensuring models are continually evaluated for reliability across varying conditions.

arxiv情報

著者 Jacob Glenn Ayers,Buvaneswari A. Ramanan,Manzoor A. Khan
発行日 2025-05-07 11:04:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.IV | Detecting Concept Drift in Neural Networks Using Chi-squared Goodness of Fit Testing はコメントを受け付けていません

A Simple Ensemble Strategy for LLM Inference: Towards More Stable Text Classification

要約

大規模な言語モデル(LLMS)の進歩により、LLMはさまざまなタスクに利用されています。
ただし、LLMの各試験からの結果の変動と再現性の問題は、既存の文献ではほとんど見落とされていますが、実際の人間の注釈は多数票を使用して注釈者間の意見の相違を解決します。
したがって、この研究では、LLMSを使用した感情分析に簡単なアンサンブル戦略を紹介します。
結果として、中規模のLLMを使用した複数の推論のアンサンブルは、RMSEを18.6%削減する単一の試行で大規模なモデルを使用するよりも、より堅牢で正確な結果を生成することを実証します。

要約(オリジナル)

With the advance of large language models (LLMs), LLMs have been utilized for the various tasks. However, the issues of variability and reproducibility of results from each trial of LLMs have been largely overlooked in existing literature while actual human annotation uses majority voting to resolve disagreements among annotators. Therefore, this study introduces the straightforward ensemble strategy to a sentiment analysis using LLMs. As the results, we demonstrate that the ensemble of multiple inference using medium-sized LLMs produces more robust and accurate results than using a large model with a single attempt with reducing RMSE by 18.6%.

arxiv情報

著者 Junichiro Niimi
発行日 2025-05-07 11:31:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Simple Ensemble Strategy for LLM Inference: Towards More Stable Text Classification はコメントを受け付けていません