Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles

要約

非翻訳性を含むゼロサムゲームを解くために、有用なアプローチは、ナッシュ平衡(NE)を近似するために政策集団を維持することです。
以前の研究では、ポリシー空間応答オラクル(PSRO)アルゴリズムがそのようなゲームを解決するための効果的なフレームワークであることが示されています。
ただし、現在の方法は、新しいポリシーをゼロから初期化するか、最良の対応(BR)の単一の歴史的ポリシーを継承し、過去のポリシーを活用してより良いBRを生成する機会を逃しています。
この論文では、NASHポリシーフュージョンを採用してBRトレーニングの新しいポリシーを初期化するFusion-PSroを提案します。
Nash Policy Fusionは、現在のメタネの探査を開始する暗黙のガイドポリシーとして機能し、BRに近い近似を提供します。
さらに、過去のポリシーの加重移動平均を洞察してキャプチャし、各反復のメタNEに基づいてこれらの重みを動的に調整します。
この累積プロセスは、政策集団をさらに強化します。
古典的なベンチマークの経験的結果は、Fusion-PSroがより低い搾取性を達成し、それによりBRの政策初期化に関する以前の研究の欠点を軽減することを示しています。

要約(オリジナル)

For solving zero-sum games involving non-transitivity, a useful approach is to maintain a policy population to approximate the Nash Equilibrium (NE). Previous studies have shown that the Policy Space Response Oracles (PSRO) algorithm is an effective framework for solving such games. However, current methods initialize a new policy from scratch or inherit a single historical policy in Best Response (BR), missing the opportunity to leverage past policies to generate a better BR. In this paper, we propose Fusion-PSRO, which employs Nash Policy Fusion to initialize a new policy for BR training. Nash Policy Fusion serves as an implicit guiding policy that starts exploration on the current Meta-NE, thus providing a closer approximation to BR. Moreover, it insightfully captures a weighted moving average of past policies, dynamically adjusting these weights based on the Meta-NE in each iteration. This cumulative process further enhances the policy population. Empirical results on classic benchmarks show that Fusion-PSRO achieves lower exploitability, thereby mitigating the shortcomings of previous research on policy initialization in BR.

arxiv情報

著者 Jiesong Lian,Yucong Huang,Chengdong Ma,Mingzhi Wang,Ying Wen,Long Hu,Yixue Hao
発行日 2025-05-09 15:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, cs.MA | Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles はコメントを受け付けていません

‘Set It Up!’: Functional Object Arrangement with Compositional Generative Models

要約

このペーパーでは、「2人用のダイニングテーブルをセットアップする」などの機能的なオブジェクトの配置を作成するための不足している指示を理解できるロボットを開発できるという課題について説明します。
以前の配置アプローチは、「オブジェクトをテーブルに置く」など、はるかに明確な指示に焦点を当てています。
不足している指示を解釈することを学ぶためのフレームワーク、Setitupを紹介します。
Setitupは、特定のシーンタイプの配置ルールを明らかにするために、少数のトレーニング例と人間が作成したプログラムスケッチを取ります。
オブジェクト間の抽象的な空間関係の中間グラフのような表現を活用することにより、Setitupは配置の問題を2つのサブ問題に分解します。i)限られたデータからの配置パターンの学習とii)これらの抽象的な関係をオブジェクトポーズに接地します。
Setitupは、大規模な言語モデル(LLM)を活用して、制約が満たされるように、新しいシーンのオブジェクト間の抽象的な空間的関係を提案します。
次に、これらの抽象的な関係に関連付けられた拡散モデルのライブラリを構成して、制約を満たすオブジェクトポーズを見つけます。
調査デスク、ダイニングテーブル、コーヒーテーブルで構成されるデータセットのフレームワークを検証し、結果は、既存のモデルと比較して、身体的にもっともらしい、機能的で審美的に楽しいオブジェクトの配置を生成する際の優れた性能を示しています。

要約(オリジナル)

This paper studies the challenge of developing robots capable of understanding under-specified instructions for creating functional object arrangements, such as ‘set up a dining table for two’; previous arrangement approaches have focused on much more explicit instructions, such as ‘put object A on the table.’ We introduce a framework, SetItUp, for learning to interpret under-specified instructions. SetItUp takes a small number of training examples and a human-crafted program sketch to uncover arrangement rules for specific scene types. By leveraging an intermediate graph-like representation of abstract spatial relationships among objects, SetItUp decomposes the arrangement problem into two subproblems: i) learning the arrangement patterns from limited data and ii) grounding these abstract relationships into object poses. SetItUp leverages large language models (LLMs) to propose the abstract spatial relationships among objects in novel scenes as the constraints to be satisfied; then, it composes a library of diffusion models associated with these abstract relationships to find object poses that satisfy the constraints. We validate our framework on a dataset comprising study desks, dining tables, and coffee tables, with the results showing superior performance in generating physically plausible, functional, and aesthetically pleasing object arrangements compared to existing models.

arxiv情報

著者 Yiqing Xu,Jiayuan Mao,Yilun Du,Tomas Lozáno-Pérez,Leslie Pack Kaelbling,David Hsu
発行日 2025-05-09 15:43:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | ‘Set It Up!’: Functional Object Arrangement with Compositional Generative Models はコメントを受け付けていません

Can open source large language models be used for tumor documentation in Germany? — An evaluation on urological doctors’ notes

要約

ドイツの腫瘍文書は、主に手動で行われており、患者の記録を読んで構造化されたデータベースにデータを入力する必要があります。
大規模な言語モデル(LLMS)は、効率と信頼性を向上させることにより、このプロセスを潜在的に強化する可能性があります。
この評価では、腫瘍文書化プロセスの3つの基本タスクに関する1〜700億のモデルパラメーターの範囲のサイズの11の異なるオープンソースLLMをテストします。腫瘍診断の識別、ICD-10コードの割り当て、および最初の診断の日付を抽出します。
これらのタスクでLLMを評価するために、泌尿器科からの匿名化された医師のメモに基づいた注釈付きテキストスニペットのデータセットが準備されました。
さまざまなプロンプト戦略を使用して、少数のショットプロンプトにおける例の数の効果を調査し、一般的なLLMの機能を調査しました。
モデルLlama 3.1 8b、Mistral 7b、およびMistral Nemo 12 Bは、タスクで同等に機能しました。
トレーニングデータが少ない、または70億未満のパラメーターを持つモデルは、パフォーマンスが顕著に低いことを示しましたが、より大きなモデルではパフォーマンスの向上は表示されませんでした。
泌尿器科とは異なる医療ドメインの例は、少数のショットプロンプトの結果を改善する可能性もあり、これはLLMが腫瘍の文書化に必要なタスクを処理する能力を示しています。
オープンソースLLMSは、腫瘍の文書を自動化するための強力な可能性を示しています。
7〜120億パラメーターのモデルは、パフォーマンスとリソースの効率の間の最適なバランスを提供できます。
調整された微調整と適切に設計されたプロンプトにより、これらのモデルは将来の臨床文書化のための重要なツールになる可能性があります。
評価のコードは、https://github.com/stefan-m-lenz/urollmevalから入手できます。
また、ドイツ語の医療NLPで本物で簡単にアクセス可能なベンチマークの不足に対処する新しい貴重なリソースとしてデータセットをリリースします。

要約(オリジナル)

Tumor documentation in Germany is largely done manually, requiring reading patient records and entering data into structured databases. Large language models (LLMs) could potentially enhance this process by improving efficiency and reliability. This evaluation tests eleven different open source LLMs with sizes ranging from 1-70 billion model parameters on three basic tasks of the tumor documentation process: identifying tumor diagnoses, assigning ICD-10 codes, and extracting the date of first diagnosis. For evaluating the LLMs on these tasks, a dataset of annotated text snippets based on anonymized doctors’ notes from urology was prepared. Different prompting strategies were used to investigate the effect of the number of examples in few-shot prompting and to explore the capabilities of the LLMs in general. The models Llama 3.1 8B, Mistral 7B, and Mistral NeMo 12 B performed comparably well in the tasks. Models with less extensive training data or having fewer than 7 billion parameters showed notably lower performance, while larger models did not display performance gains. Examples from a different medical domain than urology could also improve the outcome in few-shot prompting, which demonstrates the ability of LLMs to handle tasks needed for tumor documentation. Open source LLMs show a strong potential for automating tumor documentation. Models from 7-12 billion parameters could offer an optimal balance between performance and resource efficiency. With tailored fine-tuning and well-designed prompting, these models might become important tools for clinical documentation in the future. The code for the evaluation is available from https://github.com/stefan-m-lenz/UroLlmEval. We also release the dataset as a new valuable resource that addresses the shortage of authentic and easily accessible benchmarks in German-language medical NLP.

arxiv情報

著者 Stefan Lenz,Arsenij Ustjanzew,Marco Jeray,Meike Ressing,Torsten Panholzer
発行日 2025-05-09 15:45:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Can open source large language models be used for tumor documentation in Germany? — An evaluation on urological doctors’ notes はコメントを受け付けていません

A Scaling Law for Token Efficiency in LLM Fine-Tuning Under Fixed Compute Budgets

要約

データ構成を明示的に説明する固定計算予算の下で、大規模な言語モデル(LLMS)を微調整するためのスケーリング法を導入します。
従来のアプローチでは、トークンのトークンのみがトレーニングデータを測定しますが、例の数とその平均トークンの長さ – 私たちが\ emph {datasetボリューム}と呼ぶもの – は、モデルのパフォーマンスにおいて決定的な役割を果たします。
私たちの定式化は、確立された手順に従って調整されています。
BRICCデータセットの実験\ Cite {Salavati2024レッディング}およびMMLU DataSet \ Cite {HendryCKS2021MassiveMultiTasklanguage}のサブセットは、複数のサブサンプリング戦略の下で評価され、データ組成が効率に有意に影響することを明らかにします。
これらの結果は、リソースに制約のある設定で実用的なLLM微調整のための洗練されたスケーリング法則を動機づけます。

要約(オリジナル)

We introduce a scaling law for fine-tuning large language models (LLMs) under fixed compute budgets that explicitly accounts for data composition. Conventional approaches measure training data solely by total tokens, yet the number of examples and their average token length — what we term \emph{dataset volume} — play a decisive role in model performance. Our formulation is tuned following established procedures. Experiments on the BRICC dataset \cite{salavati2024reducing} and subsets of the MMLU dataset \cite{hendrycks2021measuringmassivemultitasklanguage}, evaluated under multiple subsampling strategies, reveal that data composition significantly affects token efficiency. These results motivate refined scaling laws for practical LLM fine-tuning in resource-constrained settings.

arxiv情報

著者 Ryan Lagasse,Aidan Kiernans,Avijit Ghosh,Shiri Dori-Hacohen
発行日 2025-05-09 16:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Scaling Law for Token Efficiency in LLM Fine-Tuning Under Fixed Compute Budgets はコメントを受け付けていません

Turbo-ICL: In-Context Learning-Based Turbo Equalization

要約

このペーパーでは、コード化された多重入力マルチアウトプット(MIMO)システムのソフト入力ソフト出力チャネルイコライゼーションのために、大規模な言語モデル(LLMS)に触発された新しいコンテキスト学習(ICL)フレームワークを紹介します。
提案されたアプローチは、パイロット信号とデコーダーフィードバックのプロンプトから直接後方記号分布を推測することを学びます。
重要な革新は、迅速な増強を使用して、デコーダー出力からの外因性情報を追加のコンテキストとして組み込むことであり、ICLモデルがシンボルの推定をターボデコードの反復間で繰り返し改善できるようにすることです。
変圧器と状態空間アーキテクチャに基づく2つのモデルバリアントが開発および評価されています。
広範なシミュレーションは、従来の線形仮定が崩壊した場合、たとえば低解像度の量子化の存在下で、ICLイコライザーが完全なチャネル状態情報を提供されている場合でも、従来のモデルベースのベースラインを一貫して上回ることを示しています。
結果は、リソースに制約のあるシナリオでの状態モデルの効率と同様に、限られたトレーニングの多様性の下での変圧器ベースのモデルの利点を強調しています。

要約(オリジナル)

This paper introduces a novel in-context learning (ICL) framework, inspired by large language models (LLMs), for soft-input soft-output channel equalization in coded multiple-input multiple-output (MIMO) systems. The proposed approach learns to infer posterior symbol distributions directly from a prompt of pilot signals and decoder feedback. A key innovation is the use of prompt augmentation to incorporate extrinsic information from the decoder output as additional context, enabling the ICL model to refine its symbol estimates iteratively across turbo decoding iterations. Two model variants, based on Transformer and state-space architectures, are developed and evaluated. Extensive simulations demonstrate that, when traditional linear assumptions break down, e.g., in the presence of low-resolution quantization, ICL equalizers consistently outperform conventional model-based baselines, even when the latter are provided with perfect channel state information. Results also highlight the advantage of Transformer-based models under limited training diversity, as well as the efficiency of state-space models in resource-constrained scenarios.

arxiv情報

著者 Zihang Song,Matteo Zecchin,Bipin Rajendran,Osvaldo Simeone
発行日 2025-05-09 16:29:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.SP | Turbo-ICL: In-Context Learning-Based Turbo Equalization はコメントを受け付けていません

Scaling Laws For Scalable Oversight

要約

スケーラブルな監視、より弱いAIシステムがより強力なシステムを監督するプロセスは、将来の緊密なシステムを制御するための重要な戦略として提案されています。
ただし、スケーラブルな監視自体がどのようにスケーリングできるかはまだ不明です。
このギャップに対処するために、監督者の能力と監督されているシステムの関数としての監視の成功の確率を定量化するフレームワークを提案します。
具体的には、私たちのフレームワークは、能力が不一致したプレーヤー間のゲームとしての監視をモデル化しています。
プレーヤーは、一般的な知能の区分的線形関数である監視固有のELOスコアを持ち、2つのプラトーがタスクの無能さとタスクの飽和に対応しています。
ゲームNIMの変更されたバージョンでフレームワークを検証し、マフィア、討論、バックドアコード、WarGamesの4つの監視ゲームに適用します。
ゲームごとに、ドメインのパフォーマンスが一般的なAIシステム機能に依存する方法を概算するスケーリング法則を見つけます。
次に、ネストされたスケーラブル監視(NSO)の理論的研究で調査結果を構築します。これは、信頼できるモデルが信頼されていない強力なモデルを監督し、次のステップで信頼できるモデルになるプロセスです。
NSOが成功する条件を特定し、監視の成功の確率を最大化するために、最適な数の監視レベルの数値的に(場合によっては分析的に)導き出します。
また、4つの監視ゲームに理論を適用します。これには、400の一般的なELOギャップでのNSO成功率は、マフィアで13.5%、議論で51.7%、バックドアコードで10.0%、ウォーゲームで9.4%であることがわかります。
これらのレートは、より強力なシステムを監督するとさらに低下します。

要約(オリジナル)

Scalable oversight, the process by which weaker AI systems supervise stronger ones, has been proposed as a key strategy to control future superintelligent systems. However, it is still unclear how scalable oversight itself scales. To address this gap, we propose a framework that quantifies the probability of successful oversight as a function of the capabilities of the overseer and the system being overseen. Specifically, our framework models oversight as a game between capability-mismatched players; the players have oversight-specific Elo scores that are a piecewise-linear function of their general intelligence, with two plateaus corresponding to task incompetence and task saturation. We validate our framework with a modified version of the game Nim and then apply it to four oversight games: Mafia, Debate, Backdoor Code and Wargames. For each game, we find scaling laws that approximate how domain performance depends on general AI system capability. We then build on our findings in a theoretical study of Nested Scalable Oversight (NSO), a process in which trusted models oversee untrusted stronger models, which then become the trusted models in the next step. We identify conditions under which NSO succeeds and derive numerically (and in some cases analytically) the optimal number of oversight levels to maximize the probability of oversight success. We also apply our theory to our four oversight games, where we find that NSO success rates at a general Elo gap of 400 are 13.5% for Mafia, 51.7% for Debate, 10.0% for Backdoor Code, and 9.4% for Wargames; these rates decline further when overseeing stronger systems.

arxiv情報

著者 Joshua Engels,David D. Baek,Subhash Kantamneni,Max Tegmark
発行日 2025-05-09 16:30:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | Scaling Laws For Scalable Oversight はコメントを受け付けていません

Query-driven Document-level Scientific Evidence Extraction from Biomedical Studies

要約

臨床研究の質問のための生物医学研究から科学的証拠を抽出すること(例えば、幹細胞移植は、プラセボと比較して医学的に難治性のクローン病の患者の生活の質を改善しますか?)は、生物医学的証拠を合成する上で重要なステップです。
この論文では、矛盾する証拠を伴う臨床的質問に対する文書レベルの科学的証拠抽出のタスクに焦点を当てています。
このタスクをサポートするために、Cochraneforestというデータセットを作成し、Cochraneの系統的レビューから森林プロットを活用します。
これは、202の注釈付き森林区画、関連する臨床研究の質問、研究の全文、および研究固有の結論で構成されています。
Cochraneforestに建設すると、証拠抽出のユニークな課題に取り組むために設計された検索された生成フレームワークであるURCA(均一な検索クラスター化された増強)を提案します。
私たちの実験は、URCAがこのタスクでF1スコアで最高の既存の方法を最大10.3%上回ることを示しています。
ただし、結果はコクランフォーストの複雑さも強調しており、自動化されたエビデンス合成システムを進めるための挑戦的なテストベッドとして確立されています。

要約(オリジナル)

Extracting scientific evidence from biomedical studies for clinical research questions (e.g., Does stem cell transplantation improve quality of life in patients with medically refractory Crohn’s disease compared to placebo?) is a crucial step in synthesising biomedical evidence. In this paper, we focus on the task of document-level scientific evidence extraction for clinical questions with conflicting evidence. To support this task, we create a dataset called CochraneForest, leveraging forest plots from Cochrane systematic reviews. It comprises 202 annotated forest plots, associated clinical research questions, full texts of studies, and study-specific conclusions. Building on CochraneForest, we propose URCA (Uniform Retrieval Clustered Augmentation), a retrieval-augmented generation framework designed to tackle the unique challenges of evidence extraction. Our experiments show that URCA outperforms the best existing methods by up to 10.3% in F1 score on this task. However, the results also underscore the complexity of CochraneForest, establishing it as a challenging testbed for advancing automated evidence synthesis systems.

arxiv情報

著者 Massimiliano Pronesti,Joao Bettencourt-Silva,Paul Flanagan,Alessandra Pascale,Oisin Redmond,Anya Belz,Yufang Hou
発行日 2025-05-09 16:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Query-driven Document-level Scientific Evidence Extraction from Biomedical Studies はコメントを受け付けていません

Examining the Source of Defects from a Mechanical Perspective for 3D Anomaly Detection

要約

この論文では、構造用語でのみ異常を特定するだけでなく、異常の原因によって動機付けられたより良い異常検出について考えます。
ほとんどの異常は、内部および外部のソースからの予測不可能な欠陥のある力の結果と見なされており、その反対の力は異常を修正するために求められています。
3D異常検出(MC4AD)のメカニック補完フレームワークを導入して、各ポイントの内部および外部の矯正力を生成しました。
さまざまな異常をシミュレートするために、多様な異常生成(DA-Gen)モジュールが最初に提案されています。
次に、内部および外部の是正力のさまざまな貢献をシミュレートするために、ポイントレベル表現の相補的表現を備えた修正力予測ネットワーク(CFP-NET)を提示します。
矯正力を適切に制約するために、新しい対称損失と全体的な損失を含む、合計損失が提案されました。
ハイライトとして、業界における3D異常検出はより包括的に検討し、3方向の決定に基づいて階層的な品質管理戦略を作成し、モデル内の分散を伴う異常なintravarianceという名前のデータセットを提供してモデルを評価します。
提案された5つのデータセットと既存の5つのデータセットでは、最小パラメーターと最速の推論速度を備えた9人の最先端のパフォーマーを取得しました。
ソースはhttps://github.com/hzzzzzhappy/mc4adで入手できます

要約(オリジナル)

In this paper, we go beyond identifying anomalies only in structural terms and think about better anomaly detection motivated by anomaly causes. Most anomalies are regarded as the result of unpredictable defective forces from internal and external sources, and their opposite forces are sought to correct the anomalies. We introduced a Mechanics Complementary framework for 3D anomaly detection (MC4AD) to generate internal and external Corrective forces for each point. A Diverse Anomaly-Generation (DA-Gen) module is first proposed to simulate various anomalies. Then, we present a Corrective Force Prediction Network (CFP-Net) with complementary representations for point-level representation to simulate the different contributions of internal and external corrective forces. A combined loss was proposed, including a new symmetric loss and an overall loss, to constrain the corrective forces properly. As a highlight, we consider 3D anomaly detection in industry more comprehensively, creating a hierarchical quality control strategy based on a three-way decision and contributing a dataset named Anomaly-IntraVariance with intraclass variance to evaluate the model. On the proposed and existing five datasets, we obtained nine state-of-the-art performers with the minimum parameters and the fastest inference speed. The source is available at https://github.com/hzzzzzhappy/MC4AD

arxiv情報

著者 Hanzhe Liang,Aoran Wang,Jie Zhou,Xin Jin,Can Gao,Jinbao Wang
発行日 2025-05-09 09:09:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Examining the Source of Defects from a Mechanical Perspective for 3D Anomaly Detection はコメントを受け付けていません

Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer

要約

OCRテクノロジーの急速な発展に伴い、混合シーンテキスト認識が重要な技術的課題となっています。
ディープラーニングモデルは特定のシナリオで重要な結果を達成していますが、その一般性と安定性は依然として改善が必要であり、コンピューティングリソースの需要が高いことは柔軟性に影響します。
これらの問題に対処するために、このペーパーでは、事前に訓練されたOCRトランスに基づいたパラメーター効率の高いハイブリッドテキストスポッティング方法であるDlora-Trocrを提案します。
画像エンコーダーに重量分散ドラモジュールを埋め込み、テキストデコーダーにLORAモジュールを埋め込むことにより、この方法は、さまざまな下流タスクで効率的に微調整できます。
私たちの方法には、トレーニング効率を加速するだけでなく、混合テキストシーンにおけるOCRシステムの認識精度とクロスダタセット一般化パフォーマンスを大幅に改善するだけでなく、0.7 \%トレーニング可能なパラメーターを超えていません。
実験は、提案されたDlora-Trocrが、手書き、印刷、ストリートテキストが混在している複雑なシーンを認識し、IAMデータセットで4.02のCERを達成し、SROIEデータセットで94.29のF1スコアを達成し、STRベンチマークでのARTの86.70の戦争を達成することを実験しています。

要約(オリジナル)

With the rapid development of OCR technology, mixed-scene text recognition has become a key technical challenge. Although deep learning models have achieved significant results in specific scenarios, their generality and stability still need improvement, and the high demand for computing resources affects flexibility. To address these issues, this paper proposes DLoRA-TrOCR, a parameter-efficient hybrid text spotting method based on a pre-trained OCR Transformer. By embedding a weight-decomposed DoRA module in the image encoder and a LoRA module in the text decoder, this method can be efficiently fine-tuned on various downstream tasks. Our method requires no more than 0.7\% trainable parameters, not only accelerating the training efficiency but also significantly improving the recognition accuracy and cross-dataset generalization performance of the OCR system in mixed text scenes. Experiments show that our proposed DLoRA-TrOCR outperforms other parameter-efficient fine-tuning methods in recognizing complex scenes with mixed handwritten, printed, and street text, achieving a CER of 4.02 on the IAM dataset, a F1 score of 94.29 on the SROIE dataset, and a WAR of 86.70 on the STR Benchmark, reaching state-of-the-art performance.

arxiv情報

著者 Da Chang,Yu Li
発行日 2025-05-09 09:14:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer はコメントを受け付けていません

DFEN: Dual Feature Equalization Network for Medical Image Segmentation

要約

医療画像セグメンテーションの現在の方法は、主に画像全体の観点からコンテキスト機能情報を抽出することに焦点を当てています。
これらの方法は効果的なパフォーマンスを示していますが、クラスのピクセル数が少ない境界と領域のピクセルのピクセルは、他のクラスからより多くのコンテキスト機能情報をキャプチャし、不平等なコンテキスト機能情報によるピクセルの誤分類につながるという事実を考慮していません。
このホワイトペーパーでは、画像レベルの均等化機能情報とクラスレベルのイコライゼーション機能情報によってピクセル機能表現を増強することを目的とした、SWINトランスと畳み込みニューラルネットワークのハイブリッドアーキテクチャに基づいたデュアルフィーチャーイコライゼーションネットワークを提案します。
まず、画像レベルの特徴イコライゼーションモジュールは、画像内のピクセルのコンテキスト情報を均等化するように設計されています。
第二に、同じクラスの領域を集約して、クラスレベルの特徴イコライゼーションモジュールごとに対応するクラスのピクセル特徴表現を均等にします。
最後に、画像レベルのイコライゼーション機能情報とクラスレベルのイコライゼーション機能情報を学習することにより、ピクセル機能表現が強化されます。
さらに、SWINトランスはエンコーダーとデコーダーの両方として利用されているため、モデルが長距離依存関係と空間相関をキャプチャする能力を強化します。
乳房超音波画像(BUSI)、国際的なスキンイメージングコラボレーション(ISIC2017)、自動心臓診断チャレンジ(ACDC)、およびpH $^2 $データセットに関する広範な実験を実施しました。
実験結果は、私たちの方法が最先端のパフォーマンスを達成したことを示しています。
私たちのコードは、https://github.com/jianjianyin/dfenで公開されています。

要約(オリジナル)

Current methods for medical image segmentation primarily focus on extracting contextual feature information from the perspective of the whole image. While these methods have shown effective performance, none of them take into account the fact that pixels at the boundary and regions with a low number of class pixels capture more contextual feature information from other classes, leading to misclassification of pixels by unequal contextual feature information. In this paper, we propose a dual feature equalization network based on the hybrid architecture of Swin Transformer and Convolutional Neural Network, aiming to augment the pixel feature representations by image-level equalization feature information and class-level equalization feature information. Firstly, the image-level feature equalization module is designed to equalize the contextual information of pixels within the image. Secondly, we aggregate regions of the same class to equalize the pixel feature representations of the corresponding class by class-level feature equalization module. Finally, the pixel feature representations are enhanced by learning weights for image-level equalization feature information and class-level equalization feature information. In addition, Swin Transformer is utilized as both the encoder and decoder, thereby bolstering the ability of the model to capture long-range dependencies and spatial correlations. We conducted extensive experiments on Breast Ultrasound Images (BUSI), International Skin Imaging Collaboration (ISIC2017), Automated Cardiac Diagnosis Challenge (ACDC) and PH$^2$ datasets. The experimental results demonstrate that our method have achieved state-of-the-art performance. Our code is publicly available at https://github.com/JianJianYin/DFEN.

arxiv情報

著者 Jianjian Yin,Yi Chen,Chengyu Li,Zhichao Zheng,Yanhui Gu,Junsheng Zhou
発行日 2025-05-09 09:38:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DFEN: Dual Feature Equalization Network for Medical Image Segmentation はコメントを受け付けていません