A thorough benchmark of automatic text classification: From traditional approaches to large language models

要約

自動テキスト分類(ATC)は、過去10年間に顕著な進歩を経験しており、最近の大小の言語モデル(SLMおよびLLMS)によって最もよく例示されており、変圧器アーキテクチャによって活用されています。
最近の有効性の改善にもかかわらず、これらの最近のアプローチの有効性が得られるかどうかを調査する包括的なコストベネフィット分析では、SVMやロジスティック回帰などの従来のテキスト分類アプローチと比較して、文献にはまだより高いコストが補償されます。
これに関連して、この作業の主な貢献は2つあります。(i)5つのオープンLLMを含む12の従来のATCソリューションのコストベネフィットの科学的に健全な分析を提供し、(ii)eductiment {22データセット}を含む{22データセット}を含む大きなベンチマークを提供します。
コード、データ、ドキュメントのリリースにより、コミュニティは実験を再現し、より科学的に健全な方法でフィールドを前進させることができます。
私たちの比較実験結果は、LLMSが有効性の点で従来のアプローチ(平均で最大26%-7.1%)とSLMS(平均で最大4.9%-1.9%)を上回ることを示しています。
ただし、LLMSは、従来の方法やSLMよりもそれぞれ平均590倍および8.5倍遅いため、微調整により、計算コストが大幅に高くなります。
結果は、次の推奨事項を示唆しています。(1)可能な限り最良の有効性を必要とし、コストを支払うことができるアプリケーションのLLMS。
(2)リソース制限アプリケーションのロジスティック回帰とSVMなどの従来の方法、または大規模なLLMを調整するためのコストを払えないもの。
(3)最適に近い有効性効率のトレードオフのためのロベルタのようなSLM。

要約(オリジナル)

Automatic text classification (ATC) has experienced remarkable advancements in the past decade, best exemplified by recent small and large language models (SLMs and LLMs), leveraged by Transformer architectures. Despite recent effectiveness improvements, a comprehensive cost-benefit analysis investigating whether the effectiveness gains of these recent approaches compensate their much higher costs when compared to more traditional text classification approaches such as SVMs and Logistic Regression is still missing in the literature. In this context, this work’s main contributions are twofold: (i) we provide a scientifically sound comparative analysis of the cost-benefit of twelve traditional and recent ATC solutions including five open LLMs, and (ii) a large benchmark comprising {22 datasets}, including sentiment analysis and topic classification, with their (train-validation-test) partitions based on folded cross-validation procedures, along with documentation, and code. The release of code, data, and documentation enables the community to replicate experiments and advance the field in a more scientifically sound manner. Our comparative experimental results indicate that LLMs outperform traditional approaches (up to 26%-7.1% on average) and SLMs (up to 4.9%-1.9% on average) in terms of effectiveness. However, LLMs incur significantly higher computational costs due to fine-tuning, being, on average 590x and 8.5x slower than traditional methods and SLMs, respectively. Results suggests the following recommendations: (1) LLMs for applications that require the best possible effectiveness and can afford the costs; (2) traditional methods such as Logistic Regression and SVM for resource-limited applications or those that cannot afford the cost of tuning large LLMs; and (3) SLMs like Roberta for near-optimal effectiveness-efficiency trade-off.

arxiv情報

著者 Washington Cunha,Leonardo Rocha,Marcos André Gonçalves
発行日 2025-04-02 17:40:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A thorough benchmark of automatic text classification: From traditional approaches to large language models はコメントを受け付けていません

Lost in Sequence: Do Large Language Models Understand Sequential Recommendation?

要約

最近、大規模な言語モデル(LLMS)は、高度なテキスト理解能力とコンテキスト認識のおかげで、推奨の有望なツールとして浮上しています。
順次推奨シナリオの下で、LLMベースの推奨事項(LLM4REC)モデルのトレーニングと評価の現在の慣行にもかかわらず、これらのモデルがユーザーのアイテムインタラクションシーケンスに固有のシーケンシャル情報を理解しているかどうかは、ほとんど見落とされていることがわかりました。
この論文では、最初に一連の実験を通して、既存のLLM4RECモデルがトレーニングと推論中に連続した情報を完全にキャプチャしないことを示します。
次に、LLM-SRECと呼ばれるシンプルで効果的なLLMベースのシーケンシャル推奨を提案します。これは、事前に訓練されたCF-SRECモデルから抽出されたユーザー表現をLLMSに抽出することにより、LLMSへのシーケンシャル情報の統合を強化する方法です。
当社の広範な実験は、LLM-SRECがユーザーのアイテムの相互作用シーケンスを理解するLLMSの能力を高め、最終的に推奨パフォーマンスの向上につながることを示しています。
さらに、LLMの微調整を必要とする既存のLLM4RECモデルとは異なり、LLM-SRECは、いくつかの軽量MLPのみをトレーニングすることで最先端のパフォーマンスを実現し、実際のアプリケーションでの実用性を強調します。
私たちのコードは、https://github.com/sein-kim/llm-srecで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have recently emerged as promising tools for recommendation thanks to their advanced textual understanding ability and context-awareness. Despite the current practice of training and evaluating LLM-based recommendation (LLM4Rec) models under a sequential recommendation scenario, we found that whether these models understand the sequential information inherent in users’ item interaction sequences has been largely overlooked. In this paper, we first demonstrate through a series of experiments that existing LLM4Rec models do not fully capture sequential information both during training and inference. Then, we propose a simple yet effective LLM-based sequential recommender, called LLM-SRec, a method that enhances the integration of sequential information into LLMs by distilling the user representations extracted from a pre-trained CF-SRec model into LLMs. Our extensive experiments show that LLM-SRec enhances LLMs’ ability to understand users’ item interaction sequences, ultimately leading to improved recommendation performance. Furthermore, unlike existing LLM4Rec models that require fine-tuning of LLMs, LLM-SRec achieves state-of-the-art performance by training only a few lightweight MLPs, highlighting its practicality in real-world applications. Our code is available at https://github.com/Sein-Kim/LLM-SRec.

arxiv情報

著者 Sein Kim,Hongseok Kang,Kibum Kim,Jiwan Kim,Donghyun Kim,Minchul Yang,Kwangjin Oh,Julian McAuley,Chanyoung Park
発行日 2025-04-02 17:42:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Lost in Sequence: Do Large Language Models Understand Sequential Recommendation? はコメントを受け付けていません

Critical Thinking: Which Kinds of Complexity Govern Optimal Reasoning Length?

要約

大規模な言語モデル(LLM)は、推論時に言語化された推論の恩恵を受けることがよくありますが、タスクのどの側面がこれらの余分な推論トークンを困難にするかは不明のままです。
この質問を調査するために、決定論的な有限オートマトン(DFA)を使用してフレームワークを正式にします。
DFAは、実行された長さ(必要な推論ステップの数)や状態空間サイズ(決定の複雑さ)などの測定可能な特性を通じてタスクの複雑さを特徴付けることができる形式を提供します。
まず、さまざまなサイズとトレーニングパラダイムのさまざまなタスクとモデルで、正しいソリューションを生成する確率が最大化されるように、最適な推論トークンが存在することを示します。
次に、どの複雑さの特性がこの臨界長を支配するかを調査します。より長い対応する基礎となるDFAの実行(つまり、より大きな潜在的な状態追跡要件を要求する)が長い推論の長さと相関していることがわかりますが、驚くべきことに、DFAサイズ(つまり、状態空間の複雑さ)はそうではありません。
次に、これらの発見の意味を示します。新しい問題の最適な推論トークンを予測し、最適でない長さの回答を除外すると、一貫した精度の改善が得られます。

要約(オリジナル)

Large language models (LLMs) often benefit from verbalized reasoning at inference time, but it remains unclear which aspects of task difficulty these extra reasoning tokens address. To investigate this question, we formalize a framework using deterministic finite automata (DFAs). DFAs offer a formalism through which we can characterize task complexity through measurable properties such as run length (number of reasoning steps required) and state-space size (decision complexity). We first show that across different tasks and models of different sizes and training paradigms, there exists an optimal amount of reasoning tokens such that the probability of producing a correct solution is maximized. We then investigate which properties of complexity govern this critical length: we find that task instances with longer corresponding underlying DFA runs (i.e. demand greater latent state-tracking requirements) correlate with longer reasoning lengths, but, surprisingly, that DFA size (i.e. state-space complexity) does not. We then demonstrate an implication of these findings: being able to predict the optimal number of reasoning tokens for new problems and filtering out non-optimal length answers results in consistent accuracy improvements.

arxiv情報

著者 Celine Lee,Alexander M. Rush,Keyon Vafa
発行日 2025-04-02 17:45:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Critical Thinking: Which Kinds of Complexity Govern Optimal Reasoning Length? はコメントを受け付けていません

Efficient Federated Learning Tiny Language Models for Mobile Network Feature Prediction

要約

通信では、自律ネットワーク(ANS)は、特定の要件(帯域幅など)と利用可能なリソースに基づいて構成を自動的に調整します。
これらのネットワークは、自己最適化、自己修復、および自己保護のための継続的な監視とインテリジェントなメカニズムに依存しています。最近では、予測モデリングとパターン認識を可能にするために、ニューラルネットワーク(NNS)によって強化されています。
ここでは、Federated Learning(FL)により、データプライバシーを維持しながら、それぞれNNSを装備した複数のANセル(NNSを装備している)がモデルを協力して訓練できます。
ただし、FLには大規模な神経データの頻繁な伝播が必要であり、信頼できるコミュニケーションのための効率的で標準化された圧縮戦略が必要です。
これに対処するために、さまざまなモバイルネットワーク機能予測(Ping、SNR、またはバンドの周波数など)に小さな言語モデル(TLMS)を統合する新しいFLフレームワーク内で、ISO/IECニューラルネットワークコーディング(NNC)標準のフラウンホーファー実装であるNNCodecを調査します。
ベルリンV2Xデータセットでの実験結果は、NNCODECが通信オーバーヘッドを1%未満に減らしながら、透明な圧縮(つまり、無視できるパフォーマンスの損失)を達成し、協調して学習した自律モバイルネットワークでFLとFLと組み合わせることの有効性を示していることを示しています。

要約(オリジナル)

In telecommunications, Autonomous Networks (ANs) automatically adjust configurations based on specific requirements (e.g., bandwidth) and available resources. These networks rely on continuous monitoring and intelligent mechanisms for self-optimization, self-repair, and self-protection, nowadays enhanced by Neural Networks (NNs) to enable predictive modeling and pattern recognition. Here, Federated Learning (FL) allows multiple AN cells – each equipped with NNs – to collaboratively train models while preserving data privacy. However, FL requires frequent transmission of large neural data and thus an efficient, standardized compression strategy for reliable communication. To address this, we investigate NNCodec, a Fraunhofer implementation of the ISO/IEC Neural Network Coding (NNC) standard, within a novel FL framework that integrates tiny language models (TLMs) for various mobile network feature prediction (e.g., ping, SNR or band frequency). Our experimental results on the Berlin V2X dataset demonstrate that NNCodec achieves transparent compression (i.e., negligible performance loss) while reducing communication overhead to below 1%, showing the effectiveness of combining NNC with FL in collaboratively learned autonomous mobile networks.

arxiv情報

著者 Daniel Becking,Ingo Friese,Karsten Müller,Thomas Buchholz,Mandy Galkow-Schneider,Wojciech Samek,Detlev Marpe
発行日 2025-04-02 17:54:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, eess.SP | Efficient Federated Learning Tiny Language Models for Mobile Network Feature Prediction はコメントを受け付けていません

The LLM Wears Prada: Analysing Gender Bias and Stereotypes through Online Shopping Data

要約

大規模な言語モデルの幅広いドメインとクロスドメインの採用により、印象的なパフォーマンスの根底にあるトレーニングデータの統計的相関を評価し、微妙で厄介なバイアスを隠すことが重要になります。
LLMSの性別バイアスは、通常、特定の性別に関連する作品、趣味、感情の観点から広く調査されています。
この研究では、新しい視点を紹介します。
LLMがオンラインショッピングの履歴のみに基づいて個人の性別を予測できるかどうか、およびこれらの予測が性別バイアスとステレオタイプの影響を受けるかどうかを調査します。
米国のユーザーからの歴史的なオンライン購入のデータセットを使用して、6つのLLMが性別を分類する能力を評価し、その推論と製品性別の共起を分析します。
結果は、モデルが中程度の精度で性別を推測できることを示していますが、その決定はしばしば製品カテゴリと性別の間のステレオタイプの関連に根ざしていることを示しています。
さらに、バイアスを回避するための明示的な指示は、モデルの予測の確実性を減らしますが、ステレオタイプのパターンを排除しません。
私たちの調査結果は、LLMSの性別バイアスの持続的な性質を強調し、堅牢なバイアス緩和戦略の必要性を強調しています。

要約(オリジナル)

With the wide and cross-domain adoption of Large Language Models, it becomes crucial to assess to which extent the statistical correlations in training data, which underlie their impressive performance, hide subtle and potentially troubling biases. Gender bias in LLMs has been widely investigated from the perspectives of works, hobbies, and emotions typically associated with a specific gender. In this study, we introduce a novel perspective. We investigate whether LLMs can predict an individual’s gender based solely on online shopping histories and whether these predictions are influenced by gender biases and stereotypes. Using a dataset of historical online purchases from users in the United States, we evaluate the ability of six LLMs to classify gender and we then analyze their reasoning and products-gender co-occurrences. Results indicate that while models can infer gender with moderate accuracy, their decisions are often rooted in stereotypical associations between product categories and gender. Furthermore, explicit instructions to avoid bias reduce the certainty of model predictions, but do not eliminate stereotypical patterns. Our findings highlight the persistent nature of gender biases in LLMs and emphasize the need for robust bias-mitigation strategies.

arxiv情報

著者 Massimiliano Luca,Ciro Beneduce,Bruno Lepri,Jacopo Staiano
発行日 2025-04-02 17:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | The LLM Wears Prada: Analysing Gender Bias and Stereotypes through Online Shopping Data はコメントを受け付けていません

Robust Unsupervised Domain Adaptation for 3D Point Cloud Segmentation Under Source Adversarial Attacks

要約

監視されていないドメイン適応(UDA)フレームワークは、クリーンデータの3Dポイントクラウドセマンティックセグメンテーションモデルの優れた一般化機能を示しています。
ただし、既存の作業は、ソースドメイン自体が損なわれている場合、敵対的な堅牢性を見落としています。
UDAフレームワークの堅牢性を包括的に探求するために、まず、ポイント雲の表面にわずかな摂動だけでデータセットを大幅に汚染できるステルス敵のポイントクラウド生成攻撃を設計します。
それに基づいて、合成された汚染されたライダー点雲からなる新しいデータセットAdvsynlidarを提案します。
生成された破損したデータを使用すると、敵対的な適応フレームワーク(AAF)を対策としてさらに開発します。
具体的には、キーポイントに敏感な(KPS)損失を堅牢なロングテール損失(RLT損失)に延長し、デコーダーブランチを利用することにより、私たちのアプローチにより、モデルはトレーニング前の段階でロングテールクラスに焦点を合わせ、適応段階でポイントクラウド構造を復元するために高自信のデコードされたポイント情報をレバレッジできます。
AdvsynlidarデータセットでAAFメソッドを評価しました。この方法では、AAFメソッドが3DポイントクラウドセグメンテーションアプリケーションでのUDAのソース敵対的摂動の下でのパフォーマンス低下を軽減できることを示しています。

要約(オリジナル)

Unsupervised domain adaptation (UDA) frameworks have shown good generalization capabilities for 3D point cloud semantic segmentation models on clean data. However, existing works overlook adversarial robustness when the source domain itself is compromised. To comprehensively explore the robustness of the UDA frameworks, we first design a stealthy adversarial point cloud generation attack that can significantly contaminate datasets with only minor perturbations to the point cloud surface. Based on that, we propose a novel dataset, AdvSynLiDAR, comprising synthesized contaminated LiDAR point clouds. With the generated corrupted data, we further develop the Adversarial Adaptation Framework (AAF) as the countermeasure. Specifically, by extending the key point sensitive (KPS) loss towards the Robust Long-Tail loss (RLT loss) and utilizing a decoder branch, our approach enables the model to focus on long-tail classes during the pre-training phase and leverages high-confidence decoded point cloud information to restore point cloud structures during the adaptation phase. We evaluated our AAF method on the AdvSynLiDAR dataset, where the results demonstrate that our AAF method can mitigate performance degradation under source adversarial perturbations for UDA in the 3D point cloud segmentation application.

arxiv情報

著者 Haosheng Li,Yuecong Xu,Junjie Chen,Kemi Ding
発行日 2025-04-02 12:11:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Robust Unsupervised Domain Adaptation for 3D Point Cloud Segmentation Under Source Adversarial Attacks はコメントを受け付けていません

BioAtt: Anatomical Prior Driven Low-Dose CT Denoising

要約

ディープラーニングベースの除去方法により、低用量CT(LDCT)の画質が大幅に改善されました。
ただし、既存のモデルは、純粋にデータ駆動型の注意メカニズムのために、多くの場合、滑らかな重要な解剖学的詳細を超えています。
この課題に対処するために、新しいLDCT除去フレームワークであるBioattを提案します。
重要な革新は、前提条件の視覚言語モデルBiomedClipから抽出された解剖学的事前分布に参加することにあります。
これらのプライアーは、除去モデルを導き、解剖学的に関連する領域に焦点を合わせて、臨床的に関連する構造を維持しながらノイズを抑制します。
3つの主な貢献を強調しています。Bioattは、複数の解剖学的領域でSSIM、PSNR、およびRMSEのベースラインと注意ベースのモデルを上回ります。
このフレームワークでは、解剖学的前提を空間的注意に直接埋め込むことにより、新しいアーキテクチャパラダイムを紹介します。
最後に、Bioattの注意マップは、モデルの複雑さの増加ではなく、解剖学的ガイダンスに起因する改善が視覚的確認を提供します。

要約(オリジナル)

Deep-learning-based denoising methods have significantly improved Low-Dose CT (LDCT) image quality. However, existing models often over-smooth important anatomical details due to their purely data-driven attention mechanisms. To address this challenge, we propose a novel LDCT denoising framework, BioAtt. The key innovation lies in attending anatomical prior distributions extracted from the pretrained vision-language model BiomedCLIP. These priors guide the denoising model to focus on anatomically relevant regions to suppress noise while preserving clinically relevant structures. We highlight three main contributions: BioAtt outperforms baseline and attention-based models in SSIM, PSNR, and RMSE across multiple anatomical regions. The framework introduces a new architectural paradigm by embedding anatomic priors directly into spatial attention. Finally, BioAtt attention maps provide visual confirmation that the improvements stem from anatomical guidance rather than increased model complexity.

arxiv情報

著者 Namhun Kim,UiHyun Cho
発行日 2025-04-02 12:14:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BioAtt: Anatomical Prior Driven Low-Dose CT Denoising はコメントを受け付けていません

CLIP-SLA: Parameter-Efficient CLIP Adaptation for Continuous Sign Language Recognition

要約

継続的な手話認識(CSLR)は、ビデオの手話ジェスチャーの解釈と転写シーケンスの解釈と転写に焦点を当てています。
この作業では、クリップモデルからパラメーター効率の高い微調整(PEFT)を介して、クリップモデルから手話タスクまで強力な事前訓練を受けた視覚エンコーダーを活用する新しいCSLRフレームワークであるClip手話適応(CLIP-SLA)を提案します。
PEFTモジュールをクリップビジュアルエンコーダーに統合するSLAアダプターとSLA-LORAの2つのバリアントを導入し、最小限のトレーニング可能なパラメーターで微調整を可能にします。
提案されたフレームワークの有効性は、Phoenix2014、Phoenix2014-T、CSL-Daily、およびIsharah-500の4つのデータセットで検証されています。
広範なアブレーション研究は、CSLRの異なる視覚言語モデルを使用して、提案された方法の有効性と柔軟性を強調しています。
これらの調査結果は、スケーラブルで効率的なCSLRの大規模な事前訓練モデルを適応させる可能性を示しています。これは、手話の理解における将来の進歩への道を開きます。

要約(オリジナル)

Continuous sign language recognition (CSLR) focuses on interpreting and transcribing sequences of sign language gestures in videos. In this work, we propose CLIP sign language adaptation (CLIP-SLA), a novel CSLR framework that leverages the powerful pre-trained visual encoder from the CLIP model to sign language tasks through parameter-efficient fine-tuning (PEFT). We introduce two variants, SLA-Adapter and SLA-LoRA, which integrate PEFT modules into the CLIP visual encoder, enabling fine-tuning with minimal trainable parameters. The effectiveness of the proposed frameworks is validated on four datasets: Phoenix2014, Phoenix2014-T, CSL-Daily, and Isharah-500, where both CLIP-SLA variants outperformed several SOTA models with fewer trainable parameters. Extensive ablation studies emphasize the effectiveness and flexibility of the proposed methods with different vision-language models for CSLR. These findings showcase the potential of adapting large-scale pre-trained models for scalable and efficient CSLR, which pave the way for future advancements in sign language understanding.

arxiv情報

著者 Sarah Alyami,Hamzah Luqman
発行日 2025-04-02 12:15:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CLIP-SLA: Parameter-Efficient CLIP Adaptation for Continuous Sign Language Recognition はコメントを受け付けていません

Overlap-Aware Feature Learning for Robust Unsupervised Domain Adaptation for 3D Semantic Segmentation

要約

3Dポイントクラウドセマンティックセグメンテーション(PCSS)は、ロボットシステムと自律運転における環境認識の基礎であり、ポイントごとの分類を通じて正確なシーンの理解を可能にします。
監視されていないドメイン適応(UDA)は、PCSのラベル不足を軽減しますが、既存の方法は、実際の摂動(雪、霧、雨など)および敵対的な歪みに対する固有の脆弱性を非常に見落としています。
この作業は、最初に現在のPCSS-UDAの堅牢性を損なう2つの内因性の制限を特定します。(a)共有クラスの領域の整理されていない境界から重複していない特徴と、(b)ターゲット固有のパターンを抑制するドメイン不変の学習によって引き起こされる特徴構造侵食。
提案された問題に対処するために、次のことを提案します。1)堅牢性メトリックを通じて敵対的攻撃/腐敗タイプに対する回復力を定量化する堅牢性評価モデル。
2)注意誘導のオーバーラップ抑制を介して識別構造を維持しながら、双方向ドメインマッピングを可能にする反転性注意アラインメントモジュール(IAAM)。
3)より識別的な表現のために機能品質を備えた擬似ラベルを徐々に改良する品質を意識したコントラスト学習を備えた対照的なメモリバンク。
SynlidarからSemanticPossの適応に関する広範な実験は、敵対攻撃下での14.3%の最大MIOU改善を示しています。

要約(オリジナル)

3D point cloud semantic segmentation (PCSS) is a cornerstone for environmental perception in robotic systems and autonomous driving, enabling precise scene understanding through point-wise classification. While unsupervised domain adaptation (UDA) mitigates label scarcity in PCSS, existing methods critically overlook the inherent vulnerability to real-world perturbations (e.g., snow, fog, rain) and adversarial distortions. This work first identifies two intrinsic limitations that undermine current PCSS-UDA robustness: (a) unsupervised features overlap from unaligned boundaries in shared-class regions and (b) feature structure erosion caused by domain-invariant learning that suppresses target-specific patterns. To address the proposed problems, we propose a tripartite framework consisting of: 1) a robustness evaluation model quantifying resilience against adversarial attack/corruption types through robustness metrics; 2) an invertible attention alignment module (IAAM) enabling bidirectional domain mapping while preserving discriminative structure via attention-guided overlap suppression; and 3) a contrastive memory bank with quality-aware contrastive learning that progressively refines pseudo-labels with feature quality for more discriminative representations. Extensive experiments on SynLiDAR-to-SemanticPOSS adaptation demonstrate a maximum mIoU improvement of 14.3\% under adversarial attack.

arxiv情報

著者 Junjie Chen,Yuecong Xu,Haosheng Li,Kemi Ding
発行日 2025-04-02 12:16:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Overlap-Aware Feature Learning for Robust Unsupervised Domain Adaptation for 3D Semantic Segmentation はコメントを受け付けていません

FriendNet: Detection-Friendly Dehazing Network

要約

有害な気象条件は、多くの場合、キャプチャされた画像の品質を損ない、必然的に高度なドライバーアシスタンスシステム(ADA)と自律運転の最先端のオブジェクト検出モデルを誘導します。
この論文では、興味深い質問を提起します。画像の修復とオブジェクトの検出の組み合わせは、有害な気象条件での検出性能を高めることができますか?
それに答えるために、ガイダンス情報とタスク駆動型の学習を介して画像の脱ヘージとオブジェクトの検出を一緒に橋渡しする効果的なアーキテクチャを提案します。
FriendNetは、高品質の認識と高い検出能力の両方を提供することを目指しています。
画像の脱毛を前処理として直感的に扱う既存の取り組みとは異なり、FriendNetはこれら2つのタスク間の正の相関を確立します。
Dehazing Networkによって生成されたクリーンな機能は、オブジェクト検出パフォーマンスの改善に貢献する可能性があります。
逆に、オブジェクト検出は、タスク駆動型学習スキームの下で画像脱ヘイジングネットワークの学習プロセスを決定的にガイドします。
ネットワークアーキテクチャと学習の目標の両方を考慮して、下流のタスクが上流の脱線プロセスをどのように導くことができるかに光を当てました。
ガイダンス融合ブロック(GFB)とガイダンスの注意ブロック(GAB)を設計して、検出情報のネットワークへの統合を容易にします。
さらに、検出タスク損失の組み込みは、最適化プロセスの改良に役立ちます。
さらに、物理学ベースのプライアーを統合して特徴の抽出と表現機能を強化する新しい物理学的特徴エンハンスメントブロック(PFEB)を導入します。
合成および実世界のデータセットに関する広範な実験は、画質と検出精度の両方に関する最先端の方法よりも、私たちの方法の優位性を示しています。
ソースコードは、https://github.com/fanyihua0309/friendnetで入手できます。

要約(オリジナル)

Adverse weather conditions often impair the quality of captured images, inevitably inducing cutting-edge object detection models for advanced driver assistance systems (ADAS) and autonomous driving. In this paper, we raise an intriguing question: can the combination of image restoration and object detection enhance detection performance in adverse weather conditions? To answer it, we propose an effective architecture that bridges image dehazing and object detection together via guidance information and task-driven learning to achieve detection-friendly dehazing, termed FriendNet. FriendNet aims to deliver both high-quality perception and high detection capacity. Different from existing efforts that intuitively treat image dehazing as pre-processing, FriendNet establishes a positive correlation between these two tasks. Clean features generated by the dehazing network potentially contribute to improvements in object detection performance. Conversely, object detection crucially guides the learning process of the image dehazing network under the task-driven learning scheme. We shed light on how downstream tasks can guide upstream dehazing processes, considering both network architecture and learning objectives. We design Guidance Fusion Block (GFB) and Guidance Attention Block (GAB) to facilitate the integration of detection information into the network. Furthermore, the incorporation of the detection task loss aids in refining the optimization process. Additionally, we introduce a new Physics-aware Feature Enhancement Block (PFEB), which integrates physics-based priors to enhance the feature extraction and representation capabilities. Extensive experiments on synthetic and real-world datasets demonstrate the superiority of our method over state-of-the-art methods on both image quality and detection precision. Our source code is available at https://github.com/fanyihua0309/FriendNet.

arxiv情報

著者 Yihua Fan,Yongzhen Wang,Mingqiang Wei,Fu Lee Wang,Haoran Xie
発行日 2025-04-02 12:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FriendNet: Detection-Friendly Dehazing Network はコメントを受け付けていません