Banana Ripeness Level Classification using a Simple CNN Model Trained with Real and Synthetic Datasets

要約

熟度のレベルは、バナナの品質を決定するのに不可欠です。
バナナの成熟度を正しく推定するには、国際的なマーケティング基準の指標を考慮する必要があります。
ただし、産業レベルでのバナナの成熟度を評価するプロセスは、手動の方法を使用して実行されます。
CNNモデルの使用は、問題を解決するための魅力的なツールですが、これらのモデルを確実にトレーニングするのに十分なデータの可用性に関する制限があります。
一方、最先端の既存のCNNモデルと利用可能なデータは、バナナの成熟度を特定する際に精度の結果が許容できることを報告しています。
このため、この作業は、さまざまなレベルのバナナの熟度の実際のデータと合成データを組み合わせた堅牢なデータセットの生成を示しています。
さらに、合成データで訓練された単純なCNNアーキテクチャを提案し、転送学習手法を使用して、モデルが改善され、実際のデータを分類し、バナナの成熟度を決定することができます。
提案されたCNNモデルはいくつかのアーキテクチャで評価され、その後、ハイパーパラメーター構成がさまざまであり、オプティマイザーが使用されます。
結果は、提案されているCNNモデルが0.917の高精度と速い実行時間に達することを示しています。

要約(オリジナル)

The level of ripeness is essential in determining the quality of bananas. To correctly estimate banana maturity, the metrics of international marketing standards need to be considered. However, the process of assessing the maturity of bananas at an industrial level is still carried out using manual methods. The use of CNN models is an attractive tool to solve the problem, but there is a limitation regarding the availability of sufficient data to train these models reliably. On the other hand, in the state-of-the-art, existing CNN models and the available data have reported that the accuracy results are acceptable in identifying banana maturity. For this reason, this work presents the generation of a robust dataset that combines real and synthetic data for different levels of banana ripeness. In addition, it proposes a simple CNN architecture, which is trained with synthetic data and using the transfer learning technique, the model is improved to classify real data, managing to determine the level of maturity of the banana. The proposed CNN model is evaluated with several architectures, then hyper-parameter configurations are varied, and optimizers are used. The results show that the proposed CNN model reaches a high accuracy of 0.917 and a fast execution time.

arxiv情報

著者 Luis Chuquimarca,Boris Vintimilla,Sergio Velastin
発行日 2025-04-11 14:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 68T07, 68T10, cs.CV, I.2.10 | Banana Ripeness Level Classification using a Simple CNN Model Trained with Real and Synthetic Datasets はコメントを受け付けていません

Federated Class-Incremental Learning with Prompting

要約

Webテクノロジーが発展し続けるにつれて、さまざまなクライアントに保存されているデータを使用することがますます一般的になっています。
同時に、フェデレーションラーニングは、さまざまなクライアントに分散されているデータからモデルを学習させたときにデータプライバシーを保護する能力により、広範囲にわたる注目を集めています。
ただし、ほとんどの既存の作業は、クライアントのデータが修正されていると想定しています。
実際のシナリオでは、データが継続的に生成され、新しいクラスも表示される可能性があるため、このような仮定は真実ではない可能性が最も高くなります。
この目的のために、私たちは実用的で挑戦的な連合された階級学習(FCIL)の問題に焦点を当てています。
FCILの場合、ローカルおよびグローバルモデルは、新しいクラスの到着とクライアントのデータ分布によって引き起こされる古いクラスの壊滅的な忘却に苦しむ可能性があります。
この論文では、プロンプト(FCILPT)を使用したFederated Class-Incremental Learningと呼ばれる新しい方法を提案します。
プライバシーと限られたメモリを考えると、FCILPTはリハーサルベースのバッファーを使用して古いデータの模範を保持しません。
私たちは、古いクラスの壊滅的な忘却を容易にするために、プロンプトを使用することを選択します。
具体的には、タスクに関連したタスクに関係のない知識をプロンプトにエンコードし、地元のクライアントの古い知識と新しい知識を維持し、壊滅的な忘却の問題を解決します。
最初に、地元のクライアントのプロンプトプールのタスク情報を並べ替えて、グローバル集約の前に異なるクライアントのタスク情報を調整します。
同じタスクの知識が完全に統合されていることを保証し、同じ増分タスクで異なるクライアント間のクラスの不足によって引き起こされる非IIDの問題を解決します。
CIFAR-100、Mini-Imagenet、およびTiny-Imagenetの実験は、FCILPTが最新の方法よりも大幅な精度の向上を達成することを示しています。

要約(オリジナル)

As Web technology continues to develop, it has become increasingly common to use data stored on different clients. At the same time, federated learning has received widespread attention due to its ability to protect data privacy when let models learn from data which is distributed across various clients. However, most existing works assume that the client’s data are fixed. In real-world scenarios, such an assumption is most likely not true as data may be continuously generated and new classes may also appear. To this end, we focus on the practical and challenging federated class-incremental learning (FCIL) problem. For FCIL, the local and global models may suffer from catastrophic forgetting on old classes caused by the arrival of new classes and the data distributions of clients are non-independent and identically distributed (non-iid). In this paper, we propose a novel method called Federated Class-Incremental Learning with PrompTing (FCILPT). Given the privacy and limited memory, FCILPT does not use a rehearsal-based buffer to keep exemplars of old data. We choose to use prompts to ease the catastrophic forgetting of the old classes. Specifically, we encode the task-relevant and task-irrelevant knowledge into prompts, preserving the old and new knowledge of the local clients and solving the problem of catastrophic forgetting. We first sort the task information in the prompt pool in the local clients to align the task information on different clients before global aggregation. It ensures that the same task’s knowledge are fully integrated, solving the problem of non-iid caused by the lack of classes among different clients in the same incremental task. Experiments on CIFAR-100, Mini-ImageNet, and Tiny-ImageNet demonstrate that FCILPT achieves significant accuracy improvements over the state-of-the-art methods.

arxiv情報

著者 Xin Luo,Fang-Yi Liang,Jiale Liu,Yu-Wei Zhan,Zhen-Duo Chen,Xin-Shun Xu
発行日 2025-04-11 14:25:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Federated Class-Incremental Learning with Prompting はコメントを受け付けていません

Knowledge Distillation for Multimodal Egocentric Action Recognition Robust to Missing Modalities

要約

アクション認識は、多くの分野にわたる幅広いアプリケーションのため、エゴセントリックビジョンにおいて重要なタスクです。
このタスクに対処するために深い学習方法が提案されていますが、ほとんどは単一のモダリティ、通常はビデオに依存しています。
ただし、追加のモダリティを含めることで、ぼかしや閉塞などのエゴセントリックビデオの一般的な問題へのアプローチの堅牢性を改善する場合があります。
マルチモーダルエゴセントリックアクション認識における最近の取り組みは、多くの場合、すべてのモダリティの可用性を想定しており、モダリティが欠落している場合に障害またはパフォーマンスが低下します。
これに対処するために、複数のモダリティが利用可能になったときに恩恵を受けながら、モダリティ(karmma)を欠いていることに堅牢なエゴセントリックアクション認識のための効率的なマルチモーダルナレッジ蒸留アプローチを紹介します。
私たちの方法は、教師モデルの単峰性特徴抽出器として事前に訓練されたモデルを活用することにより、リソース効率の高い開発に焦点を当てており、知識をはるかに小さく高速な学生モデルに蒸留します。
壮大なキッチンと何か検討データセットの実験は、学生モデルがこのシナリオでの精度低下を減らしながら、不足しているモダリティを効果的に処理することを示しています。

要約(オリジナル)

Action recognition is an essential task in egocentric vision due to its wide range of applications across many fields. While deep learning methods have been proposed to address this task, most rely on a single modality, typically video. However, including additional modalities may improve the robustness of the approaches to common issues in egocentric videos, such as blurriness and occlusions. Recent efforts in multimodal egocentric action recognition often assume the availability of all modalities, leading to failures or performance drops when any modality is missing. To address this, we introduce an efficient multimodal knowledge distillation approach for egocentric action recognition that is robust to missing modalities (KARMMA) while still benefiting when multiple modalities are available. Our method focuses on resource-efficient development by leveraging pre-trained models as unimodal feature extractors in our teacher model, which distills knowledge into a much smaller and faster student model. Experiments on the Epic-Kitchens and Something-Something datasets demonstrate that our student model effectively handles missing modalities while reducing its accuracy drop in this scenario.

arxiv情報

著者 Maria Santos-Villafranca,Dustin Carrión-Ojeda,Alejandro Perez-Yus,Jesus Bermudez-Cameo,Jose J. Guerrero,Simone Schaub-Meyer
発行日 2025-04-11 14:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Knowledge Distillation for Multimodal Egocentric Action Recognition Robust to Missing Modalities はコメントを受け付けていません

FMLGS: Fast Multilevel Language Embedded Gaussians for Part-level Interactive Agents

要約

意味的にインタラクティブなラディアンスフィールドは、シーンの理解と操作を達成するために具体化されたAIなど、3D実世界のアプリケーションにとって長い間有望なバックボーンでした。
ただし、オブジェクトコンポーネントのクエリに関しては、言語のあいまいさと品質の低下のため、多粒度相互作用は依然として困難なタスクです。
この作業では、3Dガウススプラッティング(3DG)内の部分レベルのオープンボキャブラリークエリをサポートするアプローチであるFMLGSを提示します。
セグメントのすべてのモデル2(SAM2)に基づいて、一貫したオブジェクトおよび部分レベルのセマンティクスを構築およびクエリするための効率的なパイプラインを提案します。
オブジェクトパーツ間の言語のあいまいさの問題を解決するための意味偏差戦略を設計しました。これは、濃縮された情報のための微調整されたターゲットの意味的な特徴を補間します。
トレーニングを受けたら、自然言語を使用してオブジェクトとその説明可能な部分の両方を照会できます。
他の最先端の方法との比較は、私たちの方法が指定されたパートレベルのターゲットをより適切に見つけることができるだけでなく、速度と精度の両方に関する1位のパフォーマンスを達成できることを証明しています。
一方、FMLGSをさらに、3Dシーンをインタラクティブにナビゲートし、ターゲットを見つけ、チャットインターフェイスを介してユーザーの要求に応答できる仮想エージェントとして統合します。

要約(オリジナル)

The semantically interactive radiance field has long been a promising backbone for 3D real-world applications, such as embodied AI to achieve scene understanding and manipulation. However, multi-granularity interaction remains a challenging task due to the ambiguity of language and degraded quality when it comes to queries upon object components. In this work, we present FMLGS, an approach that supports part-level open-vocabulary query within 3D Gaussian Splatting (3DGS). We propose an efficient pipeline for building and querying consistent object- and part-level semantics based on Segment Anything Model 2 (SAM2). We designed a semantic deviation strategy to solve the problem of language ambiguity among object parts, which interpolates the semantic features of fine-grained targets for enriched information. Once trained, we can query both objects and their describable parts using natural language. Comparisons with other state-of-the-art methods prove that our method can not only better locate specified part-level targets, but also achieve first-place performance concerning both speed and accuracy, where FMLGS is 98 x faster than LERF, 4 x faster than LangSplat and 2.5 x faster than LEGaussians. Meanwhile, we further integrate FMLGS as a virtual agent that can interactively navigate through 3D scenes, locate targets, and respond to user demands through a chat interface, which demonstrates the potential of our work to be further expanded and applied in the future.

arxiv情報

著者 Xin Tan,Yuzhou Ji,He Zhu,Yuan Xie
発行日 2025-04-11 14:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FMLGS: Fast Multilevel Language Embedded Gaussians for Part-level Interactive Agents はコメントを受け付けていません

Boosting multi-demographic federated learning for chest x-ray analysis using general-purpose self-supervised representations

要約

医療画像分析のための信頼できる人工知能(AI)モデルは、多くの場合、大きくて多様なラベルの付いたデータセットに依存します。
Federated Learning(FL)は、トレーニングに対する分散化されたプライバシーを提供するアプローチを提供しますが、より多くの代表的なデータを持つ機関がパフォーマンスを劣化させる可能性のある、非常に独立していない、同一に分配された(非IID)設定での闘争があります。
さらに、既存の大規模なFLの研究は、成人データセットに限定されており、小児データによってもたらされる固有の課題を無視しており、追加の非IID変動性をもたらします。
これらの制限に対処するために、複数の国の多様な機関からのn = 398,523の成人胸部レントゲン写真とn = 9,125の小児画像を分析し、肺炎の自己監視画像表現からの転送学習を活用して、肺炎と異常のない症例を分類しました。
最先端のビジョン変圧器を使用して、FLは、より小さな成人データセット(p <0.001)でのみパフォーマンスを改善しましたが、より大きなデータセット(p <0.064)および小児の場合(p = 0.242)のパフォーマンスを低下させることがわかりました。 ただし、FLに自己監視の重みを装備すると、最大のデータセット(P = 0.052)を除き、小児の症例(P = 0.031)およびほとんどの成人データセット(P <0.008)全体の結果を大幅に向上させました。 これらの発見は、臨床FLアプリケーションにおける非IID課題に対処し、患者の転帰を高め、データの希少性と変動性が持続的な障害のままである小児医療を進めるという彼らの約束を強調するために、容易に展開できる汎用の自己監視画像表現の可能性を強調しています。

要約(オリジナル)

Reliable artificial intelligence (AI) models for medical image analysis often depend on large and diverse labeled datasets. Federated learning (FL) offers a decentralized and privacy-preserving approach to training but struggles in highly non-independent and identically distributed (non-IID) settings, where institutions with more representative data may experience degraded performance. Moreover, existing large-scale FL studies have been limited to adult datasets, neglecting the unique challenges posed by pediatric data, which introduces additional non-IID variability. To address these limitations, we analyzed n=398,523 adult chest radiographs from diverse institutions across multiple countries and n=9,125 pediatric images, leveraging transfer learning from general-purpose self-supervised image representations to classify pneumonia and cases with no abnormality. Using state-of-the-art vision transformers, we found that FL improved performance only for smaller adult datasets (P<0.001) but degraded performance for larger datasets (P<0.064) and pediatric cases (P=0.242). However, equipping FL with self-supervised weights significantly enhanced outcomes across pediatric cases (P=0.031) and most adult datasets (P<0.008), except the largest dataset (P=0.052). These findings underscore the potential of easily deployable general-purpose self-supervised image representations to address non-IID challenges in clinical FL applications and highlight their promise for enhancing patient outcomes and advancing pediatric healthcare, where data scarcity and variability remain persistent obstacles.

arxiv情報

著者 Mahshad Lotfinia,Arash Tayebiarasteh,Samaneh Samiei,Mehdi Joodaki,Soroosh Tayebi Arasteh
発行日 2025-04-11 14:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Boosting multi-demographic federated learning for chest x-ray analysis using general-purpose self-supervised representations はコメントを受け付けていません

Hardware, Algorithms, and Applications of the Neuromorphic Vision Sensor: a Review

要約

神経型、またはイベント、カメラは、視覚センシングエンコードへの古典的なアプローチの変換を表します。
標準のカメラと比較した斬新さは、固定時間間隔での全絵のフレームをキャプチャすることから、その特徴的な品質を備えて、さまざまなアプリケーションの潜在的な改善を提供するスパースデータ形式への移行にあります。
ただし、これらの利点は、アルゴリズム手順を再発明したり、新しいデータ形式を効果的に処理するように適応するための犠牲を払ってもたらされます。
この調査では、3つの主要な次元に沿って神経形態の視力を体系的に調べます。
まず、開始から最近のモデルまでの神経モルフィカメラの技術的進化と特徴的なハードウェア機能を強調します。
第二に、イベントベースのデータに対して明示的に開発された画像処理アルゴリズムをレビューし、機能の検出、追跡、光の流れに関する重要な作業をカバーします。これは、より複雑なシーン構造とコンポーネントを解釈する、深さとポーズの推定またはオブジェクト認識として、画像要素と変換を分析するための基礎を形成します。
古典的なコンピュータービジョンと最新のデータ駆動型アプローチから描かれたこれらの手法は、イベントベースのカメラのアプリケーションの幅を示すために調べられます。
第三に、さまざまな業界やシナリオでイベントカメラがどのように使用されているかを示す実用的なアプリケーションのケーススタディを提示します。
最後に、広範な採用を制限する課題を分析し、標準的なイメージング技術と比較して重要な研究ギャップを特定し、神経変動ビジョンが提供する将来の方向性と機会の有望な概要を説明します。

要約(オリジナル)

Neuromorphic, or event, cameras represent a transformation in the classical approach to visual sensing encodes detected instantaneous per-pixel illumination changes into an asynchronous stream of event packets. Their novelty compared to standard cameras lies in the transition from capturing full picture frames at fixed time intervals to a sparse data format which, with its distinctive qualities, offers potential improvements in various applications. However, these advantages come at the cost of reinventing algorithmic procedures or adapting them to effectively process the new data format. In this survey, we systematically examine neuromorphic vision along three main dimensions. First, we highlight the technological evolution and distinctive hardware features of neuromorphic cameras from their inception to recent models. Second, we review image processing algorithms developed explicitly for event-based data, covering key works on feature detection, tracking, and optical flow -which form the basis for analyzing image elements and transformations -as well as depth and pose estimation or object recognition, which interpret more complex scene structures and components. These techniques, drawn from classical computer vision and modern data-driven approaches, are examined to illustrate the breadth of applications for event-based cameras. Third, we present practical application case studies demonstrating how event cameras have been successfully used across various industries and scenarios. Finally, we analyze the challenges limiting widespread adoption, identify significant research gaps compared to standard imaging techniques, and outline promising future directions and opportunities that neuromorphic vision offers.

arxiv情報

著者 Claudio Cimarelli,Jose Andres Millan-Romera,Holger Voos,Jose Luis Sanchez-Lopez
発行日 2025-04-11 14:46:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hardware, Algorithms, and Applications of the Neuromorphic Vision Sensor: a Review はコメントを受け付けていません

ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

要約

生成モデルの最近の進歩により、特に意味的な詳細とローカルフィデリティの顕著な回復を提供する強力な拡散モデルを通じて、画像修復能力が大幅に改善されました。
ただし、これらのモデルを超高解像度に展開することは、長距離の注意メカニズムの計算要求により、品質と効率の間の重要なトレードオフに直面しています。
これに対処するために、高解像度の画像回復のための効率、スケーラビリティ、および長距離モデリングを強化する新しいフレームワークであるZipirを紹介します。
Zipirは、画像32xを圧縮する高度に圧縮された潜在表現を採用し、空間トークンの数を効果的に減らし、拡散トランス(DIT)などの大容量モデルの使用を可能にします。
この目標に向けて、拡散トレーニングを容易にするために潜在スペースをサブバンドに構造化する潜在的なピラミッドvae(LP-vae)設計を提案します。
最大2kの解像度までの完全な画像でトレーニングされたZipirは、既存の拡散ベースの方法を上回り、ひどく劣化した入力から高解像度の画像を復元する際に比類のない速度と品質を提供します。

要約(オリジナル)

Recent progress in generative models has significantly improved image restoration capabilities, particularly through powerful diffusion models that offer remarkable recovery of semantic details and local fidelity. However, deploying these models at ultra-high resolutions faces a critical trade-off between quality and efficiency due to the computational demands of long-range attention mechanisms. To address this, we introduce ZipIR, a novel framework that enhances efficiency, scalability, and long-range modeling for high-res image restoration. ZipIR employs a highly compressed latent representation that compresses image 32x, effectively reducing the number of spatial tokens, and enabling the use of high-capacity models like the Diffusion Transformer (DiT). Toward this goal, we propose a Latent Pyramid VAE (LP-VAE) design that structures the latent space into sub-bands to ease diffusion training. Trained on full images up to 2K resolution, ZipIR surpasses existing diffusion-based methods, offering unmatched speed and quality in restoring high-resolution images from severely degraded inputs.

arxiv情報

著者 Yongsheng Yu,Haitian Zheng,Zhifei Zhang,Jianming Zhang,Yuqian Zhou,Connelly Barnes,Yuchen Liu,Wei Xiong,Zhe Lin,Jiebo Luo
発行日 2025-04-11 14:49:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration はコメントを受け付けていません

D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition

要約

視覚タスクの拡散モデルのアプリケーションは非常に注目に値します。
このホワイトペーパーでは、凍結拡散モデルを利用するパイプラインを提案することにより、オブジェクト認識のタスクのために、分類モデルをオクルージョンに対してより堅牢にすることを目標としています。
拡散機能は、画像のコンテキストを理解しながら、画像の生成と画像の完成に成功を示しています。
閉塞は、オクルーダーのピクセルを「欠落」とみなすことにより、画像完了の問題として提起することができます。
このような機能は、オクールドオブジェクトの背後にあるオブジェクトの視覚機能を幻覚にするのに役立つと仮定しているため、モデルがより閉塞堅牢になるようにそれらを使用することを提案します。
入力ベースの増強と特徴ベースの増強を含めるように実験を設計します。
入力ベースの増強には、Occluderピクセルが塗装されている画像の微調整が含まれ、特徴ベースの増強には、中間拡散機能を備えた分類機能の増強が含まれます。
提案された拡散ベースの特徴を使用すると、シミュレートされたオクルージョンを備えたImagenet上のトランスとコンベネットの両方の部分的なオブジェクト閉塞により堅牢なモデルが得られることを実証します。
また、実際の閉塞を包含するデータセットを提案し、私たちの方法が部分的なオブジェクトの閉塞により堅牢であることを実証します。

要約(オリジナル)

Applications of diffusion models for visual tasks have been quite noteworthy. This paper targets making classification models more robust to occlusions for the task of object recognition by proposing a pipeline that utilizes a frozen diffusion model. Diffusion features have demonstrated success in image generation and image completion while understanding image context. Occlusion can be posed as an image completion problem by deeming the pixels of the occluder to be `missing.’ We hypothesize that such features can help hallucinate object visual features behind occluding objects, and hence we propose using them to enable models to become more occlusion robust. We design experiments to include input-based augmentations as well as feature-based augmentations. Input-based augmentations involve finetuning on images where the occluder pixels are inpainted, and feature-based augmentations involve augmenting classification features with intermediate diffusion features. We demonstrate that our proposed use of diffusion-based features results in models that are more robust to partial object occlusions for both Transformers and ConvNets on ImageNet with simulated occlusions. We also propose a dataset that encompasses real-world occlusions and demonstrate that our method is more robust to partial object occlusions.

arxiv情報

著者 Rupayan Mallick,Sibo Dong,Nataniel Ruiz,Sarah Adel Bargal
発行日 2025-04-11 14:50:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition はコメントを受け付けていません

Hands-On: Segmenting Individual Signs from Continuous Sequences

要約

この作業は、手話の翻訳とデータ注釈に大きな影響を与える重要なタスクである、継続的な手話セグメンテーションの課題に取り組んでいます。
SigningおよびFramesセグメンテーションの時間的ダイナミクスをモデル化し、Begin-In-Out(Bio)タグ付けスキームを使用したシーケンスラベル付けの問題としてモデル化するトランスベースのアーキテクチャを提案します。
私たちの方法は、Hamer Handの特徴を活用し、3D角度で補完されます。
広範な実験では、モデルがDGSコーパスで最先端の結果を達成し、BSLCorpusの以前のベンチマークを上回る機能を示しています。

要約(オリジナル)

This work tackles the challenge of continuous sign language segmentation, a key task with huge implications for sign language translation and data annotation. We propose a transformer-based architecture that models the temporal dynamics of signing and frames segmentation as a sequence labeling problem using the Begin-In-Out (BIO) tagging scheme. Our method leverages the HaMeR hand features, and is complemented with 3D Angles. Extensive experiments show that our model achieves state-of-the-art results on the DGS Corpus, while our features surpass prior benchmarks on BSLCorpus.

arxiv情報

著者 Low Jian He,Harry Walsh,Ozge Mercanoglu Sincan,Richard Bowden
発行日 2025-04-11 14:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Hands-On: Segmenting Individual Signs from Continuous Sequences はコメントを受け付けていません

On Background Bias of Post-Hoc Concept Embeddings in Computer Vision DNNs

要約

概念ベースの説明可能な人工知能(C-XAI)の繁栄する研究分野は、深いニューラルネットワーク(DNNS)の潜在空間に人間が解釈できる意味概念がどのように埋め込まれているかを調査しています。
その中の事後アプローチは、一連の例を使用して概念を指定し、データ駆動型の手法を使用してDNN潜在空間にその埋め込みを決定します。
これは、異なるターゲット(前景または概念)クラス間のバイアスを明らかにするのに役立つことが証明されました。
しかし、トレーニング中に背景がほとんど制御されていないことを考えると、これまでのところ重要な疑問が放置されてきました。/最先端のデータ駆動型の事後C-XAIは、背景に関して偏りがちな状態に近づいていますか?
たとえば、野生動物はほとんど植生の背景に対して発生し、道路にはめったに現れません。
シンプルで堅牢なC-XAIメソッドでさえ、このショートカットを悪用してパフォーマンスを向上させる可能性があります。
したがって、道路上の動物の概念コーナー症例の危険なパフォーマンス低下は、発見されていないままである可​​能性があります。
この作業は、確立されたNet2VECベースの概念セグメンテーション技術が、ロードシーンの不十分なパフォーマンスなど、驚くべきバイアスを含むバックグラウンドバイアスを頻繁にキャプチャすることを検証し、徹底的に確認します。
分析では、2つのデータセットから50を超える概念と7つの多様なDNNアーキテクチャのバックグラウンドランダム化のドメインから3つの確立された手法を比較します。
私たちの結果は、低コストのセットアップでさえ、貴重な洞察と背景の堅牢性の改善の両方を提供できることを示しています。

要約(オリジナル)

The thriving research field of concept-based explainable artificial intelligence (C-XAI) investigates how human-interpretable semantic concepts embed in the latent spaces of deep neural networks (DNNs). Post-hoc approaches therein use a set of examples to specify a concept, and determine its embeddings in DNN latent space using data driven techniques. This proved useful to uncover biases between different target (foreground or concept) classes. However, given that the background is mostly uncontrolled during training, an important question has been left unattended so far: Are/to what extent are state-of-the-art, data-driven post-hoc C-XAI approaches themselves prone to biases with respect to their backgrounds? E.g., wild animals mostly occur against vegetation backgrounds, and they seldom appear on roads. Even simple and robust C-XAI methods might abuse this shortcut for enhanced performance. A dangerous performance degradation of the concept-corner cases of animals on the road could thus remain undiscovered. This work validates and thoroughly confirms that established Net2Vec-based concept segmentation techniques frequently capture background biases, including alarming ones, such as underperformance on road scenes. For the analysis, we compare 3 established techniques from the domain of background randomization on >50 concepts from 2 datasets, and 7 diverse DNN architectures. Our results indicate that even low-cost setups can provide both valuable insight and improved background robustness.

arxiv情報

著者 Gesina Schwalbe,Georgii Mikriukov,Edgar Heinert,Stavros Gerolymatos,Mert Keser,Alois Knoll,Matthias Rottmann,Annika Mütze
発行日 2025-04-11 15:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | On Background Bias of Post-Hoc Concept Embeddings in Computer Vision DNNs はコメントを受け付けていません