Examining the Source of Defects from a Mechanical Perspective for 3D Anomaly Detection

要約

この論文では、構造特性に基づいて異常を特定するだけでなく、3D異常検出(AD)に対する新しいアプローチを探ります。
私たちの主な視点は、ほとんどの異常が、内部および外部の両方のソースに由来する予測不可能な欠陥のある力から生じるということです。
これらの異常に対処するために、私たちはそれらを修正するのに役立つ反対の力を探します。
したがって、各ポイントの内部および外部の是正力を生成する3D-ADタスク(MC4AD)のメカニック補完モデルベースのフレームワークを紹介します。
最初に、さまざまな種類の異常をシミュレートするように設計された多様な異常生成(DA-Gen)モジュールを提案します。
次に、矯正力予測ネットワーク(CFP-NET)を提示します。これは、ポイントレベル分析に相補的な表現を使用して、内部および外部の是正力からのさまざまな貢献をシミュレートします。
修正力が効果的に制約されるようにするために、新しい対称損失と全体的な損失を含む複合損失関数を開発しました。
特に、3方向の決定プロセスに基づいて階層品質制御(HQC)戦略を実装し、モデルを評価するためにクラス内の差異を組み込んだAnomaly-intravarianceというタイトルのデータセットに貢献します。
その結果、提案されたMC4ADは、理論と実験を通じて効果的であることが証明されています。
実験結果は、私たちのアプローチが9つの最先端のパフォーマンスをもたらし、提案された異常intravarianceデータセットに加えて、最小限のパラメーターと5つの既存のデータセットにわたって最速の推論速度で最適な結果を達成することを示しています。
ソースはhttps://github.com/hzzzzzhappy/mc4adで入手できます

要約(オリジナル)

In this paper, we explore a novel approach to 3D anomaly detection (AD) that goes beyond merely identifying anomalies based on structural characteristics. Our primary perspective is that most anomalies arise from unpredictable defective forces originating from both internal and external sources. To address these anomalies, we seek out opposing forces that can help correct them. Therefore, we introduce the Mechanics Complementary Model-based Framework for the 3D-AD task (MC4AD), which generates internal and external corrective forces for each point. We first propose a Diverse Anomaly-Generation (DA-Gen) module designed to simulate various types of anomalies. Next, we present the Corrective Force Prediction Network (CFP-Net), which uses complementary representations for point-level analysis to simulate the different contributions from internal and external corrective forces. To ensure the corrective forces are constrained effectively, we have developed a combined loss function that includes a new symmetric loss and an overall loss. Notably, we implement a Hierarchical Quality Control (HQC) strategy based on a three-way decision process and contribute a dataset titled Anomaly-IntraVariance, which incorporates intraclass variance to evaluate our model. As a result, the proposed MC4AD has been proven effective through theory and experimentation. The experimental results demonstrate that our approach yields nine state-of-the-art performances, achieving optimal results with minimal parameters and the fastest inference speed across five existing datasets, in addition to the proposed Anomaly-IntraVariance dataset. The source is available at https://github.com/hzzzzzhappy/MC4AD

arxiv情報

著者 Hanzhe Liang,Aoran Wang,Jie Zhou,Xin Jin,Can Gao,Jinbao Wang
発行日 2025-05-15 15:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Examining the Source of Defects from a Mechanical Perspective for 3D Anomaly Detection はコメントを受け付けていません

DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding

要約

このホワイトペーパーでは、これまでの最高のオープンワールドオブジェクト検出パフォーマンスを備えたIdea Researchによって開発された統一されたオブジェクト中心のビジョンモデルであるDino-Xを紹介します。
Dino-Xは、Dino 1.5の接地と同じ変圧器ベースのエンコーダーデコーダーアーキテクチャを使用して、オープンワールドオブジェクトの理解のためのオブジェクトレベルの表現を追求しています。
ロングテールオブジェクトの検出を簡単にするために、Dino-Xは入力オプションを拡張して、テキストプロンプト、視覚的なプロンプト、およびカスタマイズされたプロンプトをサポートします。
このような柔軟なプロンプトオプションを使用して、プロンプトフリーのオープンワールド検出をサポートするユニバーサルオブジェクトプロンプトを開発し、ユーザーにプロンプ​​トを提供することなく画像内のものを検出できるようにします。
モデルのコア接地機能を強化するために、モデルのオープンポンシャル検出性能を進めるために、接地100mと呼ばれる1億を超える高品質の接地サンプルを備えた大規模なデータセットを構築しました。
このような大規模な接地データセットの事前トレーニングは、基本的なオブジェクトレベルの表現につながります。これにより、Dino-Xは複数のオブジェクト知覚ヘッドを統合して、検出、セグメンテーション、ポーズ推定、オブジェクトキャプション、オブジェクトベースのQAなどを含む複数のオブジェクト知覚と理解を同時にサポートできます。
具体的には、Dino-X Proモデルは、それぞれ56.0 AP、59.8 AP、および52.4 APをCOCO、LVIS-MINIVAL、およびLVIS-Valゼロショットオブジェクト検出ベンチマークで達成します。
特に、LVISミニバルとLVIS-Valのベンチマークのまれなクラスで63.3 APおよび56.5 APを獲得し、以前のSOTAパフォーマンスを5.8 APおよび5.0 APで改善します。
このような結果は、ロングテールされたオブジェクトを認識する能力が大幅に改善されたことを強調しています。

要約(オリジナル)

In this paper, we introduce DINO-X, which is a unified object-centric vision model developed by IDEA Research with the best open-world object detection performance to date. DINO-X employs the same Transformer-based encoder-decoder architecture as Grounding DINO 1.5 to pursue an object-level representation for open-world object understanding. To make long-tailed object detection easy, DINO-X extends its input options to support text prompt, visual prompt, and customized prompt. With such flexible prompt options, we develop a universal object prompt to support prompt-free open-world detection, making it possible to detect anything in an image without requiring users to provide any prompt. To enhance the model’s core grounding capability, we have constructed a large-scale dataset with over 100 million high-quality grounding samples, referred to as Grounding-100M, for advancing the model’s open-vocabulary detection performance. Pre-training on such a large-scale grounding dataset leads to a foundational object-level representation, which enables DINO-X to integrate multiple perception heads to simultaneously support multiple object perception and understanding tasks, including detection, segmentation, pose estimation, object captioning, object-based QA, etc. Experimental results demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and LVIS-val zero-shot object detection benchmarks, respectively. Notably, it scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val benchmarks, improving the previous SOTA performance by 5.8 AP and 5.0 AP. Such a result underscores its significantly improved capacity for recognizing long-tailed objects.

arxiv情報

著者 Tianhe Ren,Yihao Chen,Qing Jiang,Zhaoyang Zeng,Yuda Xiong,Wenlong Liu,Zhengyu Ma,Junyi Shen,Yuan Gao,Xiaoke Jiang,Xingyu Chen,Zhuheng Song,Yuhong Zhang,Hongjie Huang,Han Gao,Shilong Liu,Hao Zhang,Feng Li,Kent Yu,Lei Zhang
発行日 2025-05-15 15:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding はコメントを受け付けていません

PIF: Anomaly detection via preference embedding

要約

構造化されたパターンに関する異常を検出する問題に対処します。
この目的のために、適応的分離方法の利点を優先埋め込みの柔軟性と組み合わせたPIFと呼ばれる新しい異常検出方法を考えます。
具体的には、効率的な樹木ベースの方法であるPi-forestが異常スコアを計算するために採用されている高次元空間にデータを埋め込むことを提案します。
合成および実際のデータセットでの実験は、PIFが最先端の異常検出技術と好ましく比較され、Pi-Forestが優先空間の任意の距離と分離点の測定に優れていることを確認することを示しています。

要約(オリジナル)

We address the problem of detecting anomalies with respect to structured patterns. To this end, we conceive a novel anomaly detection method called PIF, that combines the advantages of adaptive isolation methods with the flexibility of preference embedding. Specifically, we propose to embed the data in a high dimensional space where an efficient tree-based method, PI-Forest, is employed to compute an anomaly score. Experiments on synthetic and real datasets demonstrate that PIF favorably compares with state-of-the-art anomaly detection techniques, and confirm that PI-Forest is better at measuring arbitrary distances and isolate points in the preference space.

arxiv情報

著者 Filippo Leveni,Luca Magri,Giacomo Boracchi,Cesare Alippi
発行日 2025-05-15 16:00:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | PIF: Anomaly detection via preference embedding はコメントを受け付けていません

Vision language models have difficulty recognizing virtual objects

要約

Vision Language Models(VLMS)は、Multimodal入力を処理するために言語エンコーダーとビジョンエンコーダーの両方とペアになったAIシステムです。
自動キャプションなどの複雑なセマンティックタスクを実行することができますが、処理する画像に描かれたシーンの視覚空間特性をどれだけ理解しているかについての未解決の疑問のままです。
画像で視覚的に表現されていないオブジェクト – がこれらのAIシステムでシーンの理解をテストするのに役立つ可能性があると主張します。
たとえば、木の下に立っている人を描いた画像は、次のプロンプトと組み合わせることができます。カイトが木に詰まっていると想像してください。
シーンを理解するVLMは、3つのオブジェクトすべて間の空間的関係について、表現と理性を賢明に更新する必要があります。
最先端のVLMの体系的な評価について説明し、仮想オブジェクトを処理する能力が不十分であることを示します。

要約(オリジナル)

Vision language models (VLMs) are AI systems paired with both language and vision encoders to process multimodal input. They are capable of performing complex semantic tasks such as automatic captioning, but it remains an open question about how well they comprehend the visuospatial properties of scenes depicted in the images they process. We argue that descriptions of virtual objects — objects that are not visually represented in an image — can help test scene comprehension in these AI systems. For example, an image that depicts a person standing under a tree can be paired with the following prompt: imagine that a kite is stuck in the tree. VLMs that comprehend the scene should update their representations and reason sensibly about the spatial relations between all three objects. We describe systematic evaluations of state-of-the-art VLMs and show that their ability to process virtual objects is inadequate.

arxiv情報

著者 Tyler Tran,Sangeet Khemlani,J. G. Trafton
発行日 2025-05-15 16:11:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Vision language models have difficulty recognizing virtual objects はコメントを受け付けていません

SEAL: Searching Expandable Architectures for Incremental Learning

要約

インクリメンタル学習は、モデルがタスクの連続ストリームから学習する機械学習パラダイムです。
この設定は、可塑性(新しいタスクの学習)と安定性(過去の知識の保存)のバランスをとる重要な課題をもたらします。
AutomlのブランチであるNeural Architecture Search(NAS)は、深いニューラルネットワークのアーキテクチャの設計を自動化し、静的設定で成功を示しています。
ただし、インクリメンタル学習への既存のNASベースのアプローチは、多くの場合、すべてのタスクでモデルを拡大することに依存しており、リソースに制約のある環境では実用的ではありません。
この作業では、データインクリメンタル学習に合わせたNASベースのフレームワークであるSEALを紹介します。これは、分離データサンプルが順番に到着し、将来のアクセスのために保存されないシナリオです。
シールは、容量推定メトリックに基づいて、必要な場合にのみ拡張することにより、モデル構造を動的に適応させます。
安定性は、各拡張ステップの後に間隔を空けたトレーニングを通じて保存されます。
NASコンポーネントは、アーキテクチャと最適な拡張ポリシーの両方を共同で検索します。
複数のベンチマークにわたる実験は、シールが忘却を効果的に減らし、以前の方法と比較してより低いモデルサイズを維持しながら精度を向上させることを示しています。
これらの結果は、NASと選択的拡張を組み合わせて、漸進的なシナリオで効率的で適応性のある学習のための選択的拡張の約束を強調しています。

要約(オリジナル)

Incremental learning is a machine learning paradigm where a model learns from a sequential stream of tasks. This setting poses a key challenge: balancing plasticity (learning new tasks) and stability (preserving past knowledge). Neural Architecture Search (NAS), a branch of AutoML, automates the design of the architecture of Deep Neural Networks and has shown success in static settings. However, existing NAS-based approaches to incremental learning often rely on expanding the model at every task, making them impractical in resource-constrained environments. In this work, we introduce SEAL, a NAS-based framework tailored for data-incremental learning, a scenario where disjoint data samples arrive sequentially and are not stored for future access. SEAL adapts the model structure dynamically by expanding it only when necessary, based on a capacity estimation metric. Stability is preserved through cross-distillation training after each expansion step. The NAS component jointly searches for both the architecture and the optimal expansion policy. Experiments across multiple benchmarks demonstrate that SEAL effectively reduces forgetting and enhances accuracy while maintaining a lower model size compared to prior methods. These results highlight the promise of combining NAS and selective expansion for efficient, adaptive learning in incremental scenarios.

arxiv情報

著者 Matteo Gambella,Vicente Javier Castro Solar,Manuel Roveri
発行日 2025-05-15 16:14:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, cs.LG | SEAL: Searching Expandable Architectures for Incremental Learning はコメントを受け付けていません

HWA-UNETR: Hierarchical Window Aggregate UNETR for 3D Multimodal Gastric Lesion Segmentation

要約

マルチモーダルの医療画像セグメンテーションは、胃がん病変分析の文脈において大きな課題に直面しています。
この臨床的コンテキストは、独立したマルチモーダルデータセットの希少性と、本質的に整列されたモダリティを融合するための必須事項によって定義されます。
その結果、アルゴリズムは近似データでトレーニングするように制約され、アプリケーションの移行に依存しているため、リソースの大幅な支出と分析精度の潜在的な低下につながります。
これらの課題に対処するために、2つの主要な貢献をしました。まず、GCM 2025データセットを公開します。これは、専門的に注釈付きFS-T2W、CE-T1W、および500人の患者からのADC画像を特徴とする胃がんマルチモーダルMRIスキャンの最初の大規模でオープンソースコレクションとして機能します。
第二に、異なるモダリティの解剖学的構造間の動的な特徴の対応を確立するために、学習可能なウィンドウ集約層を備えた元のHWAブロックを採用する新しい3DセグメンテーションフレームワークであるHWA-Unetrを紹介し、文脈モデリングと長距離空間依存症のキャプチャのための革新的な三重融合MAMBAメカニズムを活用します。
GCM 2025データセットとPublicly Brats 2021データセットに関する広範な実験は、フレームワークのパフォーマンスを検証し、新しいアプローチが既存のメソッドをDICEスコアで最大1.68 \%だけ超えていることを示しています。
データセットとコードはhttps://github.com/jeming-creater/hwa-unetrを介して公開されています。

要約(オリジナル)

Multimodal medical image segmentation faces significant challenges in the context of gastric cancer lesion analysis. This clinical context is defined by the scarcity of independent multimodal datasets and the imperative to amalgamate inherently misaligned modalities. As a result, algorithms are constrained to train on approximate data and depend on application migration, leading to substantial resource expenditure and a potential decline in analysis accuracy. To address those challenges, we have made two major contributions: First, we publicly disseminate the GCM 2025 dataset, which serves as the first large-scale, open-source collection of gastric cancer multimodal MRI scans, featuring professionally annotated FS-T2W, CE-T1W, and ADC images from 500 patients. Second, we introduce HWA-UNETR, a novel 3D segmentation framework that employs an original HWA block with learnable window aggregation layers to establish dynamic feature correspondences between different modalities’ anatomical structures, and leverages the innovative tri-orientated fusion mamba mechanism for context modeling and capturing long-range spatial dependencies. Extensive experiments on our GCM 2025 dataset and the publicly BraTS 2021 dataset validate the performance of our framework, demonstrating that the new approach surpasses existing methods by up to 1.68\% in the Dice score while maintaining solid robustness. The dataset and code are public via https://github.com/JeMing-creater/HWA-UNETR.

arxiv情報

著者 Jiaming Liang,Lihuan Dai,Xiaoqi Sheng,Xiangguang Chen,Chun Yao,Guihua Tao,Qibin Leng,Honming Cai,Xi Zhong
発行日 2025-05-15 16:18:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | HWA-UNETR: Hierarchical Window Aggregate UNETR for 3D Multimodal Gastric Lesion Segmentation はコメントを受け付けていません

Consistent Quantity-Quality Control across Scenes for Deployment-Aware Gaussian Splatting

要約

ストレージと計算コストを削減するために、3D Gaussian Splutting(3DGS)は、高レンダリング品質を維持しながら使用するガウスの数を最小限に抑え、ガウスの量とレンダリング品質の間に固有のトレードオフを導入しようとしています。
既存の方法は、量の品質のパフォーマンスを向上させるために努力していますが、ユーザーがこのトレードオフを直感的に調整して、多様なハードウェアや通信制約の下でのモデル展開などの実用的なニーズに合わせて直感的に調整する能力がありません。
ここでは、強力な量の質のあるパフォーマンスを維持しながら、意味的に意味のあるクロスセンの一貫した量のコントロールを達成する3DGS最適化方法であるControlgsを提示します。
固定セットアップを使用した単一のトレーニングランと、量の品質の好みを反映するユーザー指定のハイパーパラメーターを使用すると、Controlgsは、コンパクトオブジェクトから大きな屋外シーンまで、多様なシーン全体で望ましい量の品質のトレードオフポイントを自動的に見つけることができます。
また、ガウス系の少ないレンダリング品質を達成することにより、ベースラインを上回り、トレードオフを段階的に制御する幅広い調整範囲をサポートします。

要約(オリジナル)

To reduce storage and computational costs, 3D Gaussian splatting (3DGS) seeks to minimize the number of Gaussians used while preserving high rendering quality, introducing an inherent trade-off between Gaussian quantity and rendering quality. Existing methods strive for better quantity-quality performance, but lack the ability for users to intuitively adjust this trade-off to suit practical needs such as model deployment under diverse hardware and communication constraints. Here, we present ControlGS, a 3DGS optimization method that achieves semantically meaningful and cross-scene consistent quantity-quality control while maintaining strong quantity-quality performance. Through a single training run using a fixed setup and a user-specified hyperparameter reflecting quantity-quality preference, ControlGS can automatically find desirable quantity-quality trade-off points across diverse scenes, from compact objects to large outdoor scenes. It also outperforms baselines by achieving higher rendering quality with fewer Gaussians, and supports a broad adjustment range with stepless control over the trade-off.

arxiv情報

著者 Fengdi Zhang,Hongkun Cao,Ruqi Huang
発行日 2025-05-15 16:23:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Consistent Quantity-Quality Control across Scenes for Deployment-Aware Gaussian Splatting はコメントを受け付けていません

S2-Track: A Simple yet Strong Approach for End-to-End 3D Multi-Object Tracking

要約

3D複数オブジェクト追跡(MOT)は、自律的な駆動知覚において重要な役割を果たします。
最近のエンドツーエンドのクエリベースのトラッカーは、3D MOTタスクの有望な可能性を示したオブジェクトを同時に検出および追跡します。
ただし、既存の方法はまだ開発の初期段階にあり、系統的な改善が欠けており、オクルージョンやターゲットオブジェクトの状況の小さなサイズなど、特定の複雑なシナリオでオブジェクトを追跡できません。
このペーパーでは、最初に、クエリの初期化、クエリ伝播、クエリマッチングの3つの構成部品に分解することにより、現在のエンドツーエンドの3D MOTフレームワークを要約します。
次に、対応する改善を提案します。これは、強力でありながらシンプルなトラックであるS2-Trackにつながります。
具体的には、クエリの初期化のために、2Dプロンプトのクエリ初期化を提示します。これは、2Dオブジェクトと深さ情報をレバレッジして、オブジェクトの3D位置の初期推定を促します。
クエリの伝播については、不確実な確率的デコーダーを導入して、確率的な注意を払ってオブジェクト予測における複雑な環境の不確実性をキャプチャします。
クエリマッチングについては、トレーニングの堅牢性と収束を強化するための階層クエリ除去戦略を提案します。
その結果、S2-Trackは、Nuscenesベンチマークで最先端のパフォーマンスを達成します。つまり、テスト分割で66.3%AMOTAを達成し、以前のベストエンドツーエンドソリューションを8.9%AMOTAの有意なマージンで上回ります。
タスクリーダーボードを追跡するNuscenesで1位を獲得しました。

要約(オリジナル)

3D multiple object tracking (MOT) plays a crucial role in autonomous driving perception. Recent end-to-end query-based trackers simultaneously detect and track objects, which have shown promising potential for the 3D MOT task. However, existing methods are still in the early stages of development and lack systematic improvements, failing to track objects in certain complex scenarios, like occlusions and the small size of target object’s situations. In this paper, we first summarize the current end-to-end 3D MOT framework by decomposing it into three constituent parts: query initialization, query propagation, and query matching. Then we propose corresponding improvements, which lead to a strong yet simple tracker: S2-Track. Specifically, for query initialization, we present 2D-Prompted Query Initialization, which leverages predicted 2D object and depth information to prompt an initial estimate of the object’s 3D location. For query propagation, we introduce an Uncertainty-aware Probabilistic Decoder to capture the uncertainty of complex environment in object prediction with probabilistic attention. For query matching, we propose a Hierarchical Query Denoising strategy to enhance training robustness and convergence. As a result, our S2-Track achieves state-of-the-art performance on nuScenes benchmark, i.e., 66.3% AMOTA on test split, surpassing the previous best end-to-end solution by a significant margin of 8.9% AMOTA. We achieve 1st place on the nuScenes tracking task leaderboard.

arxiv情報

著者 Tao Tang,Lijun Zhou,Pengkun Hao,Zihang He,Kalok Ho,Shuo Gu,Zhihui Hao,Haiyang Sun,Kun Zhan,Peng Jia,XianPeng Lang,Xiaodan Liang
発行日 2025-05-15 16:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | S2-Track: A Simple yet Strong Approach for End-to-End 3D Multi-Object Tracking はコメントを受け付けていません

Logos as a Well-Tempered Pre-train for Sign Language Recognition

要約

このペーパーでは、孤立した手話認識(ISLR)タスクの2つの側面を検証します。
第一に、多くのデータセットが可用性にもかかわらず、ほとんどの個々の看板のデータの量は限られています。
それは、転送学習を含む言語間ISLRモデルトレーニングの課題を提起します。
第二に、同様の兆候には異なる意味の意味があります。
それはデータセットのラベル付けのあいまいさにつながり、そのような兆候に注釈を付けるための最良のポリシーの問題を提起します。
これらの問題に対処するために、この研究では、署名者の数と利用可能な最大のデータセットの1つによって最も広範なISLRデータセットであるロジアン手話(RSL)データセットであるロゴスを提示し、サイズと語彙の最大のRSLデータセットも提示します。
ロゴセットで事前に訓練されたモデルは、少数のショット学習を含む他の言語SLRタスクのユニバーサルエンコーダーとして使用できることが示されています。
言語間転送学習アプローチを探り、複数の分類ヘッドを使用した共同トレーニングは、ターゲットローリソースデータセットの精度に最も役立つことを発見します。
ロゴデータセットの重要な機能は、視覚的に類似した標識グループが明示的に注釈されています。
視覚的に類似した標識を明示的にラベル付けすることで、ダウンストリームタスクの視覚エンコーダーとして訓練されたモデルの品質が向上することを示します。
提案された貢献に基づいて、WLASLデータセットの現在の最先端の結果を上回り、Autslデータセットの競合結果を取得し、単一のストリームモデルがRGBビデオのみを処理します。
ソースコード、データセット、および事前に訓練されたモデルは公開されています。

要約(オリジナル)

This paper examines two aspects of the isolated sign language recognition (ISLR) task. First, despite the availability of a number of datasets, the amount of data for most individual sign languages is limited. It poses the challenge of cross-language ISLR model training, including transfer learning. Second, similar signs can have different semantic meanings. It leads to ambiguity in dataset labeling and raises the question of the best policy for annotating such signs. To address these issues, this study presents Logos, a novel Russian Sign Language (RSL) dataset, the most extensive ISLR dataset by the number of signers and one of the largest available datasets while also the largest RSL dataset in size and vocabulary. It is shown that a model, pre-trained on the Logos dataset can be used as a universal encoder for other language SLR tasks, including few-shot learning. We explore cross-language transfer learning approaches and find that joint training using multiple classification heads benefits accuracy for the target lowresource datasets the most. The key feature of the Logos dataset is explicitly annotated visually similar sign groups. We show that explicitly labeling visually similar signs improves trained model quality as a visual encoder for downstream tasks. Based on the proposed contributions, we outperform current state-of-the-art results for the WLASL dataset and get competitive results for the AUTSL dataset, with a single stream model processing solely RGB video. The source code, dataset, and pre-trained models are publicly available.

arxiv情報

著者 Ilya Ovodov,Petr Surovtsev,Karina Kvanchiani,Alexander Kapitanov,Alexander Nagaev
発行日 2025-05-15 16:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Logos as a Well-Tempered Pre-train for Sign Language Recognition はコメントを受け付けていません

UniEval: Unified Holistic Evaluation for Unified Multimodal Understanding and Generation

要約

統一されたマルチモーダルの理解と生成モデルの出現は、モデルの冗長性を最小限に抑えながら、指導中の能力を強化する能力のために急速に注目を集めています。
ただし、これらのモデルには統一された評価フレームワークが不足しているため、エレガントで簡素化された全体的な評価が可能になります。
現在のモデルは、複数のタスク固有のベンチマークで評価を実施していますが、全体的な結果の欠如、追加の評価モデルからのエラー、広範なラベル付き画像への依存、多様性を欠くベンチマーク、指導の能力が限られているメトリックなど、大きな制限があります。
これらの課題に取り組むために、追加のモデル、画像、または注釈なしで統一されたマルチモーダルモデル向けに設計された最初の評価フレームワークであるUnievalを紹介します。
これにより、簡素化された統一された評価プロセスが容易になります。
単一型フレームワークには、対応する非営利メトリックとともに、ホリスティックベンチマーク(統一モデルと視覚生成モデルの両方をサポート)が含まれています。
Unibenchには、多様性の高い81個の細粒タグが含まれています。
実験結果は、Unibenchが既存のベンチマークよりも困難であり、非居住者が人間の評価と密接に一致し、現在のメトリックを上回っていることを示しています。
さらに、SOTA統合モデルと視覚的生成モデルを広範囲に評価し、ユニバルのユニークな価値に関する新しい洞察を明らかにしました。

要約(オリジナル)

The emergence of unified multimodal understanding and generation models is rapidly attracting attention because of their ability to enhance instruction-following capabilities while minimizing model redundancy. However, there is a lack of a unified evaluation framework for these models, which would enable an elegant, simplified, and overall evaluation. Current models conduct evaluations on multiple task-specific benchmarks, but there are significant limitations, such as the lack of overall results, errors from extra evaluation models, reliance on extensive labeled images, benchmarks that lack diversity, and metrics with limited capacity for instruction-following evaluation. To tackle these challenges, we introduce UniEval, the first evaluation framework designed for unified multimodal models without extra models, images, or annotations. This facilitates a simplified and unified evaluation process. The UniEval framework contains a holistic benchmark, UniBench (supports both unified and visual generation models), along with the corresponding UniScore metric. UniBench includes 81 fine-grained tags contributing to high diversity. Experimental results indicate that UniBench is more challenging than existing benchmarks, and UniScore aligns closely with human evaluations, surpassing current metrics. Moreover, we extensively evaluated SoTA unified and visual generation models, uncovering new insights into Univeral’s unique values.

arxiv情報

著者 Yi Li,Haonan Wang,Qixiang Zhang,Boyu Xiao,Chenchang Hu,Hualiang Wang,Xiaomeng Li
発行日 2025-05-15 16:34:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | UniEval: Unified Holistic Evaluation for Unified Multimodal Understanding and Generation はコメントを受け付けていません