STEP: Simultaneous Tracking and Estimation of Pose for Animals and Humans

要約

私たちは、多様な動物種や人間にわたるポーズの同時追跡と推定のために、変圧器ベースの識別モデル予測を利用した新しいフレームワークであるステップを紹介します。
私たちは、人間の脳が空間的連続性を搾取し、形態と動きの処理のための脳領域の専門化にもかかわらず、同時のローカリゼーションとポーズ推定を実行するという事実に触発されています。
従来の識別モデルでは、通常、モデルの重みを決定するための事前定義されたターゲット状態が必要です。これは、ガウスマップソフト予測(GMSP)およびオフセットマップ回帰アダプター(OMRA)モジュールを介して対処する課題です。
これらのモジュールは、キーポイントターゲット状態の必要性を入力として削除し、プロセスを合理化します。
私たちの方法は、特定のビデオシーケンスの初期フレームでの事前に訓練された検出器または手動の初期化を通じて初期化された既知のターゲット状態から始まります。
次に、ターゲットをシームレスに追跡し、その後のフレームの出力として解剖学的重要性のキーポイントを推定します。
一般的なトップダウンポーズ推定方法とは異なり、私たちのアプローチは、その追跡能力のためにフレームごとのターゲット検出に依存していません。
これにより、推論効率と潜在的なアプリケーションの大幅な進歩が促進されます。
多様な種を含むデータセットでアプローチをトレーニングおよび検証します。
我々の実験は、既存の方法と比較して優れた結果を示し、アクション認識や行動分析を含むがこれらに限定されないさまざまなアプリケーションへのドアを開きます。

要約(オリジナル)

We introduce STEP, a novel framework utilizing Transformer-based discriminative model prediction for simultaneous tracking and estimation of pose across diverse animal species and humans. We are inspired by the fact that the human brain exploits spatiotemporal continuity and performs concurrent localization and pose estimation despite the specialization of brain areas for form and motion processing. Traditional discriminative models typically require predefined target states for determining model weights, a challenge we address through Gaussian Map Soft Prediction (GMSP) and Offset Map Regression Adapter (OMRA) Modules. These modules remove the necessity of keypoint target states as input, streamlining the process. Our method starts with a known target state initialized through a pre-trained detector or manual initialization in the initial frame of a given video sequence. It then seamlessly tracks the target and estimates keypoints of anatomical importance as output for subsequent frames. Unlike prevalent top-down pose estimation methods, our approach doesn’t rely on per-frame target detections due to its tracking capability. This facilitates a significant advancement in inference efficiency and potential applications. We train and validate our approach on datasets encompassing diverse species. Our experiments demonstrate superior results compared to existing methods, opening doors to various applications, including but not limited to action recognition and behavioral analysis.

arxiv情報

著者 Shashikant Verma,Harish Katti,Soumyaratna Debnath,Yamuna Swamy,Shanmuganathan Raman
発行日 2025-03-17 16:22:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STEP: Simultaneous Tracking and Estimation of Pose for Animals and Humans はコメントを受け付けていません

Spatio-Temporal Distortion Aware Omnidirectional Video Super-Resolution

要約

全方向性ビデオ(ODV)は没入型の視覚体験を提供し、仮想現実と拡張現実で広く利用されています。
ただし、制限されたキャプチャデバイスとトランスミッション帯域幅は、低解像度ODVにつながります。
ビデオスーパー解像度(SR)は解像度を強化するために提案されていますが、実用的なODV空間投影の歪みと時間的フリッカリングは、既存の方法を直接適用することでよく対処されていません。
より良いODV-SR再構成を実現するために、ODV特性に向けた時空間歪み認識ネットワーク(STDAN)を提案します。
具体的には、個別の投影歪みを改善するために、空間的に連続的な歪み変調モジュールが導入されています。
次に、フレーム全体の時間的一貫性を改善するために、インターレースされたマルチフレーム再構成メカニズムを設計します。
さらに、トレーニング中に緯度に適応的な重みを組み込み、テクスチャの複雑さと人間を見る関心のある地域に集中します。
一般に、実用的なシナリオを備えた新しいODV-SRデータセットでアプリケーションに優しい方法を提供するために、推論のない実世界の視聴マッチング戦略を検討します。
広範な実験結果は、最先端の方法よりも提案されたStdanの優れた性能を示しています。

要約(オリジナル)

Omnidirectional video (ODV) provides an immersive visual experience and is widely utilized in virtual reality and augmented reality. However, restricted capturing devices and transmission bandwidth lead to low-resolution ODVs. Video super-resolution (SR) is proposed to enhance resolution, but practical ODV spatial projection distortions and temporal flickering are not well addressed directly applying existing methods. To achieve better ODV-SR reconstruction, we propose a Spatio-Temporal Distortion Aware Network (STDAN) oriented to ODV characteristics. Specifically, a spatially continuous distortion modulation module is introduced to improve discrete projection distortions. Next, we design an interlaced multi-frame reconstruction mechanism to refine temporal consistency across frames. Furthermore, we incorporate latitude-saliency adaptive weights during training to concentrate on regions with higher texture complexity and human-watching interest. In general, we explore inference-free and real-world viewing matched strategies to provide an application-friendly method on a novel ODV-SR dataset with practical scenarios. Extensive experimental results demonstrate the superior performance of the proposed STDAN over state-of-the-art methods.

arxiv情報

著者 Hongyu An,Xinfeng Zhang,Shijie Zhao,Li Zhang,Ruiqin Xiong
発行日 2025-03-17 16:22:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Spatio-Temporal Distortion Aware Omnidirectional Video Super-Resolution はコメントを受け付けていません

TriDF: Triplane-Accelerated Density Fields for Few-Shot Remote Sensing Novel View Synthesis

要約

リモートセンシング新規ビュー合成(NVS)は、都市計画と環境監視における重要なアプリケーションを使用して、リモートセンシングシーンの3D解釈の重要な可能性を提供します。
ただし、リモートセンシングシーンには、取得の制約により、十分なマルチビュー画像がしばしば欠けています。
既存のNVSメソッドは、限られた入力ビューを処理すると過剰に輝く傾向がありますが、高度な少数のショットNVSメソッドは計算的に集中しており、リモートセンシングシーンで最適に機能します。
このペーパーでは、わずか3つの入力ビューからの高速リモートセンシングNVの効率的なハイブリッド3D表現であるTRIDFを紹介します。
私たちのアプローチは色と体積密度情報を切り離し、それらを独立してモデル化して、暗黙の放射輝度フィールドの計算負担を軽減し、再構築を加速します。
このコンパクトな構造に高周波の色情報をマッピングすることにより、少ないショットNVSタスクのトリプレーン表現の可能性を調査し、特徴平面の直接最適化により収束が大幅に高速化されます。
ボリューム密度は、連続密度フィールドとしてモデル化されており、限られた入力データを補正するために、隣接ビューからの参照機能を画像ベースのレンダリングに組み込んでいます。
さらに、ポイントクラウドに基づいて深さ誘導最適化を導入します。これにより、少数のショットNVの過剰適合の問題が効果的に緩和されます。
複数のリモートセンシングシーンにわたる包括的な実験は、ハイブリッド表現がNERFベースの方法と比較して30倍の速度の増加を達成することを示していますが、同時に高度な少数のショット方法よりも品質メトリックのレンダリングを改善します(PSNRの7.4%の増加、SSIMで12.2%、LPIPSで18.7%)。
このコードは、https://github.com/kanehub/tridfで公開されています

要約(オリジナル)

Remote sensing novel view synthesis (NVS) offers significant potential for 3D interpretation of remote sensing scenes, with important applications in urban planning and environmental monitoring. However, remote sensing scenes frequently lack sufficient multi-view images due to acquisition constraints. While existing NVS methods tend to overfit when processing limited input views, advanced few-shot NVS methods are computationally intensive and perform sub-optimally in remote sensing scenes. This paper presents TriDF, an efficient hybrid 3D representation for fast remote sensing NVS from as few as 3 input views. Our approach decouples color and volume density information, modeling them independently to reduce the computational burden on implicit radiance fields and accelerate reconstruction. We explore the potential of the triplane representation in few-shot NVS tasks by mapping high-frequency color information onto this compact structure, and the direct optimization of feature planes significantly speeds up convergence. Volume density is modeled as continuous density fields, incorporating reference features from neighboring views through image-based rendering to compensate for limited input data. Additionally, we introduce depth-guided optimization based on point clouds, which effectively mitigates the overfitting problem in few-shot NVS. Comprehensive experiments across multiple remote sensing scenes demonstrate that our hybrid representation achieves a 30x speed increase compared to NeRF-based methods, while simultaneously improving rendering quality metrics over advanced few-shot methods (7.4% increase in PSNR, 12.2% in SSIM, and 18.7% in LPIPS). The code is publicly available at https://github.com/kanehub/TriDF

arxiv情報

著者 Jiaming Kang,Keyan Chen,Zhengxia Zou,Zhenwei Shi
発行日 2025-03-17 16:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TriDF: Triplane-Accelerated Density Fields for Few-Shot Remote Sensing Novel View Synthesis はコメントを受け付けていません

GuardSplat: Efficient and Robust Watermarking for 3D Gaussian Splatting

要約

3D Gaussian Splatting(3DGS)は、最近、さまざまなアプリケーションに対して印象的な3Dアセットを作成しました。
ただし、セキュリティ、容量、不可視性、トレーニング効率を考慮すると、3DGS資産の著作権は、レンダリングパイプラインには適していないため、十分に保護されていません。
このホワイトペーパーでは、3DGS資産を透かしのための革新的で効率的なフレームワークであるGuardsPlatを提案します。
具体的には、1)最小コストでメッセージデコーダーを最適化するためのクリップ誘導パイプラインを提案します。
重要な目的は、クリップの整列能力と豊富な表現を活用して、並外れた能力と効率を実証することにより、高精度の抽出を実現することです。
2)3DGS用の球状ハーモニック対応(SH-AWARE)メッセージ埋め込みモジュールを調整し、元の3D構造を保存しながら、各3DガウスのSH機能にメッセージをシームレスに埋め込みます。
これにより、最小限の忠実度のトレードオフで3DGSアセットを透かして透かして、悪意のあるユーザーがモデルファイルから透かしを削除し、不可視とセキュリティの要求を満たすことができなくなります。
3)さまざまな歪みに対する堅牢性を向上させるために、歪み式メッセージ抽出モジュールを提示します。
実験は、Guardsplatが最先端を上回り、最適化速度を速くすることを示しています。
プロジェクトページはhttps://narcissusex.github.io/guardsplatにあり、コードはhttps://github.com/narcissusex/guardsplatにあります。

要約(オリジナル)

3D Gaussian Splatting (3DGS) has recently created impressive 3D assets for various applications. However, considering security, capacity, invisibility, and training efficiency, the copyright of 3DGS assets is not well protected as existing watermarking methods are unsuited for its rendering pipeline. In this paper, we propose GuardSplat, an innovative and efficient framework for watermarking 3DGS assets. Specifically, 1) We propose a CLIP-guided pipeline for optimizing the message decoder with minimal costs. The key objective is to achieve high-accuracy extraction by leveraging CLIP’s aligning capability and rich representations, demonstrating exceptional capacity and efficiency. 2) We tailor a Spherical-Harmonic-aware (SH-aware) Message Embedding module for 3DGS, seamlessly embedding messages into the SH features of each 3D Gaussian while preserving the original 3D structure. This enables watermarking 3DGS assets with minimal fidelity trade-offs and prevents malicious users from removing the watermarks from the model files, meeting the demands for invisibility and security. 3) We present an Anti-distortion Message Extraction module to improve robustness against various distortions. Experiments demonstrate that GuardSplat outperforms state-of-the-art and achieves fast optimization speed. Project page is at https://narcissusex.github.io/GuardSplat, and Code is at https://github.com/NarcissusEx/GuardSplat.

arxiv情報

著者 Zixuan Chen,Guangcong Wang,Jiahao Zhu,Jianhuang Lai,Xiaohua Xie
発行日 2025-03-17 16:33:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | GuardSplat: Efficient and Robust Watermarking for 3D Gaussian Splatting はコメントを受け付けていません

Parameter-free structure-texture image decomposition by unrolling

要約

この作業では、構造テクスチャー画像分解問題に取り組むためのパラメーターフリーで効率的な方法を提案します。
特に、低パッチランクモデルの展開に基づいて、ニューラルネットワークLPR-NETを提示します。
一方では、これにより、データからパラメーターを自動的に学習することができ、他方では、従来の反復モデルベースの方法と比較して定性的に類似した結果を得ている間、計算的に高速になるようになります。
さらに、合成画像の訓練を受けているにもかかわらず、数値実験は、自然な画像に適用されると、ネットワークがよく一般化する能力を示しています。

要約(オリジナル)

In this work, we propose a parameter-free and efficient method to tackle the structure-texture image decomposition problem. In particular, we present a neural network LPR-NET based on the unrolling of the Low Patch Rank model. On the one hand, this allows us to automatically learn parameters from data, and on the other hand to be computationally faster while obtaining qualitatively similar results compared to traditional iterative model-based methods. Moreover, despite being trained on synthetic images, numerical experiments show the ability of our network to generalize well when applied to natural images.

arxiv情報

著者 Laura Girometti,Jean-François Aujol,Antoine Guennec,Yann Traonmilin
発行日 2025-03-17 16:35:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68U10, 90C26, cs.CV, cs.NA, eess.IV, math.NA | Parameter-free structure-texture image decomposition by unrolling はコメントを受け付けていません

One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

要約

スーパー解像度(SR)の拡散モデルは、高品質の視覚的結果を生成しますが、高価な計算コストが必要です。
拡散ベースのSRモデルを加速するためのいくつかの方法の開発にもかかわらず、一部の(たとえば、SINSR)は現実的な知覚的な詳細を生成できませんが、他の(例えば、Osediff)は存在しない構造を幻覚させる可能性があります。
これらの問題を克服するために、トップの拡散ベースのSRモデルの1つであるResshiftの新しい蒸留方法であるRSDを提示します。
私たちの方法は、学生ネットワークのトレーニングに基づいて、新しい偽のResshiftモデルが訓練された画像を作成し、教師モデルと一致します。
RSDはシングルステップの回復を達成し、大きなマージンで教師を上回ります。
私たちの蒸留方法は、Resshiftの他の蒸留ベースの方法であるSinsr-を上回ることができることを示しています。
事前に訓練されたテキストからイメージまでのモデルに基づいたSRメソッドと比較して、RSDは競争力のある知覚品質を生成し、劣化した入力画像により良いアラインメントを備えた画像を提供し、より少ないパラメーターとGPUメモリを必要とします。
RealSR、RealSet65、DREALSR、IMAGENET、DIV2Kなど、さまざまな現実世界および合成データセットで実験結果を提供します。

要約(オリジナル)

Diffusion models for super-resolution (SR) produce high-quality visual results but require expensive computational costs. Despite the development of several methods to accelerate diffusion-based SR models, some (e.g., SinSR) fail to produce realistic perceptual details, while others (e.g., OSEDiff) may hallucinate non-existent structures. To overcome these issues, we present RSD, a new distillation method for ResShift, one of the top diffusion-based SR models. Our method is based on training the student network to produce such images that a new fake ResShift model trained on them will coincide with the teacher model. RSD achieves single-step restoration and outperforms the teacher by a large margin. We show that our distillation method can surpass the other distillation-based method for ResShift – SinSR – making it on par with state-of-the-art diffusion-based SR distillation methods. Compared to SR methods based on pre-trained text-to-image models, RSD produces competitive perceptual quality, provides images with better alignment to degraded input images, and requires fewer parameters and GPU memory. We provide experimental results on various real-world and synthetic datasets, including RealSR, RealSet65, DRealSR, ImageNet, and DIV2K.

arxiv情報

著者 Daniil Selikhanovych,David Li,Aleksei Leonov,Nikita Gushchin,Sergei Kushneriuk,Alexander Filippov,Evgeny Burnaev,Iaroslav Koshelev,Alexander Korotin
発行日 2025-03-17 16:44:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation はコメントを受け付けていません

Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning

要約

大規模な言語モデル(LLMS)の最近の進歩は、推論能力の強化を実証しており、OpenAI O1のような高度な製品指向のソリューションに促される考え方(COT)から進化しています。
このモデルの再実装中に、視覚入力(例えば、ジオメトリの問題)を必要とするマルチモーダルタスクでは、マルチモーダルLLMS(MLLM)が視覚情報の焦点を維持するのに苦労していることに気付きました。
これを調査するために、長鎖の推論中に画像入力を樹立します。
具体的には、推論プロセスを途中で切り捨て、入力画像が削除された状態で推論プロセスを再現します。
Mathvistaのテストハードサブセットでは、Mathvistaのテストハードサブセットでの精度の低下のみが観察され、モデルのテキスト出力が次の推論プロセスを支配していることがわかります。
これに動機付けられていると、画像入力を重要な推論段階にシフトし、動的な剪定を介して冗長な視覚トークンを圧縮する戦略である、視覚的な条件付け(TVC)を取り入れることを提案します。
この方法論は、モデルが推論を通して視覚コンポーネントに注意を維持するのに役立ちます。
私たちのアプローチは、5つの数学的推論ベンチマーク(+3.4%対以前のSOTA)にわたって平均して最先端のパフォーマンスを達成し、マルチモーダル推論システムの強化におけるTVCの有効性を実証しています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have demonstrated enhanced reasoning capabilities, evolving from Chain-of-Thought (CoT) prompting to advanced, product-oriented solutions like OpenAI o1. During our re-implementation of this model, we noticed that in multimodal tasks requiring visual input (e.g., geometry problems), Multimodal LLMs (MLLMs) struggle to maintain focus on the visual information, in other words, MLLMs suffer from a gradual decline in attention to visual information as reasoning progresses, causing text-over-relied outputs. To investigate this, we ablate image inputs during long-chain reasoning. Concretely, we truncate the reasoning process midway, then re-complete the reasoning process with the input image removed. We observe only a ~2% accuracy drop on MathVista’s test-hard subset, revealing the model’s textual outputs dominate the following reasoning process. Motivated by this, we propose Take-along Visual Conditioning (TVC), a strategy that shifts image input to critical reasoning stages and compresses redundant visual tokens via dynamic pruning. This methodology helps the model retain attention to the visual components throughout the reasoning. Our approach achieves state-of-the-art performance on average across five mathematical reasoning benchmarks (+3.4% vs previous sota), demonstrating the effectiveness of TVC in enhancing multimodal reasoning systems.

arxiv情報

著者 Hai-Long Sun,Zhun Sun,Houwen Peng,Han-Jia Ye
発行日 2025-03-17 16:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning はコメントを受け付けていません

Structure-Activation Synergy: A Dual Efficiency Framework for Parameter-Memory Optimized Transfer Learning

要約

パラメーター効率の高い転送学習(PETL)は、大規模な事前訓練モデルを適応させるためのトレーニング可能なパラメーターを正常に削減しますが、従来の方法は、アクティベーションメモリ消費の減少において限られた有効性を示します。
構造活性化の相乗効果(S2A)を提示します。これは、2つの相乗的メカニズムを通じてパラメーターとメモリの二重最適化を達成する革新的なフレームワークであり、(1)パラメトリックな複雑さと中間機能ストレージ要件の両方を戦略的に最小限に抑える構造的アクティベーションモジュール(バイアス/プロンプト/サイド適応)、および(2)デリバティブ – アウェア型の4-BIT量子オペレーターを維持するための脱線4ビット量子化の両方の段階的な量子化の両方のグラードインドリティを維持するための4-BIT量子化の両方の段階的な量子化の両方を維持する
精度割り当て。
複数のアーキテクチャ(VIT、SWIN、RESNET)およびデータセット(ImagENET-1K、CIFAR、DomainNet)にわたる広範な評価は、S2Aの優れた効率を示し、GPUメモリの消費を75 \%(4.2平均減少)減少させながら、0.9 \%Thoableパラメーターの完全な微調整の98.7%を維持しながら維持します。
このハードウェア認識パラダイムは、新しい最先端のモデル適応を確立し、モデル機能を損なうことなく、同時パラメーターとメモリ最適化を通じて実用的な展開の利点を提供します

要約(オリジナル)

While parameter-efficient transfer learning (PETL) successfully reduces trainable parameters for adapting large pre-trained models, conventional methods exhibit limited effectiveness in decreasing activation memory consumption – a critical bottleneck for deployment on resource-constrained devices. We present Structure-Activation Synergy (S2A), an innovative framework achieving dual optimization of parameters and memory through two synergistic mechanisms: (1) Structural activation modules (bias/prompt/side adaptations) that strategically minimize both parametric complexity and intermediate feature storage requirements, and (2) Derivative-aware 4-bit quantization for non-parametric operators that maintains model fidelity through gradient-informed precision allocation. Extensive evaluations across multiple architectures (ViT, Swin, ResNet) and datasets (ImageNet-1K, CIFAR, DomainNet) demonstrate S2A’s superior efficiency, reducing GPU memory consumption by 75\% (4.2 average reduction) while maintaining 98.7\% of full fine-tuning accuracy with only 0.9\% tunable parameters. This hardware-aware paradigm establishes new state-of-the-art in efficient model adaptation, offering practical deployment advantages through simultaneous parameter and memory optimization without compromising model capability

arxiv情報

著者 Tian Jin,Enjun Du,Changwei Wang,Wenhao Xu,Ding Luo
発行日 2025-03-17 16:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Structure-Activation Synergy: A Dual Efficiency Framework for Parameter-Memory Optimized Transfer Learning はコメントを受け付けていません

MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning

要約

構成ゼロショット学習(CZSL)は、見た構成からセマンティックプリミティブ(属性とオブジェクト)を学び、目に見えない属性とオブジェクトの構成を認識することを目的としています。
既存のCZSLデータセットは、単一の属性に焦点を当てており、オブジェクトが自然に相互に関連する属性を自然に示すという事実を無視します。
それらの狭い属性の範囲と単一の属性ラベルは、注釈バイアスを導入し、属性の学習を誤解させ、不正確な評価を引き起こします。
これらの問題に対処するために、マルチアトリブ構成(MAC)データセットを紹介し、包括的で代表的な属性注釈を備えた22,838の画像と17,627の構成を含みます。
Macは、属性とオブジェクトの複雑な関係を示し、各属性タイプは平均82.2オブジェクトタイプにリンクされ、各オブジェクトタイプは31.4属性タイプに関連付けられています。
MACに基づいて、より深いセマンティック理解と高度な属性関連を必要とする多属性構成ゼロショット学習を提案し、CZSLのより現実的で挑戦的なベンチマークを確立します。
また、マルチアトリビティティビティティックインテグレーター(MVP-Integrator)を提案します。これは、セマンティックプリミティブを解き放ち、効果的な視覚プリミティブ関連の関連を実行する多属性CZSLの堅牢なベースラインです。
実験結果は、MVP-Integratorが推論効率が改善されたMAC上の既存のCZSLメソッドを大幅に上回ることを示しています。

要約(オリジナル)

Compositional Zero-Shot Learning (CZSL) aims to learn semantic primitives (attributes and objects) from seen compositions and recognize unseen attribute-object compositions. Existing CZSL datasets focus on single attributes, neglecting the fact that objects naturally exhibit multiple interrelated attributes. Their narrow attribute scope and single attribute labeling introduce annotation biases, misleading the learning of attributes and causing inaccurate evaluation. To address these issues, we introduce the Multi-Attribute Composition (MAC) dataset, encompassing 22,838 images and 17,627 compositions with comprehensive and representative attribute annotations. MAC shows complex relationship between attributes and objects, with each attribute type linked to an average of 82.2 object types, and each object type associated with 31.4 attribute types. Based on MAC, we propose multi-attribute compositional zero-shot learning that requires deeper semantic understanding and advanced attribute associations, establishing a more realistic and challenging benchmark for CZSL. We also propose Multi-attribute Visual-Primitive Integrator (MVP-Integrator), a robust baseline for multi-attribute CZSL, which disentangles semantic primitives and performs effective visual-primitive association. Experimental results demonstrate that MVP-Integrator significantly outperforms existing CZSL methods on MAC with improved inference efficiency.

arxiv情報

著者 Shuo Xu,Sai Wang,Xinyue Hu,Yutian Lin,Bo Du,Yu Wu
発行日 2025-03-17 16:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning はコメントを受け付けていません

Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions

要約

多くの場合、アノテーターグループとエンドユーザーグループ間でニーズと視覚能力が異なります。
ブラインドおよび低ビジョン(BLV)ユーザーの詳細な図の説明を生成することは、そのような挑戦的なドメインの1つです。
視覚視力は視覚を簡単に説明できますが、既存の研究では、直接世代は費用がかかり、バイアスが発生しやすく、BLV標準によってやや欠けていることが示されています。
この研究では、目撃した個人に、マルチパス推論を介して潜在的な監督に導かれたビジョン言語モデル(VLM)によって生成された図の説明を評価するように依頼します。
目撃された評価は、自分自身がBLVであり、視覚障害のある学習者を教える専門家教育者にとって効果的で有用であることが証明されています。
視覚、図の説明データセットのコレクション、5K図と137Kサンプルの完了、好み、検索、質問応答、および推論トレーニングの目的で、さまざまな下流タスクで微調整の可能性を示します。

要約(オリジナル)

Often, the needs and visual abilities differ between the annotator group and the end user group. Generating detailed diagram descriptions for blind and low-vision (BLV) users is one such challenging domain. Sighted annotators could describe visuals with ease, but existing studies have shown that direct generations by them are costly, bias-prone, and somewhat lacking by BLV standards. In this study, we ask sighted individuals to assess — rather than produce — diagram descriptions generated by vision-language models (VLM) that have been guided with latent supervision via a multi-pass inference. The sighted assessments prove effective and useful to professional educators who are themselves BLV and teach visually impaired learners. We release Sightation, a collection of diagram description datasets spanning 5k diagrams and 137k samples for completion, preference, retrieval, question answering, and reasoning training purposes and demonstrate their fine-tuning potential in various downstream tasks.

arxiv情報

著者 Wan Ju Kang,Eunki Kim,Na Min An,Sangryul Kim,Haemin Choi,Ki Hoon Kwak,James Thorne
発行日 2025-03-17 16:52:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC | Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions はコメントを受け付けていません