4-LEGS: 4D Language Embedded Gaussian Splatting

要約

神経表現の出現は、幅広い3Dシーンをデジタル的に表示するための私たちの手段に革命をもたらし、新しい視野からレンダリングされたフォトリアリスティックな画像の統合を可能にしました。
最近、これらの低レベルの表現をシーン内で具体化した高レベルのセマンティクス理解と接続するためのいくつかの手法が提案されています。
これらの方法は、豊富なセマンティック理解を2D画像から3D表現に向上させ、高次元空間機能を3D空間に蒸留します。
私たちの仕事では、言語を世界の動的なモデリングと結び付けることに興味があります。
3Dガウスのスプラッティングに基づいて、時空間的特徴を4D表現に持ち上げる方法を示します。
これにより、ユーザーがテキストプロンプトからビデオ内のイベントを空間的にローカライズできるインタラクティブなインターフェイスが可能になります。
さまざまなアクションを実行している人や動物の公開3Dビデオデータセットでシステムを示します。

要約(オリジナル)

The emergence of neural representations has revolutionized our means for digitally viewing a wide range of 3D scenes, enabling the synthesis of photorealistic images rendered from novel views. Recently, several techniques have been proposed for connecting these low-level representations with the high-level semantics understanding embodied within the scene. These methods elevate the rich semantic understanding from 2D imagery to 3D representations, distilling high-dimensional spatial features onto 3D space. In our work, we are interested in connecting language with a dynamic modeling of the world. We show how to lift spatio-temporal features to a 4D representation based on 3D Gaussian Splatting. This enables an interactive interface where the user can spatiotemporally localize events in the video from text prompts. We demonstrate our system on public 3D video datasets of people and animals performing various actions.

arxiv情報

著者 Gal Fiebelman,Tamir Cohen,Ayellet Morgenstern,Peter Hedman,Hadar Averbuch-Elor
発行日 2025-02-13 16:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | 4-LEGS: 4D Language Embedded Gaussian Splatting はコメントを受け付けていません

Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes

要約

人間の動き統合における最近の進歩は、人間のシーンの相互作用、移動、人間の相互作用などの特定の種類の動きに焦点を当てていますが、運動タイプの多様な組み合わせを生成できる統一されたシステムが不足しています。
これに応じて、3D空間での人間の動きの生成のための包括的で拡張可能なシステムであるSitcom-Crafterを紹介します。これは、アニメおよびゲームデザイナーのワークフロー効率を高めるために、広範なプロットコンテキストによって導かれます。
このシステムは8つのモジュールで構成されており、そのうち3つはモーション生成専用ですが、残りの5つはモーションシーケンスとシステム機能の一貫した融合を保証する増強モジュールです。
Generationモジュールの中心は、私たちの新しい3Dシーンを意識した人間と人間の相互作用モジュールであり、モーションスペースの周りに暗黙の3D署名距離関数(SDF)ポイントを合成することにより衝突問題に対処し、それによって追加のデータ収集コストなしで人間の衝突を最小限に抑えます。
これを補完すると、私たちの移動と人間のシーン相互作用モジュールは、既存の方法を活用して、システムのモーション生成機能を豊かにします。
増強モジュールには、コマンド生成のためのプロットの理解、さまざまなモーションタイプのシームレスな統合のためのモーション同期、手ポーズの検索、モーションリアリズムを強化し、人間の衝突を防ぐためのモーション衝突修正、視覚的忠実度を確保するための3Dリターゲティングが含まれます。
実験的評価は、高品質で多様な、物理的に現実的な動きを生成するシステムの能力を検証し、創造的なワークフローを進める可能性を強調しています。
プロジェクトページ:https://windvchen.github.io/sitcom-crafter。

要約(オリジナル)

Recent advancements in human motion synthesis have focused on specific types of motions, such as human-scene interaction, locomotion or human-human interaction, however, there is a lack of a unified system capable of generating a diverse combination of motion types. In response, we introduce Sitcom-Crafter, a comprehensive and extendable system for human motion generation in 3D space, which can be guided by extensive plot contexts to enhance workflow efficiency for anime and game designers. The system is comprised of eight modules, three of which are dedicated to motion generation, while the remaining five are augmentation modules that ensure consistent fusion of motion sequences and system functionality. Central to the generation modules is our novel 3D scene-aware human-human interaction module, which addresses collision issues by synthesizing implicit 3D Signed Distance Function (SDF) points around motion spaces, thereby minimizing human-scene collisions without additional data collection costs. Complementing this, our locomotion and human-scene interaction modules leverage existing methods to enrich the system’s motion generation capabilities. Augmentation modules encompass plot comprehension for command generation, motion synchronization for seamless integration of different motion types, hand pose retrieval to enhance motion realism, motion collision revision to prevent human collisions, and 3D retargeting to ensure visual fidelity. Experimental evaluations validate the system’s ability to generate high-quality, diverse, and physically realistic motions, underscoring its potential for advancing creative workflows. Project page: https://windvchen.github.io/Sitcom-Crafter.

arxiv情報

著者 Jianqi Chen,Panwen Hu,Xiaojun Chang,Zhenwei Shi,Michael Kampffmeyer,Xiaodan Liang
発行日 2025-02-13 16:20:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes はコメントを受け付けていません

Metamorphic Testing for Pose Estimation Systems

要約

ポーズ推定システムは、スポーツ分析から家畜ケアまで、さまざまな分野で使用されています。
潜在的な影響を考えると、行動と失敗の可能性を体系的にテストすることが最も重要です。
これは、Oracleの問題と、グラウンドトゥルースキーポイントを構築するために必要なマニュアルラベルの高いコストによる複雑なタスクです。
この問題は、さまざまなアプリケーションが、システムが異なる被験者(たとえば、人間対動物)またはランドマーク(例えば、四肢と全身と顔のみ)に焦点を合わせるためにシステムを必要とするという事実によって悪化しているため、ラベル付けされたテストデータがめったに再利用できません。
これらの問題に対処するために、Met-Poseは、さまざまな状況下でこれらのシステムのパフォーマンスを評価しながら、手動注釈の必要性をバイパスするポーズ推定システムの変成テストフレームワークであると提案します。
したがって、Met-Poseは、ポーズ推定システムのユーザーが、アドホックテストデータセットにラベルを付けることなく、またはアプリケーションドメインに適合しない可能性のある利用可能なデータセットのみに依存することなく、アプリケーションにより密接に関連する条件でシステムを評価できるようになります。
Met-Poseを一般的な用語で定義しますが、コンピュータービジョンアプリケーションの共通の課題を表す変態ルールの非網羅的なリストと、これらのルールを評価する特定の方法も提示します。
次に、FLICとPhoenixのデータセットを使用して、最先端の人間のポーズ推定システムであるMediapipe Holisticに適用することにより、Met-Poseの有効性を実験的に示します。
これらの実験により、Met-Poseの出力が、ハンドラベルのデータを使用してクラシックテストと同様または高いレートでポーズ推定システムの障害を明らかにし、ユーザーが使用するルールセットを調整できることを示す多くの方法を概説します。
アプリケーションに関連する障害と精度のレベル。

要約(オリジナル)

Pose estimation systems are used in a variety of fields, from sports analytics to livestock care. Given their potential impact, it is paramount to systematically test their behaviour and potential for failure. This is a complex task due to the oracle problem and the high cost of manual labelling necessary to build ground truth keypoints. This problem is exacerbated by the fact that different applications require systems to focus on different subjects (e.g., human versus animal) or landmarks (e.g., only extremities versus whole body and face), which makes labelled test data rarely reusable. To combat these problems we propose MET-POSE, a metamorphic testing framework for pose estimation systems that bypasses the need for manual annotation while assessing the performance of these systems under different circumstances. MET-POSE thus allows users of pose estimation systems to assess the systems in conditions that more closely relate to their application without having to label an ad-hoc test dataset or rely only on available datasets, which may not be adapted to their application domain. While we define MET-POSE in general terms, we also present a non-exhaustive list of metamorphic rules that represent common challenges in computer vision applications, as well as a specific way to evaluate these rules. We then experimentally show the effectiveness of MET-POSE by applying it to Mediapipe Holistic, a state of the art human pose estimation system, with the FLIC and PHOENIX datasets. With these experiments, we outline numerous ways in which the outputs of MET-POSE can uncover faults in pose estimation systems at a similar or higher rate than classic testing using hand labelled data, and show that users can tailor the rule set they use to the faults and level of accuracy relevant to their application.

arxiv情報

著者 Matias Duran,Thomas Laurent,Ellen Rushe,Anthony Ventresque
発行日 2025-02-13 16:27:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SE | Metamorphic Testing for Pose Estimation Systems はコメントを受け付けていません

ArthroPhase: A Novel Dataset and Method for Phase Recognition in Arthroscopic Video

要約

この研究の目的は、最初の関節鏡検査データセットを導入し、新しいトランスベースのモデルを開発することにより、関節鏡視鏡手術、特に前十字靭帯(ACL)再構築における外科期認識を前進させることです。
私たちは、限られた視野、閉塞、視覚的歪みを含む関節鏡ビデオの特定の課題に対処するために、時空間的特徴を活用することにより、関節鏡部の外科期認識のベンチマークを確立することを目指しています。
ACL27データセットを開発しました。これは、それぞれが手術段階でラベル付けされたACL手術の27のビデオで構成されています。
私たちのモデルでは、トランスベースのアーキテクチャを採用しており、resNet-50およびトランス層を介した一時的なフレームごとの特徴抽出を利用しています。
このアプローチは、時空間的特徴を統合し、外科的進行指数(SPI)を導入して手術の進行を定量化します。
モデルのパフォーマンスは、ACL27およびCHOLEC80データセットの精度、精度、リコール、およびJaccardインデックスを使用して評価されました。
提案されたモデルは、ACL27データセットで72.91%の全体的な精度を達成しました。
CHOLEC80データセットでは、モデルは92.4%の精度で最先端の方法で同等のパフォーマンスを達成しました。
SPIは、それぞれACL27およびCHOLEC80データセットで10.6%と9.86%の出力誤差を示し、信頼できる手術の進行推定を示しています。
この研究では、関節鏡検査の外科期認識の大幅な進歩を導入し、包括的なデータセットと堅牢なトランスベースのモデルを提供します。
結果は、モデルの有効性と一般化可能性を検証し、外科的訓練、リアルタイム支援、および整形外科手術の運用効率を改善する可能性を強調しています。
公開されているデータセットとコードは、この重要な分野での将来の研究開発を促進します。

要約(オリジナル)

This study aims to advance surgical phase recognition in arthroscopic procedures, specifically Anterior Cruciate Ligament (ACL) reconstruction, by introducing the first arthroscopy dataset and developing a novel transformer-based model. We aim to establish a benchmark for arthroscopic surgical phase recognition by leveraging spatio-temporal features to address the specific challenges of arthroscopic videos including limited field of view, occlusions, and visual distortions. We developed the ACL27 dataset, comprising 27 videos of ACL surgeries, each labeled with surgical phases. Our model employs a transformer-based architecture, utilizing temporal-aware frame-wise feature extraction through a ResNet-50 and transformer layers. This approach integrates spatio-temporal features and introduces a Surgical Progress Index (SPI) to quantify surgery progression. The model’s performance was evaluated using accuracy, precision, recall, and Jaccard Index on the ACL27 and Cholec80 datasets. The proposed model achieved an overall accuracy of 72.91% on the ACL27 dataset. On the Cholec80 dataset, the model achieved a comparable performance with the state-of-the-art methods with an accuracy of 92.4%. The SPI demonstrated an output error of 10.6% and 9.86% on ACL27 and Cholec80 datasets respectively, indicating reliable surgery progression estimation. This study introduces a significant advancement in surgical phase recognition for arthroscopy, providing a comprehensive dataset and a robust transformer-based model. The results validate the model’s effectiveness and generalizability, highlighting its potential to improve surgical training, real-time assistance, and operational efficiency in orthopedic surgery. The publicly available dataset and code will facilitate future research and development in this critical field.

arxiv情報

著者 Ali Bahari Malayeri,Matthias Seibold,Nicola Cavalcanti,Jonas Hein,Sascha Jecklin,Lazaros Vlachopoulos,Sandro Fucentese,Sandro Hodel,Philipp Furnstahl
発行日 2025-02-13 16:32:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ArthroPhase: A Novel Dataset and Method for Phase Recognition in Arthroscopic Video はコメントを受け付けていません

Wholly-WOOD: Wholly Leveraging Diversified-quality Labels for Weakly-supervised Oriented Object Detection

要約

コンパクトな回転境界ボックス(Rbox)を使用した視覚オブジェクトの方向を正確に推定することが顕著な需要になり、水平境界ボックス(Hbox)のみを使用する既存のオブジェクト検出パラダイムに挑戦します。
検出器に方向認識を装備するために、監視された回帰/分類モジュールが高度なローテーション注釈のコストで導入されました。
一方、指向性オブジェクトを備えた既存のデータセットには、すでに水平ボックスまたは単一ポイントが注釈が付けられています。
それは魅力的になりますが、より弱いシングルポイントと水平注釈を効果的に利用して、方向のオブジェクト検出器(OOD)を訓練するためにオープンなままです。
私たちは、統一された方法でさまざまなラベル付けフォーム(ポイント、Hbox、Rbox、およびそれらの組み合わせ)を完全に活用できる完全に監視されているOODフレームワークである完全な木材を開発します。
トレーニングにHboxのみを使用することで、当社のWoodは、リモートセンシングやその他の領域でのRboxトレーニングを受けたカウンターパートのパフォーマンスに非常に近いパフォーマンスを実現し、配向オブジェクトの労働集約的な注釈に対する退屈な努力を大幅に削減します。
ソースコードは、https://github.com/visionxlab/whollywood(pytorchベース)およびhttps://github.com/visionxlab/whollywood-jittor(ジッターベース)で入手できます。

要約(オリジナル)

Accurately estimating the orientation of visual objects with compact rotated bounding boxes (RBoxes) has become a prominent demand, which challenges existing object detection paradigms that only use horizontal bounding boxes (HBoxes). To equip the detectors with orientation awareness, supervised regression/classification modules have been introduced at the high cost of rotation annotation. Meanwhile, some existing datasets with oriented objects are already annotated with horizontal boxes or even single points. It becomes attractive yet remains open for effectively utilizing weaker single point and horizontal annotations to train an oriented object detector (OOD). We develop Wholly-WOOD, a weakly-supervised OOD framework, capable of wholly leveraging various labeling forms (Points, HBoxes, RBoxes, and their combination) in a unified fashion. By only using HBox for training, our Wholly-WOOD achieves performance very close to that of the RBox-trained counterpart on remote sensing and other areas, significantly reducing the tedious efforts on labor-intensive annotation for oriented objects. The source codes are available at https://github.com/VisionXLab/whollywood (PyTorch-based) and https://github.com/VisionXLab/whollywood-jittor (Jittor-based).

arxiv情報

著者 Yi Yu,Xue Yang,Yansheng Li,Zhenjun Han,Feipeng Da,Junchi Yan
発行日 2025-02-13 16:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Wholly-WOOD: Wholly Leveraging Diversified-quality Labels for Weakly-supervised Oriented Object Detection はコメントを受け付けていません

DiffRenderGAN: Addressing Training Data Scarcity in Deep Segmentation Networks for Quantitative Nanomaterial Analysis through Differentiable Rendering and Generative Modelling

要約

ナノマテリアルは、サイズ、形状、表面の特性などのパラメーターによって支配された特徴的な特性を示し、技術、生物、および環境の文脈にわたってアプリケーションと相互作用に批判的に影響を与えます。
これらの資料の正確な定量化と理解は、研究と革新を進めるために不可欠です。
この点で、自動化された洞察を可能にし、主観的な方法を正確な定量分析に置き換える強力なツールとして、深い学習セグメンテーションネットワークが浮上しています。
ただし、それらの有効性は、ナノ粒子の費用のかかるイメージングと手動注釈の労働集約的な性質のために、取得するのが難しい代表的な注釈付きデータセットに依存します。
これらの制限を克服するために、注釈付きの合成データを生成するように設計された新しい生成モデルであるDiffrenderganを紹介します。
Diffrenderganは、微分可能なレンダラーを生成的敵対的ネットワーク(GAN)フレームワークに統合することにより、テクスチャレンダリングパラメーターを最適化して、認定されていない実際の顕微鏡画像から現実的な注釈付きナノ粒子画像を生成します。
このアプローチは、手動介入の必要性を減らし、多様で現実的なデータを生成することにより、既存の合成データ方法と比較してセグメンテーションパフォーマンスを向上させます。
二酸化チタン(TIO $ _2 $)、二酸化シリコン(SIO $ _2 $)、シルバーナノワイヤ(AGNW)を含む複数のイオンおよび電子顕微鏡症例でテストされ、diffrenderganは合成データと実際のデータの間のギャップを橋渡しし、定量化と定量化を進め、
複雑なナノ材料システムの理解。

要約(オリジナル)

Nanomaterials exhibit distinctive properties governed by parameters such as size, shape, and surface characteristics, which critically influence their applications and interactions across technological, biological, and environmental contexts. Accurate quantification and understanding of these materials are essential for advancing research and innovation. In this regard, deep learning segmentation networks have emerged as powerful tools that enable automated insights and replace subjective methods with precise quantitative analysis. However, their efficacy depends on representative annotated datasets, which are challenging to obtain due to the costly imaging of nanoparticles and the labor-intensive nature of manual annotations. To overcome these limitations, we introduce DiffRenderGAN, a novel generative model designed to produce annotated synthetic data. By integrating a differentiable renderer into a Generative Adversarial Network (GAN) framework, DiffRenderGAN optimizes textural rendering parameters to generate realistic, annotated nanoparticle images from non-annotated real microscopy images. This approach reduces the need for manual intervention and enhances segmentation performance compared to existing synthetic data methods by generating diverse and realistic data. Tested on multiple ion and electron microscopy cases, including titanium dioxide (TiO$_2$), silicon dioxide (SiO$_2$)), and silver nanowires (AgNW), DiffRenderGAN bridges the gap between synthetic and real data, advancing the quantification and understanding of complex nanomaterial systems.

arxiv情報

著者 Dennis Possart,Leonid Mill,Florian Vollnhals,Tor Hildebrand,Peter Suter,Mathis Hoffmann,Jonas Utz,Daniel Augsburger,Mareike Thies,Mingxuan Wu,Fabian Wagner,George Sarau,Silke Christiansen,Katharina Breininger
発行日 2025-02-13 16:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.CV, cs.LG | DiffRenderGAN: Addressing Training Data Scarcity in Deep Segmentation Networks for Quantitative Nanomaterial Analysis through Differentiable Rendering and Generative Modelling はコメントを受け付けていません

Standardisation of Convex Ultrasound Data Through Geometric Analysis and Augmentation

要約

ヘルスケアでの超音波の適用により、多様性と重要性が向上しています。
他の医療イメージングのモダリティとは異なり、特にデータ駆動型アルゴリズムを備えたアプリケーションの場合、超音波研究開発は歴史的に遅れてきました。
超音波の重要な問題は、利用可能なさまざまなマシンの数とパラメーター設定の組み合わせの可能性があるため、画像の極端な変動性です。
これの1つの結果は、標準化されたベンチマークの超音波データセットの欠如です。
この記事で提案されている方法は、この混乱の問題を軽減するためのアプローチです。
この目的のために、超音波データスパースの問題が調べられ、新しい視点、アプローチ、および解決策が提案されています。
画像内の基礎となる超音波面の抽出を含み、環状のジオメトリを使用して表現します。
この方法論の適用が提案されています。これは、スキャンラインの抽出と凸面の線形化です。
提案された方法の堅牢性の検証は、プライベートデータとパブリックデータの両方で実行されます。
推定された環状パラメーターを使用した変形の影響と増強性の反転性も研究されています。
キーワード:超音波、環状セクター、増強、線形化。

要約(オリジナル)

The application of ultrasound in healthcare has seen increased diversity and importance. Unlike other medical imaging modalities, ultrasound research and development has historically lagged, particularly in the case of applications with data-driven algorithms. A significant issue with ultrasound is the extreme variability of the images, due to the number of different machines available and the possible combination of parameter settings. One outcome of this is the lack of standardised and benchmarking ultrasound datasets. The method proposed in this article is an approach to alleviating this issue of disorganisation. For this purpose, the issue of ultrasound data sparsity is examined and a novel perspective, approach, and solution is proposed; involving the extraction of the underlying ultrasound plane within the image and representing it using annulus sector geometry. An application of this methodology is proposed, which is the extraction of scan lines and the linearisation of convex planes. Validation of the robustness of the proposed method is performed on both private and public data. The impact of deformation and the invertibility of augmentation using the estimated annulus sector parameters is also studied. Keywords: Ultrasound, Annulus Sector, Augmentation, Linearisation.

arxiv情報

著者 Alistair Weld,Giovanni Faoro,Luke Dixon,Sophie Camp,Arianna Menciassi,Stamatia Giannarou
発行日 2025-02-13 16:45:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Standardisation of Convex Ultrasound Data Through Geometric Analysis and Augmentation はコメントを受け付けていません

Prior-Constrained Association Learning for Fine-Grained Generalized Category Discovery

要約

このホワイトペーパーでは、一般化されたカテゴリ発見(GCD)に対処します。これは、既知の各カテゴリからのラベル付きインスタンスの助けを借りて、潜在的に既知または未知のカテゴリからクラスタリングされていないデータをクラスタリングするタスクです。
従来の半教師の学習と比較して、GCDはラベル付きデータに表示されない新しいカテゴリからのものである可能性があるため、GCDはより困難です。
現在の最先端の方法は、通常、自己抵抗によって支援されたパラメトリック分類器を学習します。
効果的であるが、これらの方法では、表現学習とカテゴリの発見に不可欠なクラス固有のセマンティクスを発見するために、クロスインスタンスの類似性を使用していません。
この論文では、協会ベースのパラダイムを再訪し、データ内のセマンティックリレーションをキャプチャして学習するための以前の制約のある関連学習方法を提案します。
特に、既知のカテゴリからのラベル付きデータは、非標識データの関連付けに一意の事前を提供します。
事前のクラスタリング後の洗練としてのみを採用する以前の方法とは異なり、我々は前のプロセスに完全に組み込まれ、信頼できるグループ化の結果に関連性を制約させます。
推定されたセマンティックグループは、ノンパラメトリックプロトタイプのコントラストを通じて利用され、表現学習を強化します。
パラメトリック分類とノンパラメトリック分類の両方のさらなる組み合わせは、互いに補完され、既存の方法を大幅に上回るモデルにつながります。
複数のGCDベンチマークでは、広範な実験を実行し、提案された方法の有効性を検証します。

要約(オリジナル)

This paper addresses generalized category discovery (GCD), the task of clustering unlabeled data from potentially known or unknown categories with the help of labeled instances from each known category. Compared to traditional semi-supervised learning, GCD is more challenging because unlabeled data could be from novel categories not appearing in labeled data. Current state-of-the-art methods typically learn a parametric classifier assisted by self-distillation. While being effective, these methods do not make use of cross-instance similarity to discover class-specific semantics which are essential for representation learning and category discovery. In this paper, we revisit the association-based paradigm and propose a Prior-constrained Association Learning method to capture and learn the semantic relations within data. In particular, the labeled data from known categories provides a unique prior for the association of unlabeled data. Unlike previous methods that only adopts the prior as a pre or post-clustering refinement, we fully incorporate the prior into the association process, and let it constrain the association towards a reliable grouping outcome. The estimated semantic groups are utilized through non-parametric prototypical contrast to enhance the representation learning. A further combination of both parametric and non-parametric classification complements each other and leads to a model that outperforms existing methods by a significant margin. On multiple GCD benchmarks, we perform extensive experiments and validate the effectiveness of our proposed method.

arxiv情報

著者 Menglin Wang,Zhun Zhong,Xiaojin Gong
発行日 2025-02-13 17:13:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Prior-Constrained Association Learning for Fine-Grained Generalized Category Discovery はコメントを受け付けていません

When and How Does CLIP Enable Domain and Compositional Generalization?

要約

クリップのような対照的なビジョン言語モデルの顕著な一般化パフォーマンスは、多くの場合、トレーニング分布の多様性に起因します。
ただし、重要な質問は未回答のままです。ドメインの多様な混合物(ドメイン一般化)で訓練された場合、クリップは完全に見えないドメインに一般化できますか?
部分的に見られたドメイン内の目に見えないクラス(構成一般化)に一般化できますか?
そのような一般化に影響する要因は何ですか?
これらの質問に答えるために、制御されたドメインの多様性とオブジェクトクラスの露出を備えた体系的に構築されたトレーニング分布のクリップモデルをトレーニングしました。
私たちの実験は、ドメインの多様性がドメインと構成の一般化の両方に不可欠であることを示していますが、トレーニング分布にテストドメインの準最適なサブセットが含まれている場合、組成の一般化はドメイン一般化よりも驚くほど弱くなる可能性があります。
データ中心および機械的分析を通じて、一般化が成功するには、中間層と共有回路ですでに共有表現を学習する必要があることがわかります。

要約(オリジナル)

The remarkable generalization performance of contrastive vision-language models like CLIP is often attributed to the diversity of their training distributions. However, key questions remain unanswered: Can CLIP generalize to an entirely unseen domain when trained on a diverse mixture of domains (domain generalization)? Can it generalize to unseen classes within partially seen domains (compositional generalization)? What factors affect such generalization? To answer these questions, we trained CLIP models on systematically constructed training distributions with controlled domain diversity and object class exposure. Our experiments show that domain diversity is essential for both domain and compositional generalization, yet compositional generalization can be surprisingly weaker than domain generalization when the training distribution contains a suboptimal subset of the test domain. Through data-centric and mechanistic analyses, we find that successful generalization requires learning of shared representations already in intermediate layers and shared circuitry.

arxiv情報

著者 Elias Kempf,Simon Schrodi,Max Argus,Thomas Brox
発行日 2025-02-13 17:21:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | When and How Does CLIP Enable Domain and Compositional Generalization? はコメントを受け付けていません

SQ-GAN: Semantic Image Communications Using Masked Vector Quantization

要約

この作業では、セマンティック/タスク指向の通信の画像圧縮を最適化する生成モデルを統合する新しいアプローチである、セマンティックマスクされたVQ-Gan(SQ-Gan)を紹介します。
SQ-Ganは、既製のセマンティックセマンティックセグメンテーションと、特別に開発された新しいセマンティックコンディショニング済み適応マスクモジュール(SAMM)を使用して、画像の意味的に重要な機能を選択的にエンコードします。
SQ-Ganは、ピクセルあたりビットで発現する極端な低圧縮速度で、知覚品質とセマンティックセグメンテーションの再構築画像の知覚品質とセマンティックセグメンテーションの精度を含む、複数のメトリック全体でJPEG2000やBPGなどの最先端の画像圧縮スキームを上回ります。

要約(オリジナル)

This work introduces Semantically Masked VQ-GAN (SQ-GAN), a novel approach integrating generative models to optimize image compression for semantic/task-oriented communications. SQ-GAN employs off-the-shelf semantic semantic segmentation and a new specifically developed semantic-conditioned adaptive mask module (SAMM) to selectively encode semantically significant features of the images. SQ-GAN outperforms state-of-the-art image compression schemes such as JPEG2000 and BPG across multiple metrics, including perceptual quality and semantic segmentation accuracy on the post-decoding reconstructed image, at extreme low compression rates expressed in bits per pixel.

arxiv情報

著者 Francesco Pezone,Sergio Barbarossa,Giuseppe Caire
発行日 2025-02-13 17:35:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | SQ-GAN: Semantic Image Communications Using Masked Vector Quantization はコメントを受け付けていません