Taming the Randomness: Towards Label-Preserving Cropping in Contrastive Learning

要約

対照学習(CL)アプローチは、自己教師学習(SSL)方法の非常に成功したサブセットとして大きな認識を得ています。
SSLは、非標識データ、特にコンピュータービジョン(CV)の進歩における重要なステップである、無効な画像データを考えると、深い学習の進歩における重要なステップである、学習を可能にします。
CLは、同じ画像の異なるランダム増強(例:異なる作物)を比較することで機能し、したがって自己研究を達成します。
それにもかかわらず、ランダムに画像を拡張し、特にランダムなトリミングでは、オリジナルから意味的に非常に離れた画像につながるため、メソッドの有効性を損なう可能性があります。
この研究では、自己研究の堅牢性を高め、その結果、有効性を高める2つの新しいパラメーター化された作物方法が導入されています。
結果は、これらの方法を使用すると、ノンパラメーター化されたランダム作物方法と比較して、作物のサイズに応じて、CIFAR-10を分類するという下流タスクで、モデルの精度が2.7 \%から12.4 \%の間で大幅に向上することを示しています。

要約(オリジナル)

Contrastive learning (CL) approaches have gained great recognition as a very successful subset of self-supervised learning (SSL) methods. SSL enables learning from unlabeled data, a crucial step in the advancement of deep learning, particularly in computer vision (CV), given the plethora of unlabeled image data. CL works by comparing different random augmentations (e.g., different crops) of the same image, thus achieving self-labeling. Nevertheless, randomly augmenting images and especially random cropping can result in an image that is semantically very distant from the original and therefore leads to false labeling, hence undermining the efficacy of the methods. In this research, two novel parameterized cropping methods are introduced that increase the robustness of self-labeling and consequently increase the efficacy. The results show that the use of these methods significantly improves the accuracy of the model by between 2.7\% and 12.4\% on the downstream task of classifying CIFAR-10, depending on the crop size compared to that of the non-parameterized random cropping method.

arxiv情報

著者 Mohamed Hassan,Mohammad Wasil,Sebastian Houben
発行日 2025-04-28 14:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Taming the Randomness: Towards Label-Preserving Cropping in Contrastive Learning はコメントを受け付けていません

HOIGaze: Gaze Estimation During Hand-Object Interactions in Extended Reality Exploiting Eye-Hand-Head Coordination

要約

Hoigazeを提示します – 拡張現実(XR)におけるハンドオブジェクト相互作用(HOI)中の視線推定のための新しい学習ベースのアプローチ。
Hoigazeは、1つの重要な洞察に基づいて構築することにより、挑戦的なHOIの設定に対処します。目、手、および頭の動きはHOIS中に密接に調整されます。この調整は、視​​線推定器トレーニングに最も役立つサンプルを識別するために悪用されます。そのため、トレーニングデータを効果的に除去します。
この除去アプローチは、すべてのトレーニングサンプルを等しく扱った以前の視線推定方法とはまったく対照的です。
具体的には、次の提案を提案します。1)現在視覚的に視覚的に出席している手に最初に認識し、次に参加した手に基づいて視線の方向を推定する新しい階層的なフレームワーク。
2)クロスモーダル変圧器を使用して、畳み込みニューラルネットワークと空間的グラフ畳み込みネットワークを使用して抽出されたヘッドとハンドオブジェクトの特徴を融合する新しい視線推定器。
3)調整された眼の動きに属するトレーニングサンプルをアップグレードする新しい眼の頭の協調喪失。
Hot3DおよびAria Digital Twin(ADT)データセットでHoigazeを評価し、最先端の方法を大幅に上回り、平均角度誤差でHOT3Dで15.6%、ADTで6.0%の平均改善を達成することを示しています。
私たちの方法の可能性を実証するために、ADTでの眼に基づく活動認識のサンプル下流タスクの大幅なパフォーマンスの改善をさらに報告します。
まとめると、我々の結果は、目のハンドヘッドの調整で利用可能な重要な情報コンテンツを強調し、そのため、学習ベースの視線の推定のためのエキサイティングな新しい方向性を開きます。

要約(オリジナル)

We present HOIGaze – a novel learning-based approach for gaze estimation during hand-object interactions (HOI) in extended reality (XR). HOIGaze addresses the challenging HOI setting by building on one key insight: The eye, hand, and head movements are closely coordinated during HOIs and this coordination can be exploited to identify samples that are most useful for gaze estimator training – as such, effectively denoising the training data. This denoising approach is in stark contrast to previous gaze estimation methods that treated all training samples as equal. Specifically, we propose: 1) a novel hierarchical framework that first recognises the hand currently visually attended to and then estimates gaze direction based on the attended hand; 2) a new gaze estimator that uses cross-modal Transformers to fuse head and hand-object features extracted using a convolutional neural network and a spatio-temporal graph convolutional network; and 3) a novel eye-head coordination loss that upgrades training samples belonging to the coordinated eye-head movements. We evaluate HOIGaze on the HOT3D and Aria digital twin (ADT) datasets and show that it significantly outperforms state-of-the-art methods, achieving an average improvement of 15.6% on HOT3D and 6.0% on ADT in mean angular error. To demonstrate the potential of our method, we further report significant performance improvements for the sample downstream task of eye-based activity recognition on ADT. Taken together, our results underline the significant information content available in eye-hand-head coordination and, as such, open up an exciting new direction for learning-based gaze estimation.

arxiv情報

著者 Zhiming Hu,Daniel Haeufle,Syn Schmitt,Andreas Bulling
発行日 2025-04-28 14:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HOIGaze: Gaze Estimation During Hand-Object Interactions in Extended Reality Exploiting Eye-Hand-Head Coordination はコメントを受け付けていません

AnimateAnywhere: Rouse the Background in Human Image Animation

要約

Human Image Animationは、目的のポーズシーケンスを順守する、与えられたキャラクターと背景の人間のビデオを生成することを目的としています。
ただし、既存の方法は、背景の生成を無視しながら、人間の行動により焦点を当てており、通常は静的な結果や不気味な動きにつながります。
コミュニティは、カメラのポーズガイド付きアニメーションタスクを調査しましたが、カメラの軌道を準備することは、ほとんどのエンターテイメントアプリケーションや通常のユーザーにとっては実用的ではありません。
治療として、カメラの軌跡に要件なしに人間のイメージアニメーションの背景を盛り上げ、Animateanywhere Frameworkを提示します。
特に、人体の動きはしばしば背景の動きを反映するという重要な洞察に基づいて、人間のポーズシーケンスから背景の動きを学ぶために、背景モーション学習者(BML)を導入します。
モデルがより正確なクロスフレームの対応を学ぶように促すために、3D注意マップにエピポーラの制約をさらに展開します。
具体的には、幾何学的に不合理な注意を抑制するために使用されるマスクは、エピポラーマスクと現在の3D注意マップを組み合わせることにより慎重に構築されます。
広範な実験は、私たちのアニマティニーが人間のポーズシーケンスからのバックグラウンドモーションを効果的に学習し、鮮明で現実的な背景を持つ人間のアニメーション結果を生成する上で最先端のパフォーマンスを達成することを示しています。
ソースコードとモデルは、https://github.com/niuxiaoyu1104/animateany whereで入手できます。

要約(オリジナル)

Human image animation aims to generate human videos of given characters and backgrounds that adhere to the desired pose sequence. However, existing methods focus more on human actions while neglecting the generation of background, which typically leads to static results or inharmonious movements. The community has explored camera pose-guided animation tasks, yet preparing the camera trajectory is impractical for most entertainment applications and ordinary users. As a remedy, we present an AnimateAnywhere framework, rousing the background in human image animation without requirements on camera trajectories. In particular, based on our key insight that the movement of the human body often reflects the motion of the background, we introduce a background motion learner (BML) to learn background motions from human pose sequences. To encourage the model to learn more accurate cross-frame correspondences, we further deploy an epipolar constraint on the 3D attention map. Specifically, the mask used to suppress geometrically unreasonable attention is carefully constructed by combining an epipolar mask and the current 3D attention map. Extensive experiments demonstrate that our AnimateAnywhere effectively learns the background motion from human pose sequences, achieving state-of-the-art performance in generating human animation results with vivid and realistic backgrounds. The source code and model will be available at https://github.com/liuxiaoyu1104/AnimateAnywhere.

arxiv情報

著者 Xiaoyu Liu,Mingshuai Yao,Yabo Zhang,Xianhui Lin,Peiran Ren,Xiaoming Li,Ming Liu,Wangmeng Zuo
発行日 2025-04-28 14:35:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AnimateAnywhere: Rouse the Background in Human Image Animation はコメントを受け付けていません

SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation

要約

ロングテールの問題は、超高解像度(UHR)衛星画像におけるセマンティックセグメンテーションの進歩に対する重要な課題です。
UHRセマンティックセグメンテーションの以前の取り組みは、マルチスケールの特徴の抽出と融合を強調するマルチブランチネットワークアーキテクチャに大きく焦点を当てていますが、長期尾の問題に対処することの重要性を見落としていることがよくあります。
独立した特徴抽出に焦点を当てた以前のUHRメソッドとは対照的に、データの増強とマルチモーダル機能の融合を強調して、長期尾の問題を軽減します。
この論文では、UHR衛星画像のセマンティックセグメンテーションの新しいフレームワークであるSRMFを紹介します。
私たちのアプローチでは、セマンティックな並べ替えと再サンプリングに基づいたデータ増強戦略とともに、マルチスケールの作物技術を組み込むことにより、ロングテールクラスの分布に対処します。
モデルのパフォーマンスをさらに向上させるために、マルチモーダル融合ベースの一般的な表現知識インジェクションメソッドを提案します。これは、個々の地域のテキストの説明を必要とせずにテキストと視覚機能を初めて融合させ、より堅牢な機能を抽出します。
URUR、GID、およびFBPデータセットに関する広範な実験は、それぞれの方法が3.33 \%、0.66 \%、および0.98 \%をそれぞれ改善し、最先端のパフォーマンスを達成することを示しています。
コードは、https://github.com/binspa/srmf.gitで入手できます。

要約(オリジナル)

The long-tail problem presents a significant challenge to the advancement of semantic segmentation in ultra-high-resolution (UHR) satellite imagery. While previous efforts in UHR semantic segmentation have largely focused on multi-branch network architectures that emphasize multi-scale feature extraction and fusion, they have often overlooked the importance of addressing the long-tail issue. In contrast to prior UHR methods that focused on independent feature extraction, we emphasize data augmentation and multimodal feature fusion to alleviate the long-tail problem. In this paper, we introduce SRMF, a novel framework for semantic segmentation in UHR satellite imagery. Our approach addresses the long-tail class distribution by incorporating a multi-scale cropping technique alongside a data augmentation strategy based on semantic reordering and resampling. To further enhance model performance, we propose a multimodal fusion-based general representation knowledge injection method, which, for the first time, fuses text and visual features without the need for individual region text descriptions, extracting more robust features. Extensive experiments on the URUR, GID, and FBP datasets demonstrate that our method improves mIoU by 3.33\%, 0.66\%, and 0.98\%, respectively, achieving state-of-the-art performance. Code is available at: https://github.com/BinSpa/SRMF.git.

arxiv情報

著者 Yulong Guo,Zilun Zhang,Yongheng Shang,Tiancheng Zhao,Shuiguang Deng,Yingchun Yang,Jianwei Yin
発行日 2025-04-28 14:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation はコメントを受け付けていません

Foundation Model-Driven Framework for Human-Object Interaction Prediction with Segmentation Mask Integration

要約

この作業では、セグメンテーションベースのビジョンファンデーションモデルと従来の検出ベースのヒューマンオブジェクトインターション(HOI)メソッドと区別される、セグメンテーションベースのビジョンファンデーションモデルとヒトオブジェクト相互作用タスクを統合する新しいフレームワークである、ヒトとオブジェクトの相互作用(\ textIT {\ textbf {seg2hoi}})アプローチにセグメンテーションを紹介します。
私たちのアプローチは、標準的なトリプレットを予測するだけでなく、ヒトオブジェクトのペアにセグメンテーションマスクを含めることでHOIトリプレットを拡張するQuadrupletを導入することにより、HOIの検出を強化します。
より具体的には、SEG2HOIはVision Foundationモデルの特性(迅速なインタラクティブメカニズムなど)を継承し、これらの属性をHOIタスクに適用するデコーダーを組み込みます。
HOIのみのトレーニングにもかかわらず、これらのプロパティの追加トレーニングメカニズムがない場合、このフレームワークは、そのような機能がまだ効率的に動作していることを示しています。
2つのパブリックベンチマークデータセットでの広範な実験は、SEG2HOIがゼロショットシナリオであっても、最先端の方法に匹敵するパフォーマンスを達成することを示しています。
最後に、SEG2HOIは、トレーニング中に使用されていない新しいテキストと視覚的なプロンプトからHOI QuadrupletsとインタラクティブなHOIセグメンテーションを生成できることを提案し、この柔軟性を活用することで幅広いアプリケーションに汎用性があります。

要約(オリジナル)

In this work, we introduce Segmentation to Human-Object Interaction (\textit{\textbf{Seg2HOI}}) approach, a novel framework that integrates segmentation-based vision foundation models with the human-object interaction task, distinguished from traditional detection-based Human-Object Interaction (HOI) methods. Our approach enhances HOI detection by not only predicting the standard triplets but also introducing quadruplets, which extend HOI triplets by including segmentation masks for human-object pairs. More specifically, Seg2HOI inherits the properties of the vision foundation model (e.g., promptable and interactive mechanisms) and incorporates a decoder that applies these attributes to HOI task. Despite training only for HOI, without additional training mechanisms for these properties, the framework demonstrates that such features still operate efficiently. Extensive experiments on two public benchmark datasets demonstrate that Seg2HOI achieves performance comparable to state-of-the-art methods, even in zero-shot scenarios. Lastly, we propose that Seg2HOI can generate HOI quadruplets and interactive HOI segmentation from novel text and visual prompts that were not used during training, making it versatile for a wide range of applications by leveraging this flexibility.

arxiv情報

著者 Juhan Park,Kyungjae Lee,Hyung Jin Chang,Jungchan Cho
発行日 2025-04-28 14:45:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Foundation Model-Driven Framework for Human-Object Interaction Prediction with Segmentation Mask Integration はコメントを受け付けていません

DD-rPPGNet: De-interfering and Descriptive Feature Learning for Unsupervised rPPG Estimation

要約

リモートフォトプレチスモグラフィ(RPPG)は、フェイシャルビデオの生理学的信号と心拍数(HR)を測定することを目的としています。
最近の監視されていないRPPG推定方法は、グラウンドトゥルースRPPG信号に依存することなく、顔面地域からのRPPGシグナルを推定する際に有望な可能性を示しています。
ただし、これらの方法は、RPPG信号に存在する干渉を忘れているように思われ、それでも不十分なパフォーマンスをもたらします。
このホワイトペーパーでは、本物のRPPG信号を学習するためのRPPG機能内の干渉を排除するために、新規外転型RPPG推定ネットワーク(DD-RPPGNET)を提案します。
最初に、干渉を推定するために監視されていない新しいモデルの干渉と設計のローカル空間的類似性の特性を調査します。
次に、2つの段階で本物のRPPG信号を学習するために、監視されていない非挿入方法を提案します。
最初の段階では、トレーニングデータとそれらの増強されたカウンターパートの両方から対照的な学習により、初期のRPPG信号を推定します。
第2段階では、推定された干渉機能を使用して、透過されていないRPPG機能を導き出し、RPPG信号を干渉とは異なることを奨励します。
さらに、RPPG推定を強化するための微妙なクロミナンスの変化をキャプチャするために、強力な3D学習可能な記述畳み込み(3DLDC)を開発することにより、効果的な記述RPPG機能学習を提案します。
5つのRPPGベンチマークデータセットで実施された広範な実験は、提案されたDD-RPPGNETが以前の監視されていないRPPG推定方法を上回り、最先端の監視されたRPPG方法で競争力のあるパフォーマンスを達成することを示しています。
このコードは、https://github.com/pei-kaihuang/tifs2025-dd-rppgnetで入手できます

要約(オリジナル)

Remote Photoplethysmography (rPPG) aims to measure physiological signals and Heart Rate (HR) from facial videos. Recent unsupervised rPPG estimation methods have shown promising potential in estimating rPPG signals from facial regions without relying on ground truth rPPG signals. However, these methods seem oblivious to interference existing in rPPG signals and still result in unsatisfactory performance. In this paper, we propose a novel De-interfered and Descriptive rPPG Estimation Network (DD-rPPGNet) to eliminate the interference within rPPG features for learning genuine rPPG signals. First, we investigate the characteristics of local spatial-temporal similarities of interference and design a novel unsupervised model to estimate the interference. Next, we propose an unsupervised de-interfered method to learn genuine rPPG signals with two stages. In the first stage, we estimate the initial rPPG signals by contrastive learning from both the training data and their augmented counterparts. In the second stage, we use the estimated interference features to derive de-interfered rPPG features and encourage the rPPG signals to be distinct from the interference. In addition, we propose an effective descriptive rPPG feature learning by developing a strong 3D Learnable Descriptive Convolution (3DLDC) to capture the subtle chrominance changes for enhancing rPPG estimation. Extensive experiments conducted on five rPPG benchmark datasets demonstrate that the proposed DD-rPPGNet outperforms previous unsupervised rPPG estimation methods and achieves competitive performances with state-of-the-art supervised rPPG methods. The code is available at: https://github.com/Pei-KaiHuang/TIFS2025-DD-rPPGNet

arxiv情報

著者 Pei-Kai Huang,Tzu-Hsien Chen,Ya-Ting Chan,Kuan-Wen Chen,Chiou-Ting Hsu
発行日 2025-04-28 14:45:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DD-rPPGNet: De-interfering and Descriptive Feature Learning for Unsupervised rPPG Estimation はコメントを受け付けていません

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

要約

既存の視覚言語アクション(VLA)モデルは、ゼロショットシナリオで有望なパフォーマンスを示しており、印象的なタスクの実行と推論機能を実証しています。
ただし、視覚エンコードの制限から大きな課題が生じ、オブジェクトの把握などのタスク中に障害をもたらす可能性があります。
さらに、これらのモデルは通常、大きなサイズが大きいため、高い計算オーバーヘッドに悩まされ、多くの場合7Bパラメーターを超えています。
これらのモデルは推論とタスクの計画に優れていますが、彼らが発生する実質的な計算オーバーヘッドは、速度と効率が最重要であるリアルタイムのロボット環境では非現実的になります。
既存のVLAモデルの制限に対処するために、強力なタスクパフォ​​ーマンスを維持しながら計算オーバーヘッドを減らすように設計された3BパラメーターモデルであるNoraを提案します。
Noraは、QWEN-2.5-VL-3Bマルチモーダルモデルをバックボーンとして採用し、視覚的な推論とアクションの接地を強化するために優れた視覚セマンチックな理解を活用しています。
さらに、\ Model {}は970kの実世界のロボットデモンストレーションでトレーニングされ、効率的なアクションシーケンス生成のために高速+トークン剤を装備しています。
実験結果は、Noraが既存の大規模なVLAモデルよりも優れており、計算オーバーヘッドが大幅に減少し、リアルタイムのロボット自律性のためのより実用的なソリューションになるため、タスクのパフォーマンスを向上させることを示しています。

要約(オリジナル)

Existing Visual-Language-Action (VLA) models have shown promising performance in zero-shot scenarios, demonstrating impressive task execution and reasoning capabilities. However, a significant challenge arises from the limitations of visual encoding, which can result in failures during tasks such as object grasping. Moreover, these models typically suffer from high computational overhead due to their large sizes, often exceeding 7B parameters. While these models excel in reasoning and task planning, the substantial computational overhead they incur makes them impractical for real-time robotic environments, where speed and efficiency are paramount. To address the limitations of existing VLA models, we propose NORA, a 3B-parameter model designed to reduce computational overhead while maintaining strong task performance. NORA adopts the Qwen-2.5-VL-3B multimodal model as its backbone, leveraging its superior visual-semantic understanding to enhance visual reasoning and action grounding. Additionally, our \model{} is trained on 970k real-world robot demonstrations and equipped with the FAST+ tokenizer for efficient action sequence generation. Experimental results demonstrate that NORA outperforms existing large-scale VLA models, achieving better task performance with significantly reduced computational overhead, making it a more practical solution for real-time robotic autonomy.

arxiv情報

著者 Chia-Yu Hung,Qi Sun,Pengfei Hong,Amir Zadeh,Chuan Li,U-Xuan Tan,Navonil Majumder,Soujanya Poria
発行日 2025-04-28 14:47:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks はコメントを受け付けていません

CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback

要約

スコア蒸留サンプリング(SDS)は、テキストから3Dのコンテンツ生成で顕著な成功を収めています。
ただし、SDSベースの方法は、特に複雑な相互作用を持つ複数のオブジェクトを含む場合、ユーザープロンプトのセマンティックフィデリティを維持するのに苦労しています。
既存のアプローチは、多くの場合、3Dデータセットでのマルチビュー拡散モデルの微調整を介した3D一貫性に対処しますが、この戦略はテキスト3Dアライメント劣化を誤って悪化させます。
この制限は、最適化中のSDSの視野非依存バイアスの固有の蓄積に由来し、理想的なテキストアライメント方向から徐々に分岐します。
この制限を緩和するために、マルチモーダルラージランゲージモデル(MLLM)からのアライメントフィードバックを統合するテキストコヒーレントスコア蒸留(TCSD)と呼ばれる新しいSDS目標を提案します。
TCSDは、MLLMのクロスモーダル理解機能を活用して、最適化中のテキスト3D対応を評価およびガイドします。
さらに、3DLLAVA-Critic-3D世代のマルチビューテキストアライメントを評価するために特化した微調整されたMLLMを開発します。
さらに、セマンティック認識の空間構成を介して最適化の収束を大幅に加速するLLM-Layout初期化を導入します。
包括的な評価は、T $^3 $ベンチやTIFAサブセットなど、複数のベンチマークにわたって、テキストに合わせた3D生成の最先端のパフォーマンスを確立していることを示しています。
定性的な結果は、テキストの一貫性とセマンティックの相互作用を維持する際に、コヘンドリームの優れたパフォーマンスを示しています。
MLLMをSDS最適化に組み込む最初の研究として、3D世代タスクの最適なMLLM適応を調査するために広範なアブレーション研究も実施します。

要約(オリジナル)

Score Distillation Sampling (SDS) has achieved remarkable success in text-to-3D content generation. However, SDS-based methods struggle to maintain semantic fidelity for user prompts, particularly when involving multiple objects with intricate interactions. While existing approaches often address 3D consistency through multiview diffusion model fine-tuning on 3D datasets, this strategy inadvertently exacerbates text-3D alignment degradation. The limitation stems from SDS’s inherent accumulation of view-independent biases during optimization, which progressively diverges from the ideal text alignment direction. To alleviate this limitation, we propose a novel SDS objective, dubbed as Textual Coherent Score Distillation (TCSD), which integrates alignment feedback from multimodal large language models (MLLMs). Our TCSD leverages cross-modal understanding capabilities of MLLMs to assess and guide the text-3D correspondence during the optimization. We further develop 3DLLaVA-CRITIC – a fine-tuned MLLM specialized for evaluating multiview text alignment in 3D generations. Additionally, we introduce an LLM-layout initialization that significantly accelerates optimization convergence through semantic-aware spatial configuration. Comprehensive evaluations demonstrate that our framework, CoherenDream, establishes state-of-the-art performance in text-aligned 3D generation across multiple benchmarks, including T$^3$Bench and TIFA subset. Qualitative results showcase the superior performance of CoherenDream in preserving textual consistency and semantic interactions. As the first study to incorporate MLLMs into SDS optimization, we also conduct extensive ablation studies to explore optimal MLLM adaptations for 3D generation tasks.

arxiv情報

著者 Chenhan Jiang,Yihan Zeng,Hang Xu,Dit-Yan Yeung
発行日 2025-04-28 14:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback はコメントを受け付けていません

Towards Ball Spin and Trajectory Analysis in Table Tennis Broadcast Videos via Physically Grounded Synthetic-to-Real Transfer

要約

卓球のプレーヤーのテクニックを分析するには、ボールの3D軌道とスピンに関する知識が必要です。
スピンは標準の放送ビデオでは直接観察できませんが、ビデオのボールの軌跡から推測できることを示します。
ビデオの対応する2D軌道からの初期スピンと3D軌道を推測する新しい方法を提示します。
ブロードキャストビデオのグラウンドトゥルースラベルがなければ、合成データのみでニューラルネットワークを訓練します。
入力データ表現の選択、物理的に合成トレーニングデータを正しく修正し、ターゲットの増強を使用して、ネットワークは自然に実際のデータに一般化します。
特に、これらの単純な手法は、一般化を達成するのに十分です。
トレーニングには実際のデータはまったく必要ありません。
私たちの知る限り、私たちは単純な単眼放送ビデオでスピンと軌道の予測の方法を提示した最初のものであり、スピン分類で92.0%の精度と画像の対角線の0.19%の2D再注入誤差を達成します。

要約(オリジナル)

Analyzing a player’s technique in table tennis requires knowledge of the ball’s 3D trajectory and spin. While, the spin is not directly observable in standard broadcasting videos, we show that it can be inferred from the ball’s trajectory in the video. We present a novel method to infer the initial spin and 3D trajectory from the corresponding 2D trajectory in a video. Without ground truth labels for broadcast videos, we train a neural network solely on synthetic data. Due to the choice of our input data representation, physically correct synthetic training data, and using targeted augmentations, the network naturally generalizes to real data. Notably, these simple techniques are sufficient to achieve generalization. No real data at all is required for training. To the best of our knowledge, we are the first to present a method for spin and trajectory prediction in simple monocular broadcast videos, achieving an accuracy of 92.0% in spin classification and a 2D reprojection error of 0.19% of the image diagonal.

arxiv情報

著者 Daniel Kienzle,Robin Schön,Rainer Lienhart,Shin’Ichi Satoh
発行日 2025-04-28 14:55:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Towards Ball Spin and Trajectory Analysis in Table Tennis Broadcast Videos via Physically Grounded Synthetic-to-Real Transfer はコメントを受け付けていません

Multi-Scale Grouped Prototypes for Interpretable Semantic Segmentation

要約

プロトタイプのパーツ学習は、セマンティックセグメンテーションを解釈可能にするための有望なアプローチとして浮上しています。
このモデルは、トレーニング中にプロトタイプとして見られる実際のパッチを選択し、テスト画像の一部とプロトタイプの類似性に基づいて密な予測マップを構築します。
これにより、ユーザーはプロトタイプ情報の観点からモデルによって学習したパターンとの間のリンクを検査できるため、解釈可能性が向上します。
この論文では、プロトタイプのパーツ学習のためにマルチスケールの画像表現を活用する解釈可能なセマンティックセグメンテーションの方法を提案します。
まず、いくつかのスケールで多様なプロトタイプパーツを明示的に学習し、プロトタイプの活性化出力のマルチスケール表現につながるプロトタイプ層を​​導入します。
次に、これらのスケール固有のプロトタイプパーツのマルチスケールスパースグループを生成するまばらなグループ化メカニズムを提案します。
これにより、セグメンテーションモデルの解釈可能性を高めながら、マルチスケールオブジェクト表現間の相互作用をより深く理解できます。
Pascal VOC、Cityscapes、およびADE20Kで実施された実験は、提案された方法がモデルのスパース性を増加させ、既存のプロトタイプベースの方法で解釈可能性を向上させ、解釈不可能な対応モデルでパフォーマンスギャップを狭めることを示しています。
コードはgithub.com/eceo-epfl/scaleprotosegで入手できます。

要約(オリジナル)

Prototypical part learning is emerging as a promising approach for making semantic segmentation interpretable. The model selects real patches seen during training as prototypes and constructs the dense prediction map based on the similarity between parts of the test image and the prototypes. This improves interpretability since the user can inspect the link between the predicted output and the patterns learned by the model in terms of prototypical information. In this paper, we propose a method for interpretable semantic segmentation that leverages multi-scale image representation for prototypical part learning. First, we introduce a prototype layer that explicitly learns diverse prototypical parts at several scales, leading to multi-scale representations in the prototype activation output. Then, we propose a sparse grouping mechanism that produces multi-scale sparse groups of these scale-specific prototypical parts. This provides a deeper understanding of the interactions between multi-scale object representations while enhancing the interpretability of the segmentation model. The experiments conducted on Pascal VOC, Cityscapes, and ADE20K demonstrate that the proposed method increases model sparsity, improves interpretability over existing prototype-based methods, and narrows the performance gap with the non-interpretable counterpart models. Code is available at github.com/eceo-epfl/ScaleProtoSeg.

arxiv情報

著者 Hugo Porta,Emanuele Dalsasso,Diego Marcos,Devis Tuia
発行日 2025-04-28 14:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Multi-Scale Grouped Prototypes for Interpretable Semantic Segmentation はコメントを受け付けていません