Exploring Saliency Bias in Manipulation Detection

要約

改ざんされた画像によってサポートされている偽のニュースと誤った情報のソーシャルメディアを燃料とする爆発は、画像操作検出のためのモデルとデータセットの開発の成長につながりました。
ただし、既存の検出方法は、視聴者の知覚に対する特定の操作の影響を考慮せずに、主にメディアオブジェクトを単独で扱います。
法医学データセットは通常、操作操作と対応するピクセルベースのマスクに基づいて分析されますが、操作のセマンティクス、つまりシーン、オブジェクト、シーンコンテンツへの視聴者の注意の種類には分析されません。
操作の意味論は、操作された画像を通して誤った情報を広める上で重要な役割を果たします。
視覚的な誤った情報を理解するためのセマンティックに対応する法医学的アプローチのさらなる開発を奨励するために、人気のある画像操作データセットにおける視覚的および意味的顕著性の傾向と検出への影響を分析するためのフレームワークを提案します。

要約(オリジナル)

The social media-fuelled explosion of fake news and misinformation supported by tampered images has led to growth in the development of models and datasets for image manipulation detection. However, existing detection methods mostly treat media objects in isolation, without considering the impact of specific manipulations on viewer perception. Forensic datasets are usually analyzed based on the manipulation operations and corresponding pixel-based masks, but not on the semantics of the manipulation, i.e., type of scene, objects, and viewers’ attention to scene content. The semantics of the manipulation play an important role in spreading misinformation through manipulated images. In an attempt to encourage further development of semantic-aware forensic approaches to understand visual misinformation, we propose a framework to analyze the trends of visual and semantic saliency in popular image manipulation datasets and their impact on detection.

arxiv情報

著者 Joshua Krinsky,Alan Bettis,Qiuyu Tang,Daniel Moreira,Aparna Bharati
発行日 2025-03-28 16:53:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Exploring Saliency Bias in Manipulation Detection はコメントを受け付けていません

A Progressive Risk Formulation for Enhanced Deep Learning based Total Knee Replacement Prediction in Knee Osteoarthritis

要約

膝の変形性関節症患者のさまざまな時間の範囲内で、膝の合計置換(TKR)のニーズを予測するための深い学習モデルを開発しました。新しい能力を使用して、モデルは単一のスキャンを使用してTKR予測を実行でき、さらに以前のスキャンを利用できる場合、予測を改善するために進行性リスク定式化を活用します。
患者の各スキャンを独立して治療する従来のアプローチとは異なり、我々の方法は病気の進行性に基づいた制約を組み込んでおり、膝の複数のスキャンが利用可能な場合、予測されるTKRリスクが増加するか、時間の経過とともに安定したままであることを保証します。
これは、研究で複数のスキャンを行っている患者とのトレーニング中に進行性リスク製剤の制約を実施することによって達成されました。
変形性関節症イニシアチブ(OAI)および多施設変形性関節症の研究(ほとんど)の膝のX線写真とMRIがこの作業で使用され、1、2、および4年の期間以内にTKRを予測するように深い学習モデルが訓練されました。
デュアルモデルリスク制約アーキテクチャを利用した提案されたアプローチは、ベースラインと比較して優れたパフォーマンスを実証しました – 標準的なバイナリクロスエントロピー損失で訓練された従来のモデル。
OAIレントゲン写真テストセットで1年間のTKR予測で0.87と0.47のAUPRCを達成し、0.79のベースラインAUROCおよび0.34のAUPRCを大幅に改善しました。
最もX線撮影テストセットでは、提案されたアプローチは、1年予測で0.77のAUROCと0.25のAUPRCを達成し、0.71のベースラインAUROCおよび0.19のAUPRCを上回りました。
同様の傾向がMRIテストセットで観察されました

要約(オリジナル)

We developed deep learning models for predicting Total Knee Replacement (TKR) need within various time horizons in knee osteoarthritis patients, with a novel capability: the models can perform TKR prediction using a single scan, and furthermore when a previous scan is available, they leverage a progressive risk formulation to improve their predictions. Unlike conventional approaches that treat each scan of a patient independently, our method incorporates a constraint based on disease’s progressive nature, ensuring that predicted TKR risk either increases or remains stable over time when multiple scans of a knee are available. This was achieved by enforcing a progressive risk formulation constraint during training with patients who have more than one available scan in the studies. Knee radiographs and MRIs from the Osteoarthritis Initiative (OAI) and Multicenter Osteoarthritis Study (MOST) were used in this work and deep learning models were trained to predict TKR within 1, 2, and 4-year time periods. The proposed approach, utilizing a dual-model risk constraint architecture, demonstrated superior performance compared to baseline – conventional models trained with standard binary cross entropy loss. It achieved an AUROC of 0.87 and AUPRC of 0.47 for 1-year TKR prediction on the OAI radiograph test set, considerably improving over the baseline AUROC of 0.79 and AUPRC of 0.34. For the MOST radiograph test set, the proposed approach achieved an AUROC of 0.77 and AUPRC of 0.25 for 1-year predictions, outperforming the baseline AUROC of 0.71 and AUPRC of 0.19. Similar trends were observed in the MRI testsets

arxiv情報

著者 Haresh Rengaraj Rajamohan,Richard Kijowski,Kyunghyun Cho,Cem M. Deniz
発行日 2025-03-28 17:00:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, q-bio.QM | A Progressive Risk Formulation for Enhanced Deep Learning based Total Knee Replacement Prediction in Knee Osteoarthritis はコメントを受け付けていません

RelDenClu: A Relative Density based Biclustering Method for identifying non-linear feature relations

要約

多くの場合、特徴関係に基づいたバイカルスターを見つけるための既存のバイクラスタリングアルゴリズムは、単調性や直線性などの仮定に依存します。
いくつかのアルゴリズムは密度ベースの方法を使用することでこの問題を克服しますが、密な領域を特定するためにグローバルな基準を使用するため、多くのバイクラスターを見逃す傾向があります。
提案された方法であるReldencluは、特徴の各ペアの周辺および関節密度の局所的な変動を使用して、それらの間の関係の基礎を形成する観測のサブセットを見つけます。
次に、一般的な一連の観測セットで接続された一連の機能を見つけ、その結果、バイクラスターになります。
提案された方法論の有効性を示すために、15種類のシミュレートされたデータセットで実験が行われました。
さらに、6つの実際のデータセットに適用されています。
これらの実生活の3つのデータセットでは、提案された方法は監視されていない学習に使用されますが、他の3つの実際のデータセットでは、監視された学習の援助として使用されます。
すべてのデータセットについて、提案された方法のパフォーマンスを7つの異なる最先端のアルゴリズムのパフォーマンスと比較し、提案されたアルゴリズムはより良い結果を生成することが見られます。
提案されたアルゴリズムの有効性は、Covid-19の拡散に影響を与える可能性が高いいくつかの機能(遺伝、人口統計など)を特定するためのCovid-19データセットでの使用によっても見られます。

要約(オリジナル)

The existing biclustering algorithms for finding feature relation based biclusters often depend on assumptions like monotonicity or linearity. Though a few algorithms overcome this problem by using density-based methods, they tend to miss out many biclusters because they use global criteria for identifying dense regions. The proposed method, RelDenClu uses the local variations in marginal and joint densities for each pair of features to find the subset of observations, which forms the bases of the relation between them. It then finds the set of features connected by a common set of observations, resulting in a bicluster. To show the effectiveness of the proposed methodology, experimentation has been carried out on fifteen types of simulated datasets. Further, it has been applied to six real-life datasets. For three of these real-life datasets, the proposed method is used for unsupervised learning, while for other three real-life datasets it is used as an aid to supervised learning. For all the datasets the performance of the proposed method is compared with that of seven different state-of-the-art algorithms and the proposed algorithm is seen to produce better results. The efficacy of proposed algorithm is also seen by its use on COVID-19 dataset for identifying some features (genetic, demographics and others) that are likely to affect the spread of COVID-19.

arxiv情報

著者 Namita Jain,Susmita Ghosh,C. A. Murthy
発行日 2025-03-28 17:02:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | RelDenClu: A Relative Density based Biclustering Method for identifying non-linear feature relations はコメントを受け付けていません

Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model

要約

最近、マルチビューまたは4Dビデオ生成が重要な研究トピックとして浮上しています。
それにもかかわらず、4D世代への最近のアプローチは、追加のトレーニングを備えた複数のビデオ拡散モデルを利用して、限られた現実世界4Dデータと大きな計算コストを備えた完全な4D拡散モデルの計算集約型トレーニングで主に依存しているため、根本的な制限と依然として格付けに苦しんでいます。
これらの課題に対処するために、ここでは、既製のビデオ拡散モデルを活用して、単一の入力ビデオからマルチビュービデオを生成する最初のトレーニングなしの4Dビデオ生成方法を提案します。
私たちのアプローチは、2つの重要な手順で構成されています。(1)空間的サンプリンググリッドのエッジフレームをキーフレームとして指定することにより、最初にビデオ拡散モデルを使用してそれらを合成し、ガイダンスのために深さベースのワーピング技術を活用します。
このアプローチにより、生成されたフレーム全体で構造的な一貫性が保証され、空間的および時間的一貫性が保存されます。
(2)次に、ビデオ拡散モデルを使用して残りのフレームを補間し、空間的および時間的な一貫性を保存しながら、完全に人口のかつ時間的に一貫性のあるサンプリンググリッドを構築します。
このアプローチを通じて、単一のビデオを、時空間の一貫性を維持しながら、新しいカメラの軌跡に沿ってマルチビュービデオに拡張します。
私たちの方法はトレーニングなしで、既製のビデオ拡散モデルを完全に利用しており、マルチビュービデオ生成のための実用的で効果的なソリューションを提供します。

要約(オリジナル)

Recently, multi-view or 4D video generation has emerged as a significant research topic. Nonetheless, recent approaches to 4D generation still struggle with fundamental limitations, as they primarily rely on harnessing multiple video diffusion models with additional training or compute-intensive training of a full 4D diffusion model with limited real-world 4D data and large computational costs. To address these challenges, here we propose the first training-free 4D video generation method that leverages the off-the-shelf video diffusion models to generate multi-view videos from a single input video. Our approach consists of two key steps: (1) By designating the edge frames in the spatio-temporal sampling grid as key frames, we first synthesize them using a video diffusion model, leveraging a depth-based warping technique for guidance. This approach ensures structural consistency across the generated frames, preserving spatial and temporal coherence. (2) We then interpolate the remaining frames using a video diffusion model, constructing a fully populated and temporally coherent sampling grid while preserving spatial and temporal consistency. Through this approach, we extend a single video into a multi-view video along novel camera trajectories while maintaining spatio-temporal consistency. Our method is training-free and fully utilizes an off-the-shelf video diffusion model, offering a practical and effective solution for multi-view video generation.

arxiv情報

著者 Jangho Park,Taesung Kwon,Jong Chul Ye
発行日 2025-03-28 17:14:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model はコメントを受け付けていません

RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models

要約

大規模な言語モデル(LLMS)の開発は、一般的なアシスタントとしてマルチモーダルLLMS(MLLMS)の機能を大幅に強化しました。
ただし、ユーザー固有の知識の欠如は、依然として人間の日常生活における適用を制限しています。
この論文では、MLLMSのパーソナライズのための検索拡張パーソナライズ(RAP)フレームワークを紹介します。
一般的なMLLMから始めて、3つのステップでパーソナライズされたアシスタントに変えます。
(a)覚えておいてください:ユーザー関連の情報、例えばユーザーの名前、アバター、その他の属性を保存するために、キー価値データベースを設計します。
(b)取得:ユーザーが会話を開始すると、RAPはマルチモーダルレトリバーを使用してデータベースから関連情報を取得します。
(c)生成:入力クエリと取得概念の情報は、MLLMに供給され、パーソナライズされた知識補助応答を生成します。
以前の方法とは異なり、RAPは外部データベースを更新することでリアルタイムのコンセプト編集を許可します。
ユーザー固有の情報との生成品質と調整をさらに向上させるために、データ収集のパイプラインを設計し、MLLMSのパーソナライズされたトレーニング用の専門データセットを作成します。
データセットに基づいて、パーソナライズされたマルチモーダルアシスタントとして一連のMLLMをトレーニングします。
大規模なデータセットを事前に削除することにより、RAP-MLLMSは、追加の微調整なしで無限の視覚概念に一般化できます。
私たちのモデルは、パーソナライズされた画像キャプション、質問の回答、視覚認識など、さまざまなタスクにわたって優れた柔軟性と生成品質を示しています。
コード、データ、モデルは、https://hoar012.github.io/rap-project/で入手できます。

要約(オリジナル)

The development of large language models (LLMs) has significantly enhanced the capabilities of multimodal LLMs (MLLMs) as general assistants. However, lack of user-specific knowledge still restricts their application in human’s daily life. In this paper, we introduce the Retrieval Augmented Personalization (RAP) framework for MLLMs’ personalization. Starting from a general MLLM, we turn it into a personalized assistant in three steps. (a) Remember: We design a key-value database to store user-related information, e.g., user’s name, avatar and other attributes. (b) Retrieve: When the user initiates a conversation, RAP will retrieve relevant information from the database using a multimodal retriever. (c) Generate: The input query and retrieved concepts’ information are fed into MLLMs to generate personalized, knowledge-augmented responses. Unlike previous methods, RAP allows real-time concept editing via updating the external database. To further improve generation quality and alignment with user-specific information, we design a pipeline for data collection and create a specialized dataset for personalized training of MLLMs. Based on the dataset, we train a series of MLLMs as personalized multimodal assistants. By pretraining on large-scale dataset, RAP-MLLMs can generalize to infinite visual concepts without additional finetuning. Our models demonstrate outstanding flexibility and generation quality across a variety of tasks, such as personalized image captioning, question answering and visual recognition. The code, data and models are available at https://hoar012.github.io/RAP-Project/.

arxiv情報

著者 Haoran Hao,Jiaming Han,Changsheng Li,Yu-Feng Li,Xiangyu Yue
発行日 2025-03-28 17:28:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models はコメントを受け付けていません

VidTwin: Video VAE with Decoupled Structure and Dynamics

要約

ビデオ自動エンコーダー(ビデオAE)の最近の進歩により、ビデオ生成の品質と効率が大幅に向上しました。
このホワイトペーパーでは、ビデオを2つの異なる潜在スペースに切り離す斬新でコンパクトなビデオ自動エンコーダーVidtwinを提案します。構造全体のコンテンツとグローバルな動きをキャプチャする構造潜在ベクトル、および微粒子の詳細と迅速な動きを表すダイナミクス潜在ベクトル。
具体的には、私たちのアプローチは、これらの潜在スペースをそれぞれ抽出するためにそれぞれ2つのサブモジュールで増強されたエンコーダーデコーダーバックボーンを活用します。
最初のサブモジュールは、Q-formerを採用して低周波モーショントレンドを抽出し、続いてダウンサンプリングブロックを使用して冗長コンテンツの詳細を削除します。
2番目は、空間寸法に沿って潜在的なベクトルを平均して、急速な動きをキャプチャします。
広範な実験では、Vidtwinが高い再構築品質(MCL-JCVデータセットで28.14のPSNR)で0.20%の高い圧縮率を達成し、下流の生成タスクで効率的かつ効果的に実行することが示されています。
さらに、私たちのモデルは説明可能性とスケーラビリティを示し、ビデオの潜在的な表現と生成の将来の研究への道を開いています。
詳細については、プロジェクトページを確認してください:https://vidtwin.github.io/。

要約(オリジナル)

Recent advancements in video autoencoders (Video AEs) have significantly improved the quality and efficiency of video generation. In this paper, we propose a novel and compact video autoencoder, VidTwin, that decouples video into two distinct latent spaces: Structure latent vectors, which capture overall content and global movement, and Dynamics latent vectors, which represent fine-grained details and rapid movements. Specifically, our approach leverages an Encoder-Decoder backbone, augmented with two submodules for extracting these latent spaces, respectively. The first submodule employs a Q-Former to extract low-frequency motion trends, followed by downsampling blocks to remove redundant content details. The second averages the latent vectors along the spatial dimension to capture rapid motion. Extensive experiments show that VidTwin achieves a high compression rate of 0.20% with high reconstruction quality (PSNR of 28.14 on the MCL-JCV dataset), and performs efficiently and effectively in downstream generative tasks. Moreover, our model demonstrates explainability and scalability, paving the way for future research in video latent representation and generation. Check our project page for more details: https://vidtwin.github.io/.

arxiv情報

著者 Yuchi Wang,Junliang Guo,Xinyi Xie,Tianyu He,Xu Sun,Jiang Bian
発行日 2025-03-28 17:32:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | VidTwin: Video VAE with Decoupled Structure and Dynamics はコメントを受け付けていません

Unicorn: Text-Only Data Synthesis for Vision Language Model Training

要約

トレーニングビジョン言語モデル(VLM)には通常、大規模で高品質の画像テキストペアが必要ですが、そのようなデータの収集または合成には費用がかかります。
対照的に、テキストデータは豊富で安価であり、質問を促します。高品質のマルチモーダルトレーニングデータは純粋にテキストから合成できますか?
これに取り組むために、クロス統合された3段階のマルチモーダルデータ合成フレームワークを提案します。これにより、Unicorn-1.2MとUnicorn-471Kインストラクションの2つのデータセットが生成されます。
ステージ1:多様なキャプションデータ合成では、大規模な言語モデル(LLM)を使用してまばらなキャプションシードを拡大することにより、1.2mの意味的に多様な高品質のキャプションを構築します。
ステージ2:命令調整データ生成では、さらに471kのキャプションをマルチターン命令調整タスクに処理して、複雑な推論をサポートします。
最後に、ステージ3:モダリティ表現転送では、これらのテキストキャプション表現が視覚表現に変換され、さまざまな合成画像表現が生じます。
この3段階のプロセスにより、実際の画像に依存することなく、事前トレーニング用のUnicorn-1.2MおよびUnicorn-471K-instruction for destist-TuningのためのUnicorn-471Kインストラクションを構築することができます。
データの品質と多様性を維持しながら実際の画像への依存を排除​​することにより、私たちのフレームワークは、VLMSトレーニングのための費用対効果の高いスケーラブルなソリューションを提供します。
コードはhttps://github.com/yu-xm/unicorn.gitで入手できます。

要約(オリジナル)

Training vision-language models (VLMs) typically requires large-scale, high-quality image-text pairs, but collecting or synthesizing such data is costly. In contrast, text data is abundant and inexpensive, prompting the question: can high-quality multimodal training data be synthesized purely from text? To tackle this, we propose a cross-integrated three-stage multimodal data synthesis framework, which generates two datasets: Unicorn-1.2M and Unicorn-471K-Instruction. In Stage 1: Diverse Caption Data Synthesis, we construct 1.2M semantically diverse high-quality captions by expanding sparse caption seeds using large language models (LLMs). In Stage 2: Instruction-Tuning Data Generation, we further process 471K captions into multi-turn instruction-tuning tasks to support complex reasoning. Finally, in Stage 3: Modality Representation Transfer, these textual captions representations are transformed into visual representations, resulting in diverse synthetic image representations. This three-stage process enables us to construct Unicorn-1.2M for pretraining and Unicorn-471K-Instruction for instruction-tuning, without relying on real images. By eliminating the dependency on real images while maintaining data quality and diversity, our framework offers a cost-effective and scalable solution for VLMs training. Code is available at https://github.com/Yu-xm/Unicorn.git.

arxiv情報

著者 Xiaomin Yu,Pengxiang Ding,Wenjie Zhang,Siteng Huang,Songyang Gao,Chengwei Qin,Kejian Wu,Zhaoxin Fan,Ziyue Qiao,Donglin Wang
発行日 2025-03-28 17:43:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | Unicorn: Text-Only Data Synthesis for Vision Language Model Training はコメントを受け付けていません

Evaluation of Machine-generated Biomedical Images via A Tally-based Similarity Measure

要約

超解像度、インペインティング、全画像の生成、対応のないスタイル移動、ネットワーク制約の画像再構築には、それぞれ、実際のグラウンドトゥルースが使用時に知られていないマシン学習画像合成の側面が含まれます。
合成画像の品質を定量的かつ権威あるものに評価することは一般に困難です。
ただし、ミッションクリティカルな生物医学シナリオでは、堅牢な評価が最重要です。
この作業では、すべての実用的な画像と画像の比較は、実際には相対的な資格であり、絶対的な違いの定量化ではありません。
したがって、生成された画質の意味のある評価は、Tverskyインデックスを使用して実現できます。これは、知覚的類似性を評価するための確立された尺度です。
この評価手順は開発され、実際にシミュレートされた両方の複数の画像データセットを使用して実証されます。
主な結果は、機能をエンコードする選択の主観性と固有の欠陥が前もって配置される場合、Tverskyの方法は直感的な結果につながるのに対し、深い特徴スペースの距離を要約することに基づく従来の方法はそうではないことです。

要約(オリジナル)

Super-resolution, in-painting, whole-image generation, unpaired style-transfer, and network-constrained image reconstruction each include an aspect of machine-learned image synthesis where the actual ground truth is not known at time of use. It is generally difficult to quantitatively and authoritatively evaluate the quality of synthetic images; however, in mission-critical biomedical scenarios robust evaluation is paramount. In this work, all practical image-to-image comparisons really are relative qualifications, not absolute difference quantifications; and, therefore, meaningful evaluation of generated image quality can be accomplished using the Tversky Index, which is a well-established measure for assessing perceptual similarity. This evaluation procedure is developed and then demonstrated using multiple image data sets, both real and simulated. The main result is that when the subjectivity and intrinsic deficiencies of any feature-encoding choice are put upfront, Tversky’s method leads to intuitive results, whereas traditional methods based on summarizing distances in deep feature spaces do not.

arxiv情報

著者 Frank J. Brooks,Rucha Deshpande
発行日 2025-03-28 17:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | Evaluation of Machine-generated Biomedical Images via A Tally-based Similarity Measure はコメントを受け付けていません

Understanding Co-speech Gestures in-the-wild

要約

共同スピーチのジェスチャーは、非言語的コミュニケーションにおいて重要な役割を果たします。
この論文では、野生での共和声ジェスチャー理解のための新しいフレームワークを紹介します。
具体的には、ジェスチャーテキストスピーチの関連付けを理解するためのモデルの機能を評価するための3つの新しいタスクとベンチマークを提案します:(i)ジェスチャーベースの検索、(ii)ジェスチャーワードスポッティング、および(iii)ジェスチャーを使用したアクティブスピーカー検出。
これらのタスクを解決するために、トライモーダルの音声テキスト – ビデオゼアの表現を学習する新しいアプローチを提示します。
グローバルなフレーズの対照的な損失とローカルなジェスチャーワードの結合損失の組み合わせを活用することにより、強いジェスチャー表現は、野生のビデオから弱く監視された方法で学習できることを実証します。
学習した表現は、3つのタスクすべてにわたって、大規模な視覚言語モデル(VLMS)を含む以前の方法よりも優れています。
さらなる分析により、音声とテキストのモダリティが明確なジェスチャー関連信号をキャプチャし、共有されたトライモーダル埋め込みスペースを学習することの利点を強調していることが明らかになりました。
データセット、モデル、およびコードは、https://www.robots.ox.ac.uk/~vgg/research/jegalで入手できます

要約(オリジナル)

Co-speech gestures play a vital role in non-verbal communication. In this paper, we introduce a new framework for co-speech gesture understanding in the wild. Specifically, we propose three new tasks and benchmarks to evaluate a model’s capability to comprehend gesture-text-speech associations: (i) gesture-based retrieval, (ii) gestured word spotting, and (iii) active speaker detection using gestures. We present a new approach that learns a tri-modal speech-text-video-gesture representation to solve these tasks. By leveraging a combination of global phrase contrastive loss and local gesture-word coupling loss, we demonstrate that a strong gesture representation can be learned in a weakly supervised manner from videos in the wild. Our learned representations outperform previous methods, including large vision-language models (VLMs), across all three tasks. Further analysis reveals that speech and text modalities capture distinct gesture-related signals, underscoring the advantages of learning a shared tri-modal embedding space. The dataset, model, and code are available at: https://www.robots.ox.ac.uk/~vgg/research/jegal

arxiv情報

著者 Sindhu B Hegde,K R Prajwal,Taein Kwon,Andrew Zisserman
発行日 2025-03-28 17:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Understanding Co-speech Gestures in-the-wild はコメントを受け付けていません

TranSplat: Lighting-Consistent Cross-Scene Object Transfer with 3D Gaussian Splatting

要約

ガウススプラッティングフレームワークに基づいて(ソースからターゲットシーンへ)リアルなクロスシーンオブジェクト転送を可能にする3DシーンレンダリングアルゴリズムであるTransplatを提示します。
私たちのアプローチでは、2つの重要な課題に対処します。(1)ソースシーンからの正確な3Dオブジェクト抽出、および(2)明示的な物質的なプロパティの推定なしに、ターゲットシーンで転送されたオブジェクトの忠実な再照明。
トランスプラットは、2Dオブジェクトマスクを使用して細粒3Dセグメンテーションを駆動し、ソースシーンにスプラットモデルに適合します。
ターゲットシーンへのオブジェクトのユーザーガイド付き挿入に続いて、位置と方向の自動洗練とともに、トランスプラットは球状高調波分析を介してガウスごとの輝度伝達機能を導き出し、ターゲットシーンの照明環境に合わせてオブジェクトの外観を適応させます。
この再視力戦略では、BRDFSなどの物理シーンのプロパティを明示的に推定する必要はありません。
いくつかの合成および現実世界のシーンとオブジェクトで評価されたトランスプラットは、最近のベースライン方法と視覚的に説得力のあるクロスシーンオブジェクトの転送と比較して、優れた3Dオブジェクト抽出と再生パフォーマンスを生成します。
最後に、アプローチの限界について議論します。

要約(オリジナル)

We present TranSplat, a 3D scene rendering algorithm that enables realistic cross-scene object transfer (from a source to a target scene) based on the Gaussian Splatting framework. Our approach addresses two critical challenges: (1) precise 3D object extraction from the source scene, and (2) faithful relighting of the transferred object in the target scene without explicit material property estimation. TranSplat fits a splatting model to the source scene, using 2D object masks to drive fine-grained 3D segmentation. Following user-guided insertion of the object into the target scene, along with automatic refinement of position and orientation, TranSplat derives per-Gaussian radiance transfer functions via spherical harmonic analysis to adapt the object’s appearance to match the target scene’s lighting environment. This relighting strategy does not require explicitly estimating physical scene properties such as BRDFs. Evaluated on several synthetic and real-world scenes and objects, TranSplat yields excellent 3D object extractions and relighting performance compared to recent baseline methods and visually convincing cross-scene object transfers. We conclude by discussing the limitations of the approach.

arxiv情報

著者 Boyang,Yu,Yanlin Jin,Ashok Veeraraghavan,Akshat Dave,Guha Balakrishnan
発行日 2025-03-28 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TranSplat: Lighting-Consistent Cross-Scene Object Transfer with 3D Gaussian Splatting はコメントを受け付けていません