FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model

要約

現在、命令ベースの画像編集方法は、ビジョン言語モデル(VLM)の強力なクロスモーダル理解能力を活用することにより、大きな進歩を遂げています。
ただし、3つの重要な領域で課題に直面しています。1)複雑なシナリオ。
2)セマンティックの一貫性。
および3)細粒の編集。
これらの問題に対処するために、地域を認識しているVLMを悪用する革新的な細かい粒度ベースの画像編集フレームワークであるFireeditを提案します。
FireeDitは、ユーザーの指示を正確に理解し、編集プロセスを効果的に制御するように設計されています。
具体的には、追加の領域トークンを導入することにより、VLMのきめの細かい視覚認識能力を強化します。
拡散モデルを導くためにLLMの出力のみに依存すると、最適ではない編集結果につながる可能性があります。
したがって、タイムウェアターゲットインジェクションモジュールとハイブリッドの視覚的クロス注意モジュールを提案します。
前者は、タイムステップの埋め込みとテキストの埋め込みを統合することにより、さまざまな除去段階でガイダンス強度を動的に調整します。
後者は、画像編集の視覚的な詳細を強化するため、編集された結果とソース画像の間にセマンティックな一貫性が保持されます。
微粒領域のトークンと時間依存の拡散モデルと強化されたVLMを組み合わせることにより、FireeDitは編集命令の理解と高い意味の一貫性を維持する上で大きな利点を示します。
広範な実験は、私たちのアプローチが最先端の命令ベースの画像編集方法を上回ることを示しています。
当社のプロジェクトは、https://zjgans.github.io/fireedit.github.ioで入手できます。

要約(オリジナル)

Currently, instruction-based image editing methods have made significant progress by leveraging the powerful cross-modal understanding capabilities of vision language models (VLMs). However, they still face challenges in three key areas: 1) complex scenarios; 2) semantic consistency; and 3) fine-grained editing. To address these issues, we propose FireEdit, an innovative Fine-grained Instruction-based image editing framework that exploits a REgion-aware VLM. FireEdit is designed to accurately comprehend user instructions and ensure effective control over the editing process. Specifically, we enhance the fine-grained visual perception capabilities of the VLM by introducing additional region tokens. Relying solely on the output of the LLM to guide the diffusion model may lead to suboptimal editing results. Therefore, we propose a Time-Aware Target Injection module and a Hybrid Visual Cross Attention module. The former dynamically adjusts the guidance strength at various denoising stages by integrating timestep embeddings with the text embeddings. The latter enhances visual details for image editing, thereby preserving semantic consistency between the edited result and the source image. By combining the VLM enhanced with fine-grained region tokens and the time-dependent diffusion model, FireEdit demonstrates significant advantages in comprehending editing instructions and maintaining high semantic consistency. Extensive experiments indicate that our approach surpasses the state-of-the-art instruction-based image editing methods. Our project is available at https://zjgans.github.io/fireedit.github.io.

arxiv情報

著者 Jun Zhou,Jiahao Li,Zunnan Xu,Hanhui Li,Yiji Cheng,Fa-Ting Hong,Qin Lin,Qinglin Lu,Xiaodan Liang
発行日 2025-03-25 16:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model はコメントを受け付けていません

Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization

要約

視覚的に魅力的な画像を生成することは、最新のテキストからイメージまでの生成モデルの基本です。
より良い美学に対する潜在的なソリューションは、直接選好最適化(DPO)です。これは、拡散モデルに適用され、迅速なアライメントや美学を含む一般的な画質を改善します。
人気のあるDPOメソッドは、クリーンな画像ペアから2つの世代の軌跡に沿ったすべての中間ステップまで優先ラベルを伝播します。
ただし、既存のデータセットで提供される優先ラベルは、レイアウトと審美的な意見とブレンドされており、審美的な好みに反対します。
審美的なラベルが(実質的なコストで)提供されたとしても、2回目の操縦方法がさまざまなステップで微妙な視覚的違いをキャプチャするのは難しいでしょう。
美学を経済的に改善するために、このペーパーでは、既存の汎用設定データを使用し、伝播戦略を廃棄し、細粒画像の詳細を評価できるステップバイステップ優先最適化(SPO)を導入します。
具体的には、各除去ステップで、1)共有ノイズ潜在性から除去することで候補者のプールをサンプリングし、2)ステップアウェア選好モデルを使用して適切なウィンローズペアを見つけて拡散モデルを監督し、3)プールから1つをランダムに選択して次の除去ステップを初期化します。
この戦略により、拡散モデルは、レイアウトの側面ではなく、微妙で微調整された視覚的な違いに焦点を当てることが保証されます。
これらの改善された小さな違いを蓄積することにより、美学を大幅に強化できることがわかります。
微調整した安定した拡散v1.5およびSDXLの場合、SPOは、既存のDPOメソッドと比較して美学の大幅な改善をもたらしますが、バニラモデルと比較して画像テキストアライメントを犠牲にしません。
さらに、SPOは、ステップアウェア設定モデルによって提供されるより正しい選好ラベルを使用するため、DPOメソッドよりもはるかに速く収束します。

要約(オリジナル)

Generating visually appealing images is fundamental to modern text-to-image generation models. A potential solution to better aesthetics is direct preference optimization (DPO), which has been applied to diffusion models to improve general image quality including prompt alignment and aesthetics. Popular DPO methods propagate preference labels from clean image pairs to all the intermediate steps along the two generation trajectories. However, preference labels provided in existing datasets are blended with layout and aesthetic opinions, which would disagree with aesthetic preference. Even if aesthetic labels were provided (at substantial cost), it would be hard for the two-trajectory methods to capture nuanced visual differences at different steps. To improve aesthetics economically, this paper uses existing generic preference data and introduces step-by-step preference optimization (SPO) that discards the propagation strategy and allows fine-grained image details to be assessed. Specifically, at each denoising step, we 1) sample a pool of candidates by denoising from a shared noise latent, 2) use a step-aware preference model to find a suitable win-lose pair to supervise the diffusion model, and 3) randomly select one from the pool to initialize the next denoising step. This strategy ensures that diffusion models focus on the subtle, fine-grained visual differences instead of layout aspect. We find that aesthetics can be significantly enhanced by accumulating these improved minor differences. When fine-tuning Stable Diffusion v1.5 and SDXL, SPO yields significant improvements in aesthetics compared with existing DPO methods while not sacrificing image-text alignment compared with vanilla models. Moreover, SPO converges much faster than DPO methods due to the use of more correct preference labels provided by the step-aware preference model.

arxiv情報

著者 Zhanhao Liang,Yuhui Yuan,Shuyang Gu,Bohan Chen,Tiankai Hang,Mingxi Cheng,Ji Li,Liang Zheng
発行日 2025-03-25 17:06:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization はコメントを受け付けていません

Attention IoU: Examining Biases in CelebA using Attention Maps

要約

コンピュータービジョンモデルは、幅広いデータセットとタスクにわたってバイアスを展示および増幅することが示されています。
分類モデルのバイアスを定量化するための既存の方法は、主にサブグループのデータセット分布とモデルのパフォーマンスに焦点を当て、モデルの内部ワーキングを見落としています。
注意マップを使用してモデルの内部表現内のバイアスを明らかにし、潜在的にバイアスを引き起こす画像機能を特定するために、注意マップを使用して、注意マップ(組合上の注意交差)メトリックと関連スコアを紹介します。
まず、合成水鳥データセットで注意を検証し、メトリックがモデルバイアスを正確に測定することを示します。
次に、celebaデータセットを分析して、注意が正確さの格差を超えて相関関係を明らかにしていることがわかります。
男性の保護された属性を通じて個々の属性の調査を通じて、セレバでバイアスが表現される明確な方法を調べます。
最後に、属性相関を変更するためにトレーニングセットをサブサンプリングすることにより、注意 – データセットラベルに存在しない潜在的な交絡変数が明らかになることを示します。

要約(オリジナル)

Computer vision models have been shown to exhibit and amplify biases across a wide array of datasets and tasks. Existing methods for quantifying bias in classification models primarily focus on dataset distribution and model performance on subgroups, overlooking the internal workings of a model. We introduce the Attention-IoU (Attention Intersection over Union) metric and related scores, which use attention maps to reveal biases within a model’s internal representations and identify image features potentially causing the biases. First, we validate Attention-IoU on the synthetic Waterbirds dataset, showing that the metric accurately measures model bias. We then analyze the CelebA dataset, finding that Attention-IoU uncovers correlations beyond accuracy disparities. Through an investigation of individual attributes through the protected attribute of Male, we examine the distinct ways biases are represented in CelebA. Lastly, by subsampling the training set to change attribute correlations, we demonstrate that Attention-IoU reveals potential confounding variables not present in dataset labels.

arxiv情報

著者 Aaron Serianni,Tyler Zhu,Vikram V. Ramaswamy,Olga Russakovsky
発行日 2025-03-25 17:11:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Attention IoU: Examining Biases in CelebA using Attention Maps はコメントを受け付けていません

Towards Online Multi-Modal Social Interaction Understanding

要約

マルチモーダルソーシャルインタラクション理解(MMSI)は、人間とロボットの相互作用システムで重要です。
実際のシナリオでは、AIエージェントはリアルタイムのフィードバックを提供する必要があります。
ただし、既存のモデルは、多くの場合、過去と将来のコンテキストの両方に依存しているため、実際の問題への適用を妨げます。
このギャップを埋めるために、オンラインMMSI設定を提案します。この設定では、モデルは、記録されたダイアログやビデオストリームなどの履歴情報のみを使用してMMSIタスクを解決する必要があります。
有用な将来のコンテキストを逃すことの課題に対処するために、2つの補完的な戦略を活用するオンラインMMSI-VLMという名前の新しいフレームワークを開発します。マルチパーティの会話予測とマルチモーダルの大手言語モデルを使用したソーシャルアウェアビジュアルプロンプトです。
第一に、言語の文脈を豊かにするために、マルチパーティの会話予測は、潜在的な将来の発話を粗から調整し、今後のスピーカーのターンを予測し、その後、細粒の会話の詳細を生成することをシミュレートします。
第二に、視線やジェスチャーなどの視覚的な社会的手がかりを効果的に組み込むために、ソーシャルアウェアの視覚的プロンプトは、各人とフレームの境界ボックスとボディキーポイントを備えたビデオのソーシャルダイナミクスを強調します。
3つのタスクと2つのデータセットでの広範な実験は、この方法が最新のパフォーマンスを達成し、ベースラインモデルを大幅に上回ることを示しており、オンラインMMSIに対する有効性を示しています。
コードモデルと事前に訓練されたモデルは、https://github.com/sampson-lee/onlinemmsiで公開されます。

要約(オリジナル)

Multimodal social interaction understanding (MMSI) is critical in human-robot interaction systems. In real-world scenarios, AI agents are required to provide real-time feedback. However, existing models often depend on both past and future contexts, which hinders them from applying to real-world problems. To bridge this gap, we propose an online MMSI setting, where the model must resolve MMSI tasks using only historical information, such as recorded dialogues and video streams. To address the challenges of missing the useful future context, we develop a novel framework, named Online-MMSI-VLM, that leverages two complementary strategies: multi-party conversation forecasting and social-aware visual prompting with multi-modal large language models. First, to enrich linguistic context, the multi-party conversation forecasting simulates potential future utterances in a coarse-to-fine manner, anticipating upcoming speaker turns and then generating fine-grained conversational details. Second, to effectively incorporate visual social cues like gaze and gesture, social-aware visual prompting highlights the social dynamics in video with bounding boxes and body keypoints for each person and frame. Extensive experiments on three tasks and two datasets demonstrate that our method achieves state-of-the-art performance and significantly outperforms baseline models, indicating its effectiveness on Online-MMSI. The code and pre-trained models will be publicly released at: https://github.com/Sampson-Lee/OnlineMMSI.

arxiv情報

著者 Xinpeng Li,Shijian Deng,Bolin Lai,Weiguo Pian,James M. Rehg,Yapeng Tian
発行日 2025-03-25 17:17:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Online Multi-Modal Social Interaction Understanding はコメントを受け付けていません

FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs

要約

1時間のビデオでの情報検索は、特に目的の情報がフレームの小さなサブセット内にローカライズされている場合でも、最先端のビジョン言語モデル(VLM)であっても、重要な課題です。
長いビデオデータは、コンテキストウィンドウの制限と、答えを含むフレームを特定することの難しさにより、VLMの課題を提示します。
私たちの新しいビデオエージェントであるFalconeyeは、VLMと大規模な言語モデル(LLM)を組み合わせて、ビデオに沿って関連情報を検索し、答えでフレームを見つけます。
Falconeyeのノベルティは、1)提案されたメタアーキテクチャに依存しています。
2)短いクリップ、キャプションを使用して情報を見つけ、自信に応答する新しい効率的な探索アルゴリズム。
3)答えの自信のための最先端のVLMSキャリブレーション分析。
当社のエージェントは、標準の計算リソースで実行できる小型のVLMと中型LLMにアクセスできるように構築されています。
また、長い(平均> 1時間)ビデオ回答検索の課題を評価するためのベンチマークであるFalcon-Benchをリリースし、自由回答形式の質問評価の必要性を強調しています。
私たちの実験は、Falconeeの最先端のファルコンベンチよりもFalconeyeの優れたパフォーマンスを示しており、関連ベンチマークでも同様のパフォーマンスがあります。

要約(オリジナル)

Information retrieval in hour-long videos presents a significant challenge, even for state-of-the-art Vision-Language Models (VLMs), particularly when the desired information is localized within a small subset of frames. Long video data presents challenges for VLMs due to context window limitations and the difficulty of pinpointing frames containing the answer. Our novel video agent, FALCONEye, combines a VLM and a Large Language Model (LLM) to search relevant information along the video, and locate the frames with the answer. FALCONEye novelty relies on 1) the proposed meta-architecture, which is better suited to tackle hour-long videos compared to short video approaches in the state-of-the-art; 2) a new efficient exploration algorithm to locate the information using short clips, captions and answer confidence; and 3) our state-of-the-art VLMs calibration analysis for the answer confidence. Our agent is built over a small-size VLM and a medium-size LLM being accessible to run on standard computational resources. We also release FALCON-Bench, a benchmark to evaluate long (average > 1 hour) Video Answer Search challenges, highlighting the need for open-ended question evaluation. Our experiments show FALCONEye’s superior performance than the state-of-the-art in FALCON-Bench, and similar or better performance in related benchmarks.

arxiv情報

著者 Carlos Plou,Cesar Borja,Ruben Martinez-Cantin,Ana C. Murillo
発行日 2025-03-25 17:17:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs はコメントを受け付けていません

SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation

要約

参照ビデオオブジェクトセグメンテーション(RVO)は、自然言語表現に依存して、ビデオクリップにオブジェクトをセグメント化します。
既存の方法は、独立した短いクリップに推論を制限し、グローバルなコンテキストを失うか、ビデオ全体をオフラインで処理し、ストリーミング方法でアプリケーションを損なう。
この作業では、これらの制限を上回り、過去のフレームからコンテキスト情報を保持しながら、ストリーミングのようなシナリオで効果的に動作できるRVOSメソッドを設計することを目指しています。
堅牢なセグメンテーションと追跡機能を提供し、ストリーミング処理に自然に適したセグメントAnything 2(SAM2)モデルの上に構築されます。
SAM2は、重みを微調整せずに、特徴抽出段階で自然言語の理解と明示的な時間モデリングで力を与え、外部モデルにモダリティ相互作用をアウトソーシングすることなく、賢明にします。
この目的のために、特徴抽出プロセスに時間情報とマルチモーダルキューを注入する新しいアダプターモジュールを導入します。
さらに、SAM2の追跡バイアスの現象を明らかにし、現在のフレームの特徴がキャプションとより整合した新しいオブジェクトを示唆した場合に、追跡フォーカスを調整する学習可能なモジュールを提案します。
提案された方法であるSamwiseは、5 m未満のパラメーターの無視できるオーバーヘッドを追加することにより、さまざまなベンチマーク全体で最先端を達成します。
コードはhttps://github.com/claudiacuttano/samwiseで入手できます。

要約(オリジナル)

Referring Video Object Segmentation (RVOS) relies on natural language expressions to segment an object in a video clip. Existing methods restrict reasoning either to independent short clips, losing global context, or process the entire video offline, impairing their application in a streaming fashion. In this work, we aim to surpass these limitations and design an RVOS method capable of effectively operating in streaming-like scenarios while retaining contextual information from past frames. We build upon the Segment-Anything 2 (SAM2) model, that provides robust segmentation and tracking capabilities and is naturally suited for streaming processing. We make SAM2 wiser, by empowering it with natural language understanding and explicit temporal modeling at the feature extraction stage, without fine-tuning its weights, and without outsourcing modality interaction to external models. To this end, we introduce a novel adapter module that injects temporal information and multi-modal cues in the feature extraction process. We further reveal the phenomenon of tracking bias in SAM2 and propose a learnable module to adjust its tracking focus when the current frame features suggest a new object more aligned with the caption. Our proposed method, SAMWISE, achieves state-of-the-art across various benchmarks, by adding a negligible overhead of less than 5 M parameters. Code is available at https://github.com/ClaudiaCuttano/SAMWISE .

arxiv情報

著者 Claudia Cuttano,Gabriele Trivigno,Gabriele Rosi,Carlo Masone,Giuseppe Averta
発行日 2025-03-25 17:17:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation はコメントを受け付けていません

Unpaired Translation of Chest X-ray Images for Lung Opacity Diagnosis via Adaptive Activation Masks and Cross-Domain Alignment

要約

胸部X線X線写真(CXR)は、心肺疾患の診断と監視において極めて重要な役割を果たします。
ただし、CXRの肺透明度は、肺の境界の明確な識別を妨げ、病理学の局在を複雑にして、解剖学的構造を頻繁に曖昧にします。
この課題は、セグメンテーションの精度と正確な病変の識別を大幅に妨げ、診断に不可欠です。
これらの問題に取り組むために、我々の研究では、セマンティックの特徴を維持しながら、肺の不透明度を持つCXRを肺の不透明度のないカウンターパートに変換する対価のないCXR翻訳フレームワークを提案しています。
私たちのアプローチの中心は、肺CXRの不透明度領域を選択的に変更するための適応活性化マスクを使用することです。
クロスドメインアライメントにより、不透明な問題のない翻訳されたCXRSは、事前に訓練されたCXR病変分類器からの機能マップおよび予測ラベルに合わせて保証され、翻訳プロセスの解釈可能性を促進します。
RSNA、MIMIC-CXR-JPG、JSRTデータセットを使用してメソッドを検証し、既存のメスと比較して、より低いフレシェットインセプション距離(FID)およびカーネルインセプション距離(KID)スコアを通じて優れた翻訳品質を実証します(FID:67.18対210.4、KID:0.01604対0.225)。
RSNA不透明度の評価、急性呼吸dis迫症候群(ARDS)患者CXRSとJSRT CXRSの模倣は、方法が肺の境界のセグメンテーション精度を高め、病変分類を改善し、臨床環境でのその可能性をさらに強化することを示しています(RSNA:MIOU:MIOU:76.58%vs。62.58%vs.58%。
模倣ARDS:MIOU:86.20%対72.07%、感度:92.68%対86.85%:MIOU:85.6%、感度:97.62%対95.04%)。
私たちのアプローチは、特に画像翻訳技術を通じてセグメンテーションの影響を調査する際に、CXRイメージング分析を進めます。

要約(オリジナル)

Chest X-ray radiographs (CXRs) play a pivotal role in diagnosing and monitoring cardiopulmonary diseases. However, lung opac- ities in CXRs frequently obscure anatomical structures, impeding clear identification of lung borders and complicating the localization of pathology. This challenge significantly hampers segmentation accuracy and precise lesion identification, which are crucial for diagnosis. To tackle these issues, our study proposes an unpaired CXR translation framework that converts CXRs with lung opacities into counterparts without lung opacities while preserving semantic features. Central to our approach is the use of adaptive activation masks to selectively modify opacity regions in lung CXRs. Cross-domain alignment ensures translated CXRs without opacity issues align with feature maps and prediction labels from a pre-trained CXR lesion classifier, facilitating the interpretability of the translation process. We validate our method using RSNA, MIMIC-CXR-JPG and JSRT datasets, demonstrating superior translation quality through lower Frechet Inception Distance (FID) and Kernel Inception Distance (KID) scores compared to existing meth- ods (FID: 67.18 vs. 210.4, KID: 0.01604 vs. 0.225). Evaluation on RSNA opacity, MIMIC acute respiratory distress syndrome (ARDS) patient CXRs and JSRT CXRs show our method enhances segmentation accuracy of lung borders and improves lesion classification, further underscoring its potential in clinical settings (RSNA: mIoU: 76.58% vs. 62.58%, Sensitivity: 85.58% vs. 77.03%; MIMIC ARDS: mIoU: 86.20% vs. 72.07%, Sensitivity: 92.68% vs. 86.85%; JSRT: mIoU: 91.08% vs. 85.6%, Sensitivity: 97.62% vs. 95.04%). Our approach advances CXR imaging analysis, especially in investigating segmentation impacts through image translation techniques.

arxiv情報

著者 Junzhi Ning,Dominic Marshall,Yijian Gao,Xiaodan Xing Yang Nan,Yingying Fang,Sheng Zhang,Matthieu Komorowski,Guang Yang
発行日 2025-03-25 17:26:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Unpaired Translation of Chest X-ray Images for Lung Opacity Diagnosis via Adaptive Activation Masks and Cross-Domain Alignment はコメントを受け付けていません

GENIUS: A Generative Framework for Universal Multimodal Search

要約

生成検索は、クエリに基づいてターゲットデータの識別子(ID)を生成する情報検索の新たなアプローチであり、従来の埋め込みベースの検索方法に効率的な代替手段を提供します。
ただし、既存のモデルはタスク固有であり、パフォーマンスの埋め込みベースの検索には及ばない。
このペーパーでは、複数のモダリティとドメインにわたる多様なタスクをサポートする普遍的な生成検索フレームワークであるGeniusを提案します。
その中心で、天才はモダリティが分類されたセマンティック量子化を導入し、マルチモーダルデータをモダリティとセマンティクスの両方をエンコードする離散IDに変換します。
さらに、一般化を強化するために、クエリとそのターゲットの間を補間するクエリ増強を提案し、天才がさまざまなクエリフォームに適応できるようにします。
M-Beirベンチマークで評価され、明確なマージンで以前の生成方法を上回ります。
埋め込みベースの検索とは異なり、天才は一貫してデータベースサイズ全体で高い検索速度を維持し、複数のベンチマークで競争力のあるパフォーマンスを備えています。
追加の再ランクにより、天才はしばしば、効率を維持しながら、埋め込みベースの方法の結果に近い結果を達成します。

要約(オリジナル)

Generative retrieval is an emerging approach in information retrieval that generates identifiers (IDs) of target data based on a query, providing an efficient alternative to traditional embedding-based retrieval methods. However, existing models are task-specific and fall short of embedding-based retrieval in performance. This paper proposes GENIUS, a universal generative retrieval framework supporting diverse tasks across multiple modalities and domains. At its core, GENIUS introduces modality-decoupled semantic quantization, transforming multimodal data into discrete IDs encoding both modality and semantics. Moreover, to enhance generalization, we propose a query augmentation that interpolates between a query and its target, allowing GENIUS to adapt to varied query forms. Evaluated on the M-BEIR benchmark, it surpasses prior generative methods by a clear margin. Unlike embedding-based retrieval, GENIUS consistently maintains high retrieval speed across database size, with competitive performance across multiple benchmarks. With additional re-ranking, GENIUS often achieves results close to those of embedding-based methods while preserving efficiency.

arxiv情報

著者 Sungyeon Kim,Xinliang Zhu,Xiaofan Lin,Muhammet Bastan,Douglas Gray,Suha Kwak
発行日 2025-03-25 17:32:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG | GENIUS: A Generative Framework for Universal Multimodal Search はコメントを受け付けていません

Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

要約

SORAは、シングルシーンビデオ生成において、拡散トランス(DIT)アーキテクチャの計り知れない可能性を発表しました。
ただし、より幅広いアプリケーションを提供するマルチシーンビデオ生成のより困難なタスクは、比較的目立たないままです。
このギャップを埋めるために、マスク$^2 $ ditを提案します。これは、ビデオセグメントとそれに対応するテキスト注釈の間に微調整された1対1のアライメントを確立する新しいアプローチです。
具体的には、DITアーキテクチャ内の各注意層に対称バイナリマスクを導入し、各テキストアノテーションがそれぞれのビデオセグメントにのみ適用され、視覚トークン全体の時間的コヒーレンスを維持するようにします。
この注意メカニズムにより、正確なセグメントレベルのテキストから視聴覚へのアラインメントが可能になり、DITアーキテクチャが固定数のシーンでビデオ生成タスクを効果的に処理できます。
DITアーキテクチャに既存のシーンに基づいて追加のシーンを生成する機能をさらに装備するために、前述のビデオセグメントに新しく生成された各セグメントを条件付けるセグメントレベルの条件付きマスクを組み込み、それにより自動回帰シーンの拡張を可能にします。
定性的実験と定量的実験の両方が、マスク$^2 $ ditがセグメント間の視覚的一貫性を維持しながら、各セグメントとその対応するテキストの説明を確実に保証することを確認しています。
プロジェクトページはhttps://tianhao-qi.github.io/mask2ditprojectです。

要約(オリジナル)

Sora has unveiled the immense potential of the Diffusion Transformer (DiT) architecture in single-scene video generation. However, the more challenging task of multi-scene video generation, which offers broader applications, remains relatively underexplored. To bridge this gap, we propose Mask$^2$DiT, a novel approach that establishes fine-grained, one-to-one alignment between video segments and their corresponding text annotations. Specifically, we introduce a symmetric binary mask at each attention layer within the DiT architecture, ensuring that each text annotation applies exclusively to its respective video segment while preserving temporal coherence across visual tokens. This attention mechanism enables precise segment-level textual-to-visual alignment, allowing the DiT architecture to effectively handle video generation tasks with a fixed number of scenes. To further equip the DiT architecture with the ability to generate additional scenes based on existing ones, we incorporate a segment-level conditional mask, which conditions each newly generated segment on the preceding video segments, thereby enabling auto-regressive scene extension. Both qualitative and quantitative experiments confirm that Mask$^2$DiT excels in maintaining visual consistency across segments while ensuring semantic alignment between each segment and its corresponding text description. Our project page is https://tianhao-qi.github.io/Mask2DiTProject.

arxiv情報

著者 Tianhao Qi,Jianlong Yuan,Wanquan Feng,Shancheng Fang,Jiawei Liu,SiYu Zhou,Qian He,Hongtao Xie,Yongdong Zhang
発行日 2025-03-25 17:46:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation はコメントを受け付けていません

Visuo-Tactile Object Pose Estimation for a Multi-Finger Robot Hand with Low-Resolution In-Hand Tactile Sensing

要約

把握されたオブジェクトの正確な3Dポーズ推定は、ロボットがアセンブリまたはハンドイン操作タスクを実行するための重要な前提条件ですが、ロボットの手によるオブジェクトの閉塞は、この知覚タスクの難易度を大幅に増加させます。
ここでは、視覚情報と固有受容を、明確なロボット手の内面からのバイナリの低解像度の触覚接触測定と組み合わせることで、この問題を軽減できることを提案します。
Visuo-Tactileオブジェクトポーズ推定問題は、因子グラフで確率的に定式化されています。
オブジェクトのポーズは、視覚的または触覚的な外れ値の測定値の影響を減らすために、堅牢なコスト関数を使用して3種類の測定値と整合するように最適化されています。
提案されたアプローチの利点は、最初にシミュレーションで実証されます。リンクごとに1つのバイナリ触覚センサーを備えたカスタム15-DOFロボットハンドは、RGB-Dカメラで観察されながら17 YCBオブジェクトを把握します。
この低解像度の手の触覚センシングは、高い閉塞の下でオブジェクトポーズの推定値を大幅に改善し、また高い視覚ノイズを改善します。
また、触覚の予備バージョンでテストを把握することでこれらの利点を示し、平均して約13.3 Hzのオブジェクトポーズの合理的な視覚触覚推定値を取得します。

要約(オリジナル)

Accurate 3D pose estimation of grasped objects is an important prerequisite for robots to perform assembly or in-hand manipulation tasks, but object occlusion by the robot’s own hand greatly increases the difficulty of this perceptual task. Here, we propose that combining visual information and proprioception with binary, low-resolution tactile contact measurements from across the interior surface of an articulated robotic hand can mitigate this issue. The visuo-tactile object-pose-estimation problem is formulated probabilistically in a factor graph. The pose of the object is optimized to align with the three kinds of measurements using a robust cost function to reduce the influence of visual or tactile outlier readings. The advantages of the proposed approach are first demonstrated in simulation: a custom 15-DoF robot hand with one binary tactile sensor per link grasps 17 YCB objects while observed by an RGB-D camera. This low-resolution in-hand tactile sensing significantly improves object-pose estimates under high occlusion and also high visual noise. We also show these benefits through grasping tests with a preliminary real version of our tactile hand, obtaining reasonable visuo-tactile estimates of object pose at approximately 13.3 Hz on average.

arxiv情報

著者 Lukas Mack,Felix Grüninger,Benjamin A. Richardson,Regine Lendway,Katherine J. Kuchenbecker,Joerg Stueckler
発行日 2025-03-25 17:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Visuo-Tactile Object Pose Estimation for a Multi-Finger Robot Hand with Low-Resolution In-Hand Tactile Sensing はコメントを受け付けていません