Biomed-DPT: Dual Modality Prompt Tuning for Biomedical Vision-Language Models

要約

迅速な学習は、いくつかのショットシナリオで、事前に訓練されたビジョン言語モデル(VLM)を生物医学的画像分類タスクに適応させるための最も効果的なパラダイムの1つです。
ただし、現在の迅速な学習方法のほとんどは、テキストプロンプトのみを使用し、生物医学画像の特定の構造(複雑な解剖学的構造や微妙な病理学的特徴など)を無視しました。
この作業では、知識が強化されたデュアルモダリティプロンプトチューニング手法であるBiomed-DPTを提案します。
テキストプロンプトの設計において、Biomed-DPTは、テンプレート駆動型の臨床プロンプトと大手言語モデル(LLM)駆動型ドメインに適応したプロンプトを含む二重プロンプトを構築し、知識蒸留技術を通じてドメイン適応プロンプトから臨床知識を抽出します。
ビジョンプロンプトの設計において、Biomed-DPTは、非診断領域への焦点と非批判的な病理学的特徴の認識が回避されるように、注意の再重視を活用するためのソフトプロンプトとしてゼロベクトルを導入します。
Biomed-DPTは、9つのモダリティと10臓器をカバーする11の生物医学的画像データセットにわたって66.14 \%の平均分類精度を達成し、基本クラスで78.06 \%、新しいクラスで75.97%に達し、コンテキスト最適化(Coop)方法を6.20 \%、3.88 \%、および8.04 \%で表します。
私たちのコードは、\ underline {https://github.com/kanyooo/biomed-dpt}で入手できます。

要約(オリジナル)

Prompt learning is one of the most effective paradigms for adapting pre-trained vision-language models (VLMs) to the biomedical image classification tasks in few shot scenarios. However, most of the current prompt learning methods only used the text prompts and ignored the particular structures (such as the complex anatomical structures and subtle pathological features) in the biomedical images. In this work, we propose Biomed-DPT, a knowledge-enhanced dual modality prompt tuning technique. In designing the text prompt, Biomed-DPT constructs a dual prompt including the template-driven clinical prompts and the large language model (LLM)-driven domain-adapted prompts, then extracts the clinical knowledge from the domain-adapted prompts through the knowledge distillation technique. In designing the vision prompt, Biomed-DPT introduces the zero vector as a soft prompt to leverage attention re-weighting so that the focus on non-diagnostic regions and the recognition of non-critical pathological features are avoided. Biomed-DPT achieves an average classification accuracy of 66.14\% across 11 biomedical image datasets covering 9 modalities and 10 organs, with performance reaching 78.06\% in base classes and 75.97\% in novel classes, surpassing the Context Optimization (CoOp) method by 6.20\%, 3.78\%, and 8.04\%, respectively. Our code are available at \underline{https://github.com/Kanyooo/Biomed-DPT}.

arxiv情報

著者 Wei Peng,Kang Liu,Jianchen Hu,Meng Zhang
発行日 2025-05-08 12:37:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Biomed-DPT: Dual Modality Prompt Tuning for Biomedical Vision-Language Models はコメントを受け付けていません

Federated EndoViT: Pretraining Vision Transformers via Federated Learning on Endoscopic Image Collections

要約

目的:この研究では、データの共有制限に対処し、最小限の侵襲的手術のためのデータ転送なしで共同モデルトレーニングを可能にするために、フェデレーション学習を使用して基礎モデルのトレーニングを調査します。
方法:Endovit研究に触発されて、マスクされた自動エンコーダーを連邦学習のために適応させ、適応的なシャープネス認識最小化(FedSAM)と確率的重量平均(SWA)で強化します。
私たちのモデルは、ENDO700Kデータセットコレクションで前提とされており、その後、セマンティックセグメンテーション、アクショントリプレット認識、外科相認識などのタスクについて微調整され、評価されます。
結果:我々の調査結果は、適応型FedSAMをフェデレートMAEアプローチに統合すると、前登録が改善され、パッチごとの再建損失が減少することが示されています。
外科的下流タスクにおけるFL-Endovitの適用は、Cen-Endovitに匹敵するパフォーマンスをもたらします。
さらに、FL-Endovitは、データが制限されている場合の外科シーンのセグメンテーションにおいてCen-Endovitよりも利点を示し、大規模なデータセットが使用されている場合は、トリプレット認識を示しています。
結論:これらの調査結果は、外科的基礎モデルのプライバシーを提供するトレーニングのための連邦学習の可能性を強調し、外科的データサイエンスのための堅牢で一般化可能なソリューションを提供します。
効果的なコラボレーションには、機関全体の固有のデータ不均一性に対応できるFedsamの統合など、フェデレート学習方法を適応させる必要があります。
将来的には、ビデオベースのモデルでFLを探索することで、実際の外科的環境に不可欠な時空間的ダイナミクスを組み込むことにより、これらの機能を強化する可能性があります。

要約(オリジナル)

Purpose: In this study, we investigate the training of foundation models using federated learning to address data-sharing limitations and enable collaborative model training without data transfer for minimally invasive surgery. Methods: Inspired by the EndoViT study, we adapt the Masked Autoencoder for federated learning, enhancing it with adaptive Sharpness-Aware Minimization (FedSAM) and Stochastic Weight Averaging (SWA). Our model is pretrained on the Endo700k dataset collection and later fine-tuned and evaluated for tasks such as Semantic Segmentation, Action Triplet Recognition, and Surgical Phase Recognition. Results: Our findings demonstrate that integrating adaptive FedSAM into the federated MAE approach improves pretraining, leading to a reduction in reconstruction loss per patch. The application of FL-EndoViT in surgical downstream tasks results in performance comparable to CEN-EndoViT. Furthermore, FL-EndoViT exhibits advantages over CEN-EndoViT in surgical scene segmentation when data is limited and in action triplet recognition when large datasets are used. Conclusion: These findings highlight the potential of federated learning for privacy-preserving training of surgical foundation models, offering a robust and generalizable solution for surgical data science. Effective collaboration requires adapting federated learning methods, such as the integration of FedSAM, which can accommodate the inherent data heterogeneity across institutions. In future, exploring FL in video-based models may enhance these capabilities by incorporating spatiotemporal dynamics crucial for real-world surgical environments.

arxiv情報

著者 Max Kirchner,Alexander C. Jenke,Sebastian Bodenstedt,Fiona R. Kolbinger,Oliver L. Saldanha,Jakob N. Kather,Martin Wagner,Stefanie Speidel
発行日 2025-05-08 12:46:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Federated EndoViT: Pretraining Vision Transformers via Federated Learning on Endoscopic Image Collections はコメントを受け付けていません

Concept-Based Unsupervised Domain Adaptation

要約

コンセプトボトルネックモデル(CBMS)は、人間の理解可能な概念を通じて予測を説明することにより解釈可能性を向上させますが、通常、トレーニングとテストデータが同じ分布を共有すると仮定します。
この仮定は、ドメインシフトの下で失敗することが多く、パフォーマンスの低下と一般化の低下につながります。
これらの制限に対処し、CBMSの堅牢性を向上させるために、コンセプトベースの監視されていないドメイン適応(CUDA)フレームワークを提案します。
CUDAは次のように設計されています。(1)敵対的なトレーニングを使用してドメイン全体の概念表現を整列させ、(2)概念分布のマイナーなドメイン固有の違いを可能にするリラクゼーションしきい値を導入し、これらの分布の過剰な構成によるパフォーマンス低下を防ぎます。
理論的保証を備えたドメイン適応(DA)、解釈性の向上、DAの新しいベンチマークの確立。
実験は、私たちのアプローチが、現実世界のデータセットで最先端のCBMおよびDAメソッドを大幅に上回ることを示しています。

要約(オリジナル)

Concept Bottleneck Models (CBMs) enhance interpretability by explaining predictions through human-understandable concepts but typically assume that training and test data share the same distribution. This assumption often fails under domain shifts, leading to degraded performance and poor generalization. To address these limitations and improve the robustness of CBMs, we propose the Concept-based Unsupervised Domain Adaptation (CUDA) framework. CUDA is designed to: (1) align concept representations across domains using adversarial training, (2) introduce a relaxation threshold to allow minor domain-specific differences in concept distributions, thereby preventing performance drop due to over-constraints of these distributions, (3) infer concepts directly in the target domain without requiring labeled concept data, enabling CBMs to adapt to diverse domains, and (4) integrate concept learning into conventional domain adaptation (DA) with theoretical guarantees, improving interpretability and establishing new benchmarks for DA. Experiments demonstrate that our approach significantly outperforms the state-of-the-art CBM and DA methods on real-world datasets.

arxiv情報

著者 Xinyue Xu,Yueying Hu,Hui Tang,Yi Qin,Lu Mi,Hao Wang,Xiaomeng Li
発行日 2025-05-08 12:52:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Concept-Based Unsupervised Domain Adaptation はコメントを受け付けていません

Improved Brain Tumor Detection in MRI: Fuzzy Sigmoid Convolution in Deep Learning

要約

患者の転帰を改善するには、早期の検出と正確な診断が不可欠です。
腫瘍検出のための畳み込みニューラルネットワーク(CNNS)の使用は有望であることが示されていますが、既存のモデルはしばしばオーバーパラメーター化に苦しんでおり、パフォーマンスの向上を制限します。
この研究では、ファジーなシグモイド畳み込み(FSC)が、2つの追加モジュールとともに導入されています。
提案された方法論は、分類の精度を損なうことなく、トレーニング可能なパラメーターの数を大幅に削減します。
このアプローチの中心であり、入力データの整合性を維持しながら受容フィールドを効果的に拡張します。
これにより、効率的な機能マップ削減が可能になり、モデルの腫瘍検出機能が強化されます。
FSCベースのモデルでは、ファジーシグモイドの活性化関数が畳み込み層に組み込まれ、特徴の抽出と分類を改善します。
ファジーロジックをアーキテクチャに含めると、その適応性と堅牢性が向上します。
3つのベンチマークデータセットでの広範な実験は、提案されたモデルの優れたパフォーマンスと効率性を示しています。
FSCベースのアーキテクチャは、3つの異なるデータセットで99.17%、99.75%、99.89%の分類精度を達成しました。
このモデルは、大規模な転送学習アーキテクチャの100倍のパラメーターを使用しており、計算効率と脳腫瘍を早期に検出するための適合性を強調しています。
この研究は、医療イメージングアプリケーション向けの軽量で高性能の深部学習モデルを提供します。

要約(オリジナル)

Early detection and accurate diagnosis are essential to improving patient outcomes. The use of convolutional neural networks (CNNs) for tumor detection has shown promise, but existing models often suffer from overparameterization, which limits their performance gains. In this study, fuzzy sigmoid convolution (FSC) is introduced along with two additional modules: top-of-the-funnel and middle-of-the-funnel. The proposed methodology significantly reduces the number of trainable parameters without compromising classification accuracy. A novel convolutional operator is central to this approach, effectively dilating the receptive field while preserving input data integrity. This enables efficient feature map reduction and enhances the model’s tumor detection capability. In the FSC-based model, fuzzy sigmoid activation functions are incorporated within convolutional layers to improve feature extraction and classification. The inclusion of fuzzy logic into the architecture improves its adaptability and robustness. Extensive experiments on three benchmark datasets demonstrate the superior performance and efficiency of the proposed model. The FSC-based architecture achieved classification accuracies of 99.17%, 99.75%, and 99.89% on three different datasets. The model employs 100 times fewer parameters than large-scale transfer learning architectures, highlighting its computational efficiency and suitability for detecting brain tumors early. This research offers lightweight, high-performance deep-learning models for medical imaging applications.

arxiv情報

著者 Muhammad Irfan,Anum Nawaz,Riku Klen,Abdulhamit Subasi,Tomi Westerlund,Wei Chen
発行日 2025-05-08 13:02:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Improved Brain Tumor Detection in MRI: Fuzzy Sigmoid Convolution in Deep Learning はコメントを受け付けていません

EAM: Enhancing Anything with Diffusion Transformers for Blind Super-Resolution

要約

事前に訓練されたテキストからイメージ(T2I)拡散モデルを利用して、ブラインドスーパー解像度(BSR)を導くことが、この分野で主要なアプローチになりました。
T2Iモデルは伝統的にU-Netアーキテクチャに依存してきましたが、最近の進歩により、拡散トランス(DIT)がこのドメインで大幅に高いパフォーマンスを達成することが実証されています。
この作業では、DITを活用して以前のU-NETベースのアプローチを上回る新しいBSRメソッドであるEnhing Anything Model(EAM)を紹介します。
画像の復元を強化するためにDITを効果的に導く新しいブロック$ \ psi $ -ditを導入します。
このブロックは、分離可能なフロー噴射制御として低解像度の潜在性を採用し、事前に訓練されたDITに埋め込まれた事前知識を効果的に活用するトリプルフローアーキテクチャを形成します。
T2Iモデルの以前のガイダンス機能を完全に活用し、BSRでの一般化を強化するために、トレーニングコストも削減するプログレッシブマスクモデリング戦略を導入します。
さらに、コンテキスト学習フレームワークで堅牢なマルチモーダルモデルを採用するサブジェクト認識の迅速な生成戦略を提案します。
この戦略は、主要な画像領域を自動的に識別し、詳細な説明を提供し、T2I拡散前の利用を最適化します。
私たちの実験は、EAMが複数のデータセットで最新の結果を達成し、定量的メトリックと視覚品質の両方で既存の方法を上回ることを示しています。

要約(オリジナル)

Utilizing pre-trained Text-to-Image (T2I) diffusion models to guide Blind Super-Resolution (BSR) has become a predominant approach in the field. While T2I models have traditionally relied on U-Net architectures, recent advancements have demonstrated that Diffusion Transformers (DiT) achieve significantly higher performance in this domain. In this work, we introduce Enhancing Anything Model (EAM), a novel BSR method that leverages DiT and outperforms previous U-Net-based approaches. We introduce a novel block, $\Psi$-DiT, which effectively guides the DiT to enhance image restoration. This block employs a low-resolution latent as a separable flow injection control, forming a triple-flow architecture that effectively leverages the prior knowledge embedded in the pre-trained DiT. To fully exploit the prior guidance capabilities of T2I models and enhance their generalization in BSR, we introduce a progressive Masked Image Modeling strategy, which also reduces training costs. Additionally, we propose a subject-aware prompt generation strategy that employs a robust multi-modal model in an in-context learning framework. This strategy automatically identifies key image areas, provides detailed descriptions, and optimizes the utilization of T2I diffusion priors. Our experiments demonstrate that EAM achieves state-of-the-art results across multiple datasets, outperforming existing methods in both quantitative metrics and visual quality.

arxiv情報

著者 Haizhen Xie,Kunpeng Du,Qiangyu Yan,Sen Lu,Jianhong Han,Hanting Chen,Hailin Hu,Jie Hu
発行日 2025-05-08 13:03:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EAM: Enhancing Anything with Diffusion Transformers for Blind Super-Resolution はコメントを受け付けていません

HQC-NBV: A Hybrid Quantum-Classical View Planning Approach

要約

効率的なビュー計画は、コンピュータービジョンとロボット認識における基本的な課題であり、捜索救助操作から自律ナビゲーションに至るまでのタスクにとって重要です。
サンプリングベースや決定論的な方法を含む古典的なアプローチは、シーン探索のカメラの視点を計画することで有望であることを示していますが、複雑な設定での計算スケーラビリティとソリューションの最適性に苦労することがよくあります。
この研究では、堅牢性とスケーラビリティを維持しながら、パラメーター空間を効率的に調査するために量子特性を活用するビュー計画のためのハイブリッド量子クラシカルフレームワークであるHQC-NBVを紹介します。
多コンポーネントコスト項と、視点パラメーター間の階層依存関係をキャプチャする双方向の交互のエンタングルメントパターンを備えたパラメーター中心の変異アンスツを備えた特定のハミルトニアン定式化を提案します。
包括的な実験は、量子固有のコンポーネントが測定可能なパフォーマンスの利点を提供することを示しています。
古典的な方法と比較して、私たちのアプローチは、多様な環境で最大49.2%高い探査効率を達成しています。
エンタングルメントアーキテクチャとコヒーレンスを提供する用語の分析は、ロボット探査タスクにおける量子アドバンテージのメカニズムに関する洞察を提供します。
この作業は、量子コンピューティングをロボット認識システムに統合する際の重要な進歩を表しており、さまざまなロボットビジョンタスクのパラダイムシフトソリューションを提供します。

要約(オリジナル)

Efficient view planning is a fundamental challenge in computer vision and robotic perception, critical for tasks ranging from search and rescue operations to autonomous navigation. While classical approaches, including sampling-based and deterministic methods, have shown promise in planning camera viewpoints for scene exploration, they often struggle with computational scalability and solution optimality in complex settings. This study introduces HQC-NBV, a hybrid quantum-classical framework for view planning that leverages quantum properties to efficiently explore the parameter space while maintaining robustness and scalability. We propose a specific Hamiltonian formulation with multi-component cost terms and a parameter-centric variational ansatz with bidirectional alternating entanglement patterns that capture the hierarchical dependencies between viewpoint parameters. Comprehensive experiments demonstrate that quantum-specific components provide measurable performance advantages. Compared to the classical methods, our approach achieves up to 49.2% higher exploration efficiency across diverse environments. Our analysis of entanglement architecture and coherence-preserving terms provides insights into the mechanisms of quantum advantage in robotic exploration tasks. This work represents a significant advancement in integrating quantum computing into robotic perception systems, offering a paradigm-shifting solution for various robot vision tasks.

arxiv情報

著者 Xiaotong Yu,Chang Wen Chen
発行日 2025-05-08 13:05:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HQC-NBV: A Hybrid Quantum-Classical View Planning Approach はコメントを受け付けていません

Diffusion Model Quantization: A Review

要約

大規模なテキストからイメージモデルの最近の成功により、生成タスクにおける拡散モデルの例外的なパフォーマンスが経験的に強調されています。
リソース制約のあるエッジデバイスでの効率的な展開を容易にするために、モデルの量子化は、圧縮と加速の両方のための極めて重要な手法として浮上しています。
この調査では、拡散モデルの量子化、この急速に進歩するドメインの現在の最新の最新をカプセル化および分析する最新の進歩の徹底的なレビューを提供します。
まず、U-NETアーキテクチャと拡散トランス(DIT)に基づくものを含む拡散モデルの量子化で発生する重要な課題の概要を説明します。
次に、一般的な量子化技術の包括的な分類法を提示し、基礎となる原則の詳細な議論に従事します。
その後、定性的および定量的視点の両方からの代表的な拡散モデルの量子化スキームの綿密な分析を実行します。
定量的な観点から、広く認識されているデータセットを使用してさまざまな方法を厳密にベンチマークし、この分野での最新の影響力のある研究の広範な評価を提供します。
定性的な観点から、量子化エラーの効果を分類および合成し、視覚分析と軌跡検査の両方を通じてこれらの影響を解明します。
結論として、私たちは将来の研究のための見込み手段を概説し、実際のアプリケーションで生成モデルの量子化のための新しい方向性を提案します。
関連する論文、対応するコード、事前に訓練されたモデル、比較結果のリストは、調査プロジェクトのホームページhttps://github.com/taylorjocelyn/diffusion-model-quantizationで公開されています。

要約(オリジナル)

Recent success of large text-to-image models has empirically underscored the exceptional performance of diffusion models in generative tasks. To facilitate their efficient deployment on resource-constrained edge devices, model quantization has emerged as a pivotal technique for both compression and acceleration. This survey offers a thorough review of the latest advancements in diffusion model quantization, encapsulating and analyzing the current state of the art in this rapidly advancing domain. First, we provide an overview of the key challenges encountered in the quantization of diffusion models, including those based on U-Net architectures and Diffusion Transformers (DiT). We then present a comprehensive taxonomy of prevalent quantization techniques, engaging in an in-depth discussion of their underlying principles. Subsequently, we perform a meticulous analysis of representative diffusion model quantization schemes from both qualitative and quantitative perspectives. From a quantitative standpoint, we rigorously benchmark a variety of methods using widely recognized datasets, delivering an extensive evaluation of the most recent and impactful research in the field. From a qualitative standpoint, we categorize and synthesize the effects of quantization errors, elucidating these impacts through both visual analysis and trajectory examination. In conclusion, we outline prospective avenues for future research, proposing novel directions for the quantization of generative models in practical applications. The list of related papers, corresponding codes, pre-trained models and comparison results are publicly available at the survey project homepage https://github.com/TaylorJocelyn/Diffusion-Model-Quantization.

arxiv情報

著者 Qian Zeng,Chenggong Hu,Mingli Song,Jie Song
発行日 2025-05-08 13:09:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diffusion Model Quantization: A Review はコメントを受け付けていません

Multi-Objective Reinforcement Learning for Adaptive Personalized Autonomous Driving

要約

人間のドライバーは、運転スタイルに関する個々の好みを示します。
これらの好みに自律的な車両を適応させることは、ユーザーの信頼と満足度に不可欠です。
ただし、既存のエンドツーエンドの運転アプローチは、多くの場合、事前定義された運転スタイルに依存しているか、適応のために継続的なユーザーフィードバックを必要とし、動的でコンテキスト依存の好みをサポートする能力を制限します。
私たちは、ドライビングスタイルの好みに合わせてランタイムの適応を可能にするエンドツーエンドの自律運転のための優先駆動型の最適化を備えた多目的補強学習(MORL)を使用して、新しいアプローチを提案します。
設定は、解釈可能なスタイルの目的$ \ unicode {x2013} $に沿って動作を変調する連続重量ベクトルとしてエンコードされます。
シングルポリシーエージェントは、視覚ベースの知覚を複雑な混合トラフィックシナリオに統合し、カーラシミュレーターを使用して多様な都市環境で評価されます。
実験結果は、エージェントが衝突回避とルートの完了に関してパフォーマンスを維持しながら、好みの変化に応じて運転行動を動的に適応させることを示しています。

要約(オリジナル)

Human drivers exhibit individual preferences regarding driving style. Adapting autonomous vehicles to these preferences is essential for user trust and satisfaction. However, existing end-to-end driving approaches often rely on predefined driving styles or require continuous user feedback for adaptation, limiting their ability to support dynamic, context-dependent preferences. We propose a novel approach using multi-objective reinforcement learning (MORL) with preference-driven optimization for end-to-end autonomous driving that enables runtime adaptation to driving style preferences. Preferences are encoded as continuous weight vectors to modulate behavior along interpretable style objectives$\unicode{x2013}$including efficiency, comfort, speed, and aggressiveness$\unicode{x2013}$without requiring policy retraining. Our single-policy agent integrates vision-based perception in complex mixed-traffic scenarios and is evaluated in diverse urban environments using the CARLA simulator. Experimental results demonstrate that the agent dynamically adapts its driving behavior according to changing preferences while maintaining performance in terms of collision avoidance and route completion.

arxiv情報

著者 Hendrik Surmann,Jorge de Heuvel,Maren Bennewitz
発行日 2025-05-08 13:16:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Multi-Objective Reinforcement Learning for Adaptive Personalized Autonomous Driving はコメントを受け付けていません

Does CLIP perceive art the same way we do?

要約

クリップは、関節の埋め込みを介して画像やテキストを接続できる強力なマルチモーダルモデルとして浮上していますが、人間がするように、特にアートワークを解釈するときにどのように「見える」のでしょうか?
このホワイトペーパーでは、人間が作成した画像とAIに生成された画像の両方を含む、絵画から高レベルのセマンティックおよび文体情報を抽出するClipの能力を調査します。
コンテンツ、シーンの理解、芸術スタイル、歴史的期間、視覚的変形またはアーティファクトの存在など、複数の次元にわたってその認識を評価します。
ターゲットを絞った調査タスクを設計し、クリップの応答を人間の注釈と専門家のベンチマークに比較することにより、人間の知覚的および文脈的理解との整合性を調査します。
私たちの調査結果は、特に審美的な手がかりと芸術的意図に関連して、クリップの視覚表現の強みと制限の両方を明らかにしています。
さらに、スタイル転送やプロンプトベースの画像合成など、生成プロセス中のガイダンスメカニズムとしてCLIPを使用するためのこれらの洞察の意味について説明します。
私たちの仕事は、特にニュアンスと主観性が中心的な役割を果たす創造的なドメインに適用される場合、マルチモーダルシステムでより深い解釈可能性の必要性を強調しています。

要約(オリジナル)

CLIP has emerged as a powerful multimodal model capable of connecting images and text through joint embeddings, but to what extent does it ‘see’ the same way humans do – especially when interpreting artworks? In this paper, we investigate CLIP’s ability to extract high-level semantic and stylistic information from paintings, including both human-created and AI-generated imagery. We evaluate its perception across multiple dimensions: content, scene understanding, artistic style, historical period, and the presence of visual deformations or artifacts. By designing targeted probing tasks and comparing CLIP’s responses to human annotations and expert benchmarks, we explore its alignment with human perceptual and contextual understanding. Our findings reveal both strengths and limitations in CLIP’s visual representations, particularly in relation to aesthetic cues and artistic intent. We further discuss the implications of these insights for using CLIP as a guidance mechanism during generative processes, such as style transfer or prompt-based image synthesis. Our work highlights the need for deeper interpretability in multimodal systems, especially when applied to creative domains where nuance and subjectivity play a central role.

arxiv情報

著者 Andrea Asperti,Leonardo Dessì,Maria Chiara Tonetti,Nico Wu
発行日 2025-05-08 13:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T45, 68U10, cs.CV, cs.MM, I.2.10 | Does CLIP perceive art the same way we do? はコメントを受け付けていません

Interact with me: Joint Egocentric Forecasting of Intent to Interact, Attitude and Social Actions

要約

効率的なヒューマンエージェント相互作用のために、エージェントはターゲットユーザーを積極的に認識し、今後の相互作用に備える必要があります。
この挑戦的な問題を、エージェントと対話するという人の意図、エージェントに対する彼らの態度、およびエージェント(エゴセントリック)の視点から実行する行動を共同で予測するという新しいタスクとして定式化します。
したがって、\ emphing {socialegonet} – 階層的マルチタスク学習アプローチを介してタスク依存関係を悪用するグラフベースの時空間フレームワークを提案します。
SocialEgonetは、高い推論速度のために1秒のビデオ入力からのみ抽出された全身スケルトン(顔、手、体のキーポイント)を使用します。
評価のために、新しいクラスラベルと境界ボックスアノテーションを使用した既存のエゴセントリックヒトエージェント相互作用データセットを強化します。
JPL-Socialという名前のこの増強されたデータセットでの広範な実験は、モデルのいくつかの競合ベースラインを上回るモデルの優れたパフォーマンス(すべてのタスクにわたる平均精度:83.15 \%)を示しています。
追加の注釈とコードは、受け入れられると利用可能になります。

要約(オリジナル)

For efficient human-agent interaction, an agent should proactively recognize their target user and prepare for upcoming interactions. We formulate this challenging problem as the novel task of jointly forecasting a person’s intent to interact with the agent, their attitude towards the agent and the action they will perform, from the agent’s (egocentric) perspective. So we propose \emph{SocialEgoNet} – a graph-based spatiotemporal framework that exploits task dependencies through a hierarchical multitask learning approach. SocialEgoNet uses whole-body skeletons (keypoints from face, hands and body) extracted from only 1 second of video input for high inference speed. For evaluation, we augment an existing egocentric human-agent interaction dataset with new class labels and bounding box annotations. Extensive experiments on this augmented dataset, named JPL-Social, demonstrate \emph{real-time} inference and superior performance (average accuracy across all tasks: 83.15\%) of our model outperforming several competitive baselines. The additional annotations and code will be available upon acceptance.

arxiv情報

著者 Tongfei Bian,Yiming Ma,Mathieu Chollet,Victor Sanchez,Tanaya Guha
発行日 2025-05-08 13:28:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | Interact with me: Joint Egocentric Forecasting of Intent to Interact, Attitude and Social Actions はコメントを受け付けていません