The Urban Impact of AI: Modeling Feedback Loops in Next-Venue Recommendation

要約

Next-Venueの推奨システムは、ロケーションベースのサービスにますます組み込まれており、都市環境での個々のモビリティの決定を形成しています。
それらの予測精度は広範囲に研究されていますが、都市のダイナミクスへの体系的な影響にはあまり注意が払われていません。
この作業では、シミュレーションフレームワークを紹介して、次のベニューの推奨事項を支える人間のフィードバックループをモデル化し、アルゴリズムの提案が個々の動作にどのように影響するかをキャプチャします。
現実世界のモビリティデータに基づいたシミュレーションは、さまざまな推奨戦略にわたるアルゴリズム採用の影響を体系的に調査します。
推奨システムは、訪問した会場で一貫して個人レベルの多様性を増加させますが、人気のある場所の限られたサブセットへの訪問を集中することにより、集団的不平等を同時に増幅する可能性があることがわかります。
この発散は、社会的協同組合ネットワークの構造にまで及び、都市のアクセシビリティと空間的分離に対するより広範な意味を明らかにします。
当社のフレームワークは、次の概要の推奨でフィードバックループを動作させ、AIアシストモビリティを提供するための社会的影響を評価する新しいレンズを提供し、将来のリスクを予測し、規制介入を評価し、倫理的アルゴリズムシステムの設計を通知するための計算ツールを提供します。

要約(オリジナル)

Next-venue recommender systems are increasingly embedded in location-based services, shaping individual mobility decisions in urban environments. While their predictive accuracy has been extensively studied, less attention has been paid to their systemic impact on urban dynamics. In this work, we introduce a simulation framework to model the human-AI feedback loop underpinning next-venue recommendation, capturing how algorithmic suggestions influence individual behavior, which in turn reshapes the data used to retrain the models. Our simulations, grounded in real-world mobility data, systematically explore the effects of algorithmic adoption across a range of recommendation strategies. We find that while recommender systems consistently increase individual-level diversity in visited venues, they may simultaneously amplify collective inequality by concentrating visits on a limited subset of popular places. This divergence extends to the structure of social co-location networks, revealing broader implications for urban accessibility and spatial segregation. Our framework operationalizes the feedback loop in next-venue recommendation and offers a novel lens through which to assess the societal impact of AI-assisted mobility-providing a computational tool to anticipate future risks, evaluate regulatory interventions, and inform the design of ethic algorithmic systems.

arxiv情報

著者 Giovanni Mauro,Marco Minici,Luca Pappalardo
発行日 2025-04-10 17:15:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | The Urban Impact of AI: Modeling Feedback Loops in Next-Venue Recommendation はコメントを受け付けていません

Note on the identification of total effect in Cluster-DAGs with cycles

要約

このメモでは、クラスターダグの総効果の識別可能性について説明し、クラスターダグ内のサイクルを可能にします(関連する基礎となるDAGが非環式であると仮定しています)。
これは、2つの重要な結果に示されています。まず、最大4つのノードを含むクラスターにクラスターダグを制限します。
第二に、D分離の概念を適応させます。
識別可能性の問題に対処するためのグラフィカルな基準を提供します。

要約(オリジナル)

In this note, we discuss the identifiability of a total effect in cluster-DAGs, allowing for cycles within the cluster-DAG (while still assuming the associated underlying DAG to be acyclic). This is presented into two key results: first, restricting the cluster-DAG to clusters containing at most four nodes; second, adapting the notion of d-separation. We provide a graphical criterion to address the identifiability problem.

arxiv情報

著者 Clément Yvernes
発行日 2025-04-10 17:39:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, math.ST, stat.TH | Note on the identification of total effect in Cluster-DAGs with cycles はコメントを受け付けていません

We Are All Creators: Generative AI, Collective Knowledge, and the Path Towards Human-AI Synergy

要約

生成的AIは、特に創造性における人間の独自性の伝統的な概念に対する深い挑戦を提示します。
ニューラルネットワークベースの基礎モデルに燃料を供給されるこれらのシステムは、著しいコンテンツ生成機能を示し、著者、著作権、知性自体についての激しい議論を引き起こします。
この論文は、生成的AIは、生物学的理解や逐語的な複製ではなく、数学的パターン合成を通じて動作する知性と創造性の代替形式を表していると主張しています。
人工的なニューラルネットワークと生物学的ニューラルネットワークの基本的な違いは、AI学習を、インターネットから削り取られた集団的人間の知識の結晶化された広大なデータセットからの主に統計的パターン抽出として明らかになります。
この視点は、著作権の盗難物語を複雑にし、AI出力を個々のソースに起因する実際的な課題を強調しています。
潜在的に無駄な法的制限を追求するのではなく、人間のAI相乗効果を提唱しています。
生成AIを人間の直観、文脈、倫理的判断に沿って補完的なツールとして受け入れることにより、社会は前例のない革新のロックを解き、創造的な表現を民主化し、複雑な課題に対処することができます。
AISの能力と制限の現実的な理解に基づいたこの共同アプローチは、最も有望な道を提供します。
さらに、これらのモデルを集合的な人間の知識の産物として認識することは、これらのツールへの公平なアクセスを保証するアクセシビリティに関する倫理的な疑問を提起することで、社会的分裂の拡大を防ぎ、集団的利益のために最大限の可能性を活用できます。

要約(オリジナル)

Generative AI presents a profound challenge to traditional notions of human uniqueness, particularly in creativity. Fueled by neural network based foundation models, these systems demonstrate remarkable content generation capabilities, sparking intense debates about authorship, copyright, and intelligence itself. This paper argues that generative AI represents an alternative form of intelligence and creativity, operating through mathematical pattern synthesis rather than biological understanding or verbatim replication. The fundamental differences between artificial and biological neural networks reveal AI learning as primarily statistical pattern extraction from vast datasets crystallized forms of collective human knowledge scraped from the internet. This perspective complicates copyright theft narratives and highlights practical challenges in attributing AI outputs to individual sources. Rather than pursuing potentially futile legal restrictions, we advocate for human AI synergy. By embracing generative AI as a complementary tool alongside human intuition, context, and ethical judgment, society can unlock unprecedented innovation, democratize creative expression, and address complex challenges. This collaborative approach, grounded in realistic understanding of AIs capabilities and limitations, offers the most promising path forward. Additionally, recognizing these models as products of collective human knowledge raises ethical questions about accessibility ensuring equitable access to these tools could prevent widening societal divides and leverage their full potential for collective benefit.

arxiv情報

著者 Jordi Linares-Pellicer,Juan Izquierdo-Domenech,Isabel Ferri-Molla,Carlos Aliaga-Torro
発行日 2025-04-10 17:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | We Are All Creators: Generative AI, Collective Knowledge, and the Path Towards Human-AI Synergy はコメントを受け付けていません

PIDSR:ComplementaryPolarizedImageDemosaicingandSuper-Resolution

要約

偏光カメラは、単一ショットで異なる偏光子角を持つ複数の偏光画像をキャプチャでき、偏光ベースのダウンストリームタスクに利便性をもたらすことができます。
ただし、それらの直接出力は、カラー偏光フィルターアレイ(CPFA)の生画像であり、完全な解像度のフルカラー偏光画像を再構築するためにデモ装飾が必要です。
残念ながら、この必要なステップは、偏光の程度(DOP)や偏光角(AOP)などの偏光関連のパラメーターを作成するアーティファクトを導入します。
その上、ハードウェア設計によって制限されているため、偏光カメラの解像度は、従来のRGBカメラの解像度よりもはるかに低いことがよくあります。
既存の偏光画像デモザイシング(PID)メソッドは解像度を強化できないという点で制限されていますが、偏光画像スーパー解像度(PISR)メソッドは、デモザイシング結果から高解像度(HR)偏光画像を取得するように設計されていますが、DOPおよびAOPの誤った誤差を保持または増幅するように設計されています。
この論文では、PIDSRを提案します。PIDSRは、補完的な偏光画像デモサと超解像度を実行する共同フレームワークであり、CPFA RAW画像からより正確なDOPとAOPを使用して高品質のHR偏光画像を直接的に取得する能力を示しています。
実験は、PIDSRが合成データと実際のデータの両方で最先端のパフォーマンスを達成するだけでなく、下流のタスクを促進することを示しています。

要約(オリジナル)

Polarization cameras can capture multiple polarized images with different polarizer angles in a single shot, bringing convenience to polarization-based downstream tasks. However, their direct outputs are color-polarization filter array (CPFA) raw images, requiring demosaicing to reconstruct full-resolution, full-color polarized images; unfortunately, this necessary step introduces artifacts that make polarization-related parameters such as the degree of polarization (DoP) and angle of polarization (AoP) prone to error. Besides, limited by the hardware design, the resolution of a polarization camera is often much lower than that of a conventional RGB camera. Existing polarized image demosaicing (PID) methods are limited in that they cannot enhance resolution, while polarized image super-resolution (PISR) methods, though designed to obtain high-resolution (HR) polarized images from the demosaicing results, tend to retain or even amplify errors in the DoP and AoP introduced by demosaicing artifacts. In this paper, we propose PIDSR, a joint framework that performs complementary Polarized Image Demosaicing and Super-Resolution, showing the ability to robustly obtain high-quality HR polarized images with more accurate DoP and AoP from a CPFA raw image in a direct manner. Experiments show our PIDSR not only achieves state-of-the-art performance on both synthetic and real data, but also facilitates downstream tasks.

arxiv情報

著者 Shuangfan Zhou,Chu Zhou,Youwei Lyu,Heng Guo,Zhanyu Ma,Boxin Shi,Imari Sato
発行日 2025-04-10 13:56:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | PIDSR:ComplementaryPolarizedImageDemosaicingandSuper-Resolution はコメントを受け付けていません

PRAD: Periapical Radiograph Analysis Dataset and Benchmark Model Development

要約

人工知能の極めて重要な技術であるDeep Learning(DL)は、最近、歯科補助診断の領域でかなりの牽引力を獲得しました。
ただし、そのアプリケーションは、主にパノラマレントゲン写真やコーンビームコンピューター断層撮影などのイメージングモダリティに限定されており、特に根性X線撮影(PR)をターゲットにする補助分析に焦点が当てられています。
PRは、低コストで詳細な局所病変を捕捉する能力により、歯内療法および歯周で最も広範囲に利用されているイメージングモダリティです。
それにもかかわらず、解像度の制限やアーティファクトなどの課題は、PRの注釈と認識を複雑にし、公開され、大規模で高品質のPR分析データセットの不足につながります。
この希少性は、PR分析におけるDLアプリケーションの進歩を多少妨げています。
この論文では、PR分析用のデータセットであるPrad-10kを紹介します。
PRAD-10Kは、9つの異なる解剖学的構造、病変、人工修復物または医療機器のために専門歯科医が提供するピクセルレベルの注釈を備えた10,000の臨床根性X線撮影画像で構成されています。また、典型的な条件または病変を持つ画像の分類ラベルも含まれています。
さらに、PRNETという名前のDLネットワークを導入して、PRセグメンテーションタスクのベンチマークを確立します。
実験結果は、PRNETがPRAD-10Kデータセットで以前の最先端の医療画像セグメンテーションモデルを上回ることを示しています。
コードとデータセットは公開されます。

要約(オリジナル)

Deep learning (DL), a pivotal technology in artificial intelligence, has recently gained substantial traction in the domain of dental auxiliary diagnosis. However, its application has predominantly been confined to imaging modalities such as panoramic radiographs and Cone Beam Computed Tomography, with limited focus on auxiliary analysis specifically targeting Periapical Radiographs (PR). PR are the most extensively utilized imaging modality in endodontics and periodontics due to their capability to capture detailed local lesions at a low cost. Nevertheless, challenges such as resolution limitations and artifacts complicate the annotation and recognition of PR, leading to a scarcity of publicly available, large-scale, high-quality PR analysis datasets. This scarcity has somewhat impeded the advancement of DL applications in PR analysis. In this paper, we present PRAD-10K, a dataset for PR analysis. PRAD-10K comprises 10,000 clinical periapical radiograph images, with pixel-level annotations provided by professional dentists for nine distinct anatomical structures, lesions, and artificial restorations or medical devices, We also include classification labels for images with typical conditions or lesions. Furthermore, we introduce a DL network named PRNet to establish benchmarks for PR segmentation tasks. Experimental results demonstrate that PRNet surpasses previous state-of-the-art medical image segmentation models on the PRAD-10K dataset. The codes and dataset will be made publicly available.

arxiv情報

著者 Zhenhuan Zhou,Yuchen Zhang,Ruihong Xu,Xuansen Zhao,Tao Li
発行日 2025-04-10 13:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | PRAD: Periapical Radiograph Analysis Dataset and Benchmark Model Development はコメントを受け付けていません

Exploring a Patch-Wise Approach for Privacy-Preserving Fake ID Detection

要約

ますますデジタル化された世界では、IDドキュメントの信ity性を検証することは、デジタルバンキング、暗号エクスチャング、レンタルなどの実際のアプリケーションにとって重要な課題となっています。この研究は、フィールドのいくつかの制限をカバーする偽のID検出のトピックに焦点を当てています。
特に、実際のIDドキュメントから公開されているデータは存在しません。ほとんどの研究は、プライバシーの理由により利用できない独自の社内データベースに依存しています。
現場で前進するのが難しいこの重要な課題に光を当てるために、プライバシー(つまり、利用可能な機密データの量)とパフォーマンスのトレードオフを探り、プライバシーを提供する偽のID検出のための新しいパッチごとのアプローチを提案します。
提案されたアプローチでは、i)IDドキュメントの2つのレベルの匿名化(つまり、完全に擬似匿名化された)の2つのレベルの匿名化とii)異なるパッチサイズの構成は、パッチ画像に見える機密データの量を変化させます。
また、視覚変圧器や基礎モデルなどの最先端の方法が分析で考慮されています。
実験フレームワークは、目に見えないデータベース(DLC-2021)で、私たちの提案がパッチおよびIDドキュメントレベルで13.91%と0%EERを達成し、他のデータベースに良好な一般化を示していることを示しています。
この調査に加えて、私たちの研究のもう1つの重要な貢献は、GitHubで利用可能な実験的なフレームワークとモデルとともに、実際のIDドキュメントと偽のIDドキュメントの両方から48,400パッチを含む最初の公開データベースのリリースです。

要約(オリジナル)

In an increasingly digitalized world, verifying the authenticity of ID documents has become a critical challenge for real-life applications such as digital banking, crypto-exchanges, renting, etc. This study focuses on the topic of fake ID detection, covering several limitations in the field. In particular, no publicly available data from real ID documents exists, and most studies rely on proprietary in-house databases that are not available due to privacy reasons. In order to shed some light on this critical challenge that makes difficult to advance in the field, we explore a trade-off between privacy (i.e., amount of sensitive data available) and performance, proposing a novel patch-wise approach for privacy-preserving fake ID detection. Our proposed approach explores how privacy can be enhanced through: i) two levels of anonymization for an ID document (i.e., fully- and pseudo-anonymized), and ii) different patch size configurations, varying the amount of sensitive data visible in the patch image. Also, state-of-the-art methods such as Vision Transformers and Foundation Models are considered in the analysis. The experimental framework shows that, on an unseen database (DLC-2021), our proposal achieves 13.91% and 0% EERs at patch and ID document level, showing a good generalization to other databases. In addition to this exploration, another key contribution of our study is the release of the first publicly available database that contains 48,400 patches from both real and fake ID documents, along with the experimental framework and models, which will be available in our GitHub.

arxiv情報

著者 Javier Muñoz-Haro,Ruben Tolosana,Ruben Vera-Rodriguez,Aythami Morales,Julian Fierrez
発行日 2025-04-10 14:01:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV | Exploring a Patch-Wise Approach for Privacy-Preserving Fake ID Detection はコメントを受け付けていません

Focal Cortical Dysplasia Type II Detection Using Cross Modality Transfer Learning and Grad-CAM in 3D-CNNs for MRI Analysis

要約

局所皮質異形成(FCD)タイプIIは、薬物耐性てんかんの主な原因であり、しばしば手術でのみ治癒できます。
その臨床的重要性にもかかわらず、FCDの診断は微妙な異常のためにMRIで非常に困難であり、誤診につながります。
この研究では、FCD検出に3D畳み込みニューラルネットワーク(3D-CNNS)の使用を調査し、T1強調およびFLAIR MRIスキャンで構成される170人の被験者(85人のFCD患者と85人のコントロール)のデータセットを使用しています。
特に、クロスモダリティ転送学習と説明可能な人工知能(XAI)技術、特に勾配加重クラスの活性化マッピング(Grad-CAM)から得られる利点を調査します。
ResNetアーキテクチャ(ResNet -18、-34、および-50)が実装され、セグメンテーションタスクから事前に訓練された重みを使用する転送学習戦略を採用しました。
結果は、転送学習が、臨床的に関連する領域にモデルの焦点を評価する新しいヒートスコアメトリックで測定されるように、分類精度(最大80.3%)と解釈可能性を大幅に向上させることを示しています。
ヒートスコアメトリックの改善により、モデルの発作ゾーンのローカリゼーション機能が強調され、AIの予測と臨床的洞察がより近くなります。
これらの結果は、特にFCDなどの診断が困難な病状のために、AIベースの医療診断を進める際のクロスモダリティを含む転送学習の重要性を強調しています。

要約(オリジナル)

Focal cortical dysplasia (FCD) type II is a major cause of drug-resistant epilepsy, often curable only by surgery. Despite its clinical importance, the diagnosis of FCD is very difficult in MRI because of subtle abnormalities, leading to misdiagnosis. This study investigates the use of 3D convolutional neural networks (3D-CNNs) for FCD detection, using a dataset of 170 subjects (85 FCD patients and 85 controls) composed of T1-weighted and FLAIR MRI scans. In particular, it investigates the benefits obtained from cross-modality transfer learning and explainable artificial intelligence (XAI) techniques, in particular Gradient-weighted Class Activation Mapping (Grad-CAM). ResNet architectures (ResNet-18, -34, and -50) were implemented, employing transfer learning strategies that used pre-trained weights from segmentation tasks. Results indicate that transfer learning significantly enhances classification accuracy (up to 80.3%) and interpretability, as measured by a novel Heat-Score metric, which evaluates the model’s focus on clinically relevant regions. Improvements in the Heat-Score metric underscore the model’s seizure zone localization capabilities, bringing AI predictions and clinical insights closer together. These results highlight the importance of transfer learning, including cross-modality, and XAI in advancing AI-based medical diagnostics, especially for difficult-to-diagnose pathologies such as FCD.

arxiv情報

著者 Lorenzo Lasagni,Antonio Ciccarone,Renzo Guerrini,Matteo Lenge,Ludovico D’incerti
発行日 2025-04-10 14:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, physics.med-ph | Focal Cortical Dysplasia Type II Detection Using Cross Modality Transfer Learning and Grad-CAM in 3D-CNNs for MRI Analysis はコメントを受け付けていません

Adaptive Detection of Fast Moving Celestial Objects Using a Mixture of Experts and Physical-Inspired Neural Network

要約

速く動く天体のオブジェクトは、背景星の動きとは大きく異なる天体球全体の速度によって特徴付けられます。
観察画像では、これらのオブジェクトは明確な形状を示し、星の典型的な外観とは対照的です。
採用されている観測方法に応じて、これらの天体は、地球近くのオブジェクトまたは小惑星として指定される場合があります。
歴史的に、星と地球の相対的な安定性が、従来の速い天体の検出と分類アルゴリズムとともに、星と地球の相対的な安定性が効果的な画像違い技術を促進する地上伸縮を使用して、速く動く天体のオブジェクトが観察されてきました。
ただし、宇宙ベースの望遠鏡の拡大は、多様な観測モードとともに、異なる特性を持つ画像を生成し、従来の方法を効果的にしません。
このホワイトペーパーでは、星フィールド内の速く移動する天体物体を検出するための新しいアルゴリズムを紹介します。
私たちのアプローチは、物理的なニューラルネットワークに変換することにより、最先端の高速移動の天体オブジェクト検出ニューラルネットワークを強化します。
これらのニューラルネットワークは、望遠鏡のポイントスプレッド関数と特定の観測モードを事前の情報として活用します。
彼らは、追加のトレーニングを必要とせずに、星のフィールド内の動いている速い天のオブジェクトを直接識別することができ、それによって従来の技術の制限に対処することができます。
さらに、すべてのニューラルネットワークは、専門家の技術の混合を使用して統合され、包括的な速い移動する天体オブジェクト検出アルゴリズムを形成します。
宇宙ベースの望遠鏡シナリオと実際の観測画像によって実行されるさまざまな観測を模倣するシミュレートされた観測データを使用して、アルゴリズムを評価しました。
結果は、私たちの方法が異なる観測モードで速く移動する天のオブジェクトを効果的に検出することを示しています。

要約(オリジナル)

Fast moving celestial objects are characterized by velocities across the celestial sphere that significantly differ from the motions of background stars. In observational images, these objects exhibit distinct shapes, contrasting with the typical appearances of stars. Depending on the observational method employed, these celestial entities may be designated as near-Earth objects or asteroids. Historically, fast moving celestial objects have been observed using ground-based telescopes, where the relative stability of stars and Earth facilitated effective image differencing techniques alongside traditional fast moving celestial object detection and classification algorithms. However, the growing prevalence of space-based telescopes, along with their diverse observational modes, produces images with different properties, rendering conventional methods less effective. This paper presents a novel algorithm for detecting fast moving celestial objects within star fields. Our approach enhances state-of-the-art fast moving celestial object detection neural networks by transforming them into physical-inspired neural networks. These neural networks leverage the point spread function of the telescope and the specific observational mode as prior information; they can directly identify moving fast moving celestial objects within star fields without requiring additional training, thereby addressing the limitations of traditional techniques. Additionally, all neural networks are integrated using the mixture of experts technique, forming a comprehensive fast moving celestial object detection algorithm. We have evaluated our algorithm using simulated observational data that mimics various observations carried out by space based telescope scenarios and real observation images. Results demonstrate that our method effectively detects fast moving celestial objects across different observational modes.

arxiv情報

著者 Peng Jia,Ge Li,Bafeng Cheng,Yushan Li,Rongyu Sun
発行日 2025-04-10 14:15:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.EP, astro-ph.IM, cs.CV, cs.LG, physics.optics | Adaptive Detection of Fast Moving Celestial Objects Using a Mixture of Experts and Physical-Inspired Neural Network はコメントを受け付けていません

Towards Micro-Action Recognition with Limited Annotations: An Asynchronous Pseudo Labeling and Training Approach

要約

マイクロアクション認識(MAR)は、ビデオで微妙な人間の行動を分類することを目指しています。
ただし、MARデータセットへの注釈は、アクションの繊細さのために特に困難です。
この目的のために、サンプルの一部のみがラベル付けされている半監視MAR(SSMAR)の設定を紹介します。
最初にSSMARに対して従来の半監視学習(SSL)方法を評価し、これらの方法が不正確な疑似ラベルに過度に採用する傾向があることを発見し、エラーの蓄積とパフォーマンスの低下につながります。
この問題は、主に、分類器の予測を擬似ラベルとして直接使用してモデルを訓練するという一般的な慣行から生じます。
この問題を解決するために、非同期擬似ラベリングとトレーニング(APLT)と呼ばれる新しいフレームワークを提案します。これは、擬似標識プロセスをモデルトレーニングから明示的に分離します。
具体的には、より正確な擬似labelを生成するために、オフラインの疑似標識段階で半監視されたクラスタリング法を導入します。
さらに、さまざまなクラスのノイズの多いラベルを動的にフィルタリングするために、自己適応のしきい値戦略が提案されています。
次に、フィルタリングされた擬似ラベルに基づいてメモリベースのプロトタイプ分類子を構築します。これは、修正され、その後のモデルトレーニングフェーズをガイドするために使用されます。
2つの擬似標識とモデルのトレーニングフェーズを非同期的に交互にすることにより、モデルはより正確な擬似ラベルで学習するだけでなく、過度の問題を回避することもできます。
3つの3月のデータセットでの実験は、APLTが最先端のSSLメソッドを大幅に上回ることを示しています。
たとえば、APLTは、50 \%のラベル付きデータのみを使用している場合、MA-12データセットのFIXMATCHよりも14.5 \%増加します。
コードは公開されます。

要約(オリジナル)

Micro-Action Recognition (MAR) aims to classify subtle human actions in video. However, annotating MAR datasets is particularly challenging due to the subtlety of actions. To this end, we introduce the setting of Semi-Supervised MAR (SSMAR), where only a part of samples are labeled. We first evaluate traditional Semi-Supervised Learning (SSL) methods to SSMAR and find that these methods tend to overfit on inaccurate pseudo-labels, leading to error accumulation and degraded performance. This issue primarily arises from the common practice of directly using the predictions of classifier as pseudo-labels to train the model. To solve this issue, we propose a novel framework, called Asynchronous Pseudo Labeling and Training (APLT), which explicitly separates the pseudo-labeling process from model training. Specifically, we introduce a semi-supervised clustering method during the offline pseudo-labeling phase to generate more accurate pseudo-labels. Moreover, a self-adaptive thresholding strategy is proposed to dynamically filter noisy labels of different classes. We then build a memory-based prototype classifier based on the filtered pseudo-labels, which is fixed and used to guide the subsequent model training phase. By alternating the two pseudo-labeling and model training phases in an asynchronous manner, the model can not only be learned with more accurate pseudo-labels but also avoid the overfitting issue. Experiments on three MAR datasets show that our APLT largely outperforms state-of-the-art SSL methods. For instance, APLT improves accuracy by 14.5\% over FixMatch on the MA-12 dataset when using only 50\% labeled data. Code will be publicly available.

arxiv情報

著者 Yan Zhang,Lechao Cheng,Yaxiong Wang,Zhun Zhong,Meng Wang
発行日 2025-04-10 14:22:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Micro-Action Recognition with Limited Annotations: An Asynchronous Pseudo Labeling and Training Approach はコメントを受け付けていません

EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning

要約

画像テキストマッチングの最近の進歩は注目に値しましたが、主に広範なクエリに対応し、微調整されたクエリの意図に対応することに苦労しています。
この論文では、\ textbf {e} ntity-centric \ textbf {i} mage- \ textbf {t} ext \ textbf {m} atching(eitm)に向けて取り組みます。これは、テキストと画像が特定のエンティティ関連情報を含むタスクです。
このタスクの課題は、主にエンティティアソシエーションモデリングのより大きなセマンティックギャップにあり、一般的な画像テキストマッチングの問題と比較して、エンティティ中心のテキストと画像の間の大きなセマンティックギャップを狭めるために、バックボーンとして基本的なクリップを採用し、マルチモーダルの丁寧なコントラスト学習フレームワークをTAMクリップにEITMの問題を順応させるために使用します。
マルチモーダルの丁寧な対照学習の鍵は、ブリッジの手がかりとして大きな言語モデル(LLM)を使用して解釈的説明テキストを生成することです。
具体的には、既製のLLMSから説明テキストを抽出します。
この説明テキストは、画像とテキストと組み合わせて、特別に作成されたマルチモーダルAttentive Experts(MMAE)モジュールに入力されます。これにより、説明テキストを効果的に統合して、共有セマンティックスペースのエンティティ関連テキストと画像のギャップを絞り込みます。
MMAEから派生した濃縮機能に基づいて、効果的なゲート統合画像テキストマッチング(GI-ITM)戦略をさらに設計します。
GI-ITMは、MMAEの特徴を集約するための適応型ゲーティングメカニズムを採用し、その後、テキストと画像の間のアライメントを操縦するために画像テキストマッチング制約を適用します。
N24News、VisualNews、GoodNewsなどの3つのソーシャルメディアニュースベンチマークで広範な実験が行われます。結果は、この方法が競合方法を明確なマージンで上回ることを示しています。

要約(オリジナル)

Recent advancements in image-text matching have been notable, yet prevailing models predominantly cater to broad queries and struggle with accommodating fine-grained query intention. In this paper, we work towards the \textbf{E}ntity-centric \textbf{I}mage-\textbf{T}ext \textbf{M}atching (EITM), a task that the text and image involve specific entity-related information. The challenge of this task mainly lies in the larger semantic gap in entity association modeling, comparing with the general image-text matching problem.To narrow the huge semantic gap between the entity-centric text and the images, we take the fundamental CLIP as the backbone and devise a multimodal attentive contrastive learning framework to tam CLIP to adapt EITM problem, developing a model named EntityCLIP. The key of our multimodal attentive contrastive learning is to generate interpretive explanation text using Large Language Models (LLMs) as the bridge clues. In specific, we proceed by extracting explanatory text from off-the-shelf LLMs. This explanation text, coupled with the image and text, is then input into our specially crafted Multimodal Attentive Experts (MMAE) module, which effectively integrates explanation texts to narrow the gap of the entity-related text and image in a shared semantic space. Building on the enriched features derived from MMAE, we further design an effective Gated Integrative Image-text Matching (GI-ITM) strategy. The GI-ITM employs an adaptive gating mechanism to aggregate MMAE’s features, subsequently applying image-text matching constraints to steer the alignment between the text and the image. Extensive experiments are conducted on three social media news benchmarks including N24News, VisualNews, and GoodNews, the results shows that our method surpasses the competition methods with a clear margin.

arxiv情報

著者 Yaxiong Wang,Yujiao Wu,Lianwei Wu,Lechao Cheng,Zhun Zhong,Meng Wang
発行日 2025-04-10 14:23:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning はコメントを受け付けていません