SUM Parts: Benchmarking Part-Level Semantic Segmentation of Urban Meshes

要約

都市のシーン分析におけるセマンティックセグメンテーションは、主に画像またはポイントクラウドに焦点を合わせていますが、テクスチャされたメッシュ(より豊富な空間表現を提供)は露出度の低いままです。
このペーパーでは、パートレベルのセマンティックラベルを備えた都市のテクスチャメッシュの最初の大規模なデータセットであるSum Partsを紹介し、21のクラスで約2.5 km2をカバーしています。
データセットは、効率的なインタラクティブ選択を備えた顔とテクスチャベースの注釈の両方をサポートする独自の注釈ツールを使用して作成されました。
また、このデータセットで3Dセマンティックセグメンテーションとインタラクティブな注釈方法の包括的な評価を提供します。
プロジェクトページは、https://tudelft3d.github.io/sumparts/で入手できます。

要約(オリジナル)

Semantic segmentation in urban scene analysis has mainly focused on images or point clouds, while textured meshes – offering richer spatial representation – remain underexplored. This paper introduces SUM Parts, the first large-scale dataset for urban textured meshes with part-level semantic labels, covering about 2.5 km2 with 21 classes. The dataset was created using our own annotation tool, which supports both face- and texture-based annotations with efficient interactive selection. We also provide a comprehensive evaluation of 3D semantic segmentation and interactive annotation methods on this dataset. Our project page is available at https://tudelft3d.github.io/SUMParts/.

arxiv情報

著者 Weixiao Gao,Liangliang Nan,Hugo Ledoux
発行日 2025-03-19 15:22:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SUM Parts: Benchmarking Part-Level Semantic Segmentation of Urban Meshes はコメントを受け付けていません

Euclid Quick Data Release (Q1). Active galactic nuclei identification using diffusion-based inpainting of Euclid VIS images

要約

銀河からの光放出は、銀河タイプ、構造的特徴、他の銀河との相互作用などの要因の影響を受け、多様な輝度プロファイルを示します。
楕円形の銀河は、より均一な光分布を備えていますが、スパイラルおよび不規則な銀河は、構造的な不均一性と星形成活性のために複雑で多様な光プロファイルを持っています。
さらに、活性銀河核(AGN)を備えた銀河は、通常の銀河光に重ね合わせられ、銀河を支配するAGN放射の極端なケースである一方、超壁のブラックホールの周りのガス降着からの強い集中放出を特徴としています。
AGNとQSOを特定するという課題は、文献で何度も議論されており、多くの場合、多波長の観察が必要です。
このペーパーでは、単一の画像からAGNとQSOを識別するための新しいアプローチを紹介します。
拡散モデルは最近、機械学習文献で開発され、日常のオブジェクトの現実的な画像を生成しています。
ユークリッドVIS画像の空間分解力を利用して、ソースの事前選択やラベルを使用せずに、100万のソースでトレーニングされた拡散モデルを作成しました。
モデルは、母集団が支配しているため、通常の銀河の光分布を再構築することを学びます。
各ソースの中央の数ピクセルをマスクし、拡散モデルに従って光を再構築することにより、中央光分布の予測を条件付けます。
さらに、この予測を使用して、各ソースのコアで再生された少数の中央ピクセルの再構成エラーを調べることにより、このプロファイルから逸脱するソースを特定します。
私たちのアプローチは、VISイメージングのみを使用して、光学、近赤外、中赤外線、X線など、従来のAGNおよびQSO選択の方法と比較して高い完全性を特徴としています。
[要約]

要約(オリジナル)

Light emission from galaxies exhibit diverse brightness profiles, influenced by factors such as galaxy type, structural features and interactions with other galaxies. Elliptical galaxies feature more uniform light distributions, while spiral and irregular galaxies have complex, varied light profiles due to their structural heterogeneity and star-forming activity. In addition, galaxies with an active galactic nucleus (AGN) feature intense, concentrated emission from gas accretion around supermassive black holes, superimposed on regular galactic light, while quasi-stellar objects (QSO) are the extreme case of the AGN emission dominating the galaxy. The challenge of identifying AGN and QSO has been discussed many times in the literature, often requiring multi-wavelength observations. This paper introduces a novel approach to identify AGN and QSO from a single image. Diffusion models have been recently developed in the machine-learning literature to generate realistic-looking images of everyday objects. Utilising the spatial resolving power of the Euclid VIS images, we created a diffusion model trained on one million sources, without using any source pre-selection or labels. The model learns to reconstruct light distributions of normal galaxies, since the population is dominated by them. We condition the prediction of the central light distribution by masking the central few pixels of each source and reconstruct the light according to the diffusion model. We further use this prediction to identify sources that deviate from this profile by examining the reconstruction error of the few central pixels regenerated in each source’s core. Our approach, solely using VIS imaging, features high completeness compared to traditional methods of AGN and QSO selection, including optical, near-infrared, mid-infrared, and X-rays. [abridged]

arxiv情報

著者 Euclid Collaboration,G. Stevens,S. Fotopoulou,M. N. Bremer,T. Matamoro Zatarain,K. Jahnke,B. Margalef-Bentabol,M. Huertas-Company,M. J. Smith,M. Walmsley,M. Salvato,M. Mezcua,A. Paulino-Afonso,M. Siudek,M. Talia,F. Ricci,W. Roster,N. Aghanim,B. Altieri,S. Andreon,H. Aussel,C. Baccigalupi,M. Baldi,S. Bardelli,P. Battaglia,A. Biviano,A. Bonchi,E. Branchini,M. Brescia,J. Brinchmann,S. Camera,G. Cañas-Herrera,V. Capobianco,C. Carbone,J. Carretero,M. Castellano,G. Castignani,S. Cavuoti,K. C. Chambers,A. Cimatti,C. Colodro-Conde,G. Congedo,C. J. Conselice,L. Conversi,Y. Copin,A. Costille,F. Courbin,H. M. Courtois,M. Cropper,A. Da Silva,H. Degaudenzi,G. De Lucia,C. Dolding,H. Dole,M. Douspis,F. Dubath,X. Dupac,S. Dusini,S. Escoffier,M. Farina,S. Ferriol,K. George,C. Giocoli,B. R. Granett,A. Grazian,F. Grupp,S. V. H. Haugan,I. M. Hook,F. Hormuth,A. Hornstrup,P. Hudelot,M. Jhabvala,E. Keihänen,S. Kermiche,A. Kiessling,M. Kilbinger,B. Kubik,M. Kümmel,H. Kurki-Suonio,Q. Le Boulc’h,A. M. C. Le Brun,D. Le Mignant,P. B. Lilje,V. Lindholm,I. Lloro,G. Mainetti,D. Maino,E. Maiorano,O. Marggraf,M. Martinelli,N. Martinet,F. Marulli,R. Massey,S. Maurogordato,H. J. McCracken,E. Medinaceli,S. Mei,M. Melchior,M. Meneghetti,E. Merlin,G. Meylan,A. Mora,M. Moresco,L. Moscardini,R. Nakajima,C. Neissner,S. -M. Niemi,C. Padilla,S. Paltani,F. Pasian,K. Pedersen,W. J. Percival,V. Pettorino,G. Polenta,M. Poncet,L. A. Popa,L. Pozzetti,F. Raison,R. Rebolo,A. Renzi,J. Rhodes,G. Riccio,E. Romelli,M. Roncarelli,R. Saglia,A. G. Sánchez,D. Sapone,J. A. Schewtschenko,M. Schirmer,P. Schneider,T. Schrabback,A. Secroun,S. Serrano,P. Simon,C. Sirignano,G. Sirri,J. Skottfelt,L. Stanco,J. Steinwagner,P. Tallada-Crespí,A. N. Taylor,I. Tereno,S. Toft,R. Toledo-Moreo,F. Torradeflot,I. Tutusaus,L. Valenziano,J. Valiviita,T. Vassallo,G. Verdoes Kleijn,A. Veropalumbo,Y. Wang,J. Weller,A. Zacchei,G. Zamorani,F. M. Zerbi,I. A. Zinchenko,E. Zucca,V. Allevato,M. Ballardini,M. Bolzonella,E. Bozzo,C. Burigana,R. Cabanac,A. Cappi,J. A. Escartin Vigo,L. Gabarra,W. G. Hartley,J. Martín-Fleitas,S. Matthew,R. B. Metcalf,A. Pezzotta,M. Pöntinen,I. Risso,V. Scottez,M. Sereno,M. Tenti,M. Wiesmann,Y. Akrami,S. Alvi,I. T. Andika,S. Anselmi,M. Archidiacono,F. Atrio-Barandela,D. Bertacca,M. Bethermin,L. Bisigello,A. Blanchard,L. Blot,S. Borgani,M. L. Brown,S. Bruton,A. Calabro,F. Caro,T. Castro,F. Cogato,S. Davini,G. Desprez,A. Díaz-Sánchez,J. J. Diaz,S. Di Domizio,J. M. Diego,P. -A. Duc,A. Enia,Y. Fang,A. G. Ferrari,A. Finoguenov,A. Fontana,A. Franco,J. García-Bellido,T. Gasparetto,V. Gautard,E. Gaztanaga,F. Giacomini,F. Gianotti,M. Guidi,C. M. Gutierrez,A. Hall,S. Hemmati,H. Hildebrandt,J. Hjorth,J. J. E. Kajava,Y. Kang,V. Kansal,D. Karagiannis,C. C. Kirkpatrick,S. Kruk,L. Legrand,M. Lembo,F. Lepori,G. Leroy,J. Lesgourgues,L. Leuzzi,T. I. Liaudat,J. Macias-Perez,M. Magliocchetti,F. Mannucci,R. Maoli,C. J. A. P. Martins,L. Maurin,M. Miluzio,P. Monaco,G. Morgante,K. Naidoo,A. Navarro-Alsina,F. Passalacqua,K. Paterson,L. Patrizii,A. Pisani,D. Potter,S. Quai,M. Radovich,P. -F. Rocci,G. Rodighiero,S. Sacquegna,M. Sahlén,D. B. Sanders,E. Sarpa,A. Schneider,M. Schultheis,D. Sciotti,E. Sellentin,F. Shankar,L. C. Smith,K. Tanidis,G. Testera,R. Teyssier,S. Tosi,A. Troja,M. Tucci,C. Valieri,D. Vergani,G. Verza,N. A. Walton
発行日 2025-03-19 15:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.GA, cs.CV | Euclid Quick Data Release (Q1). Active galactic nuclei identification using diffusion-based inpainting of Euclid VIS images はコメントを受け付けていません

Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport

要約

画像内の複数の新規クラスを識別することは、オープンボキャブラリーマルチラベル認識として知られており、コンピュータービジョンにおける困難な作業です。
最近の研究では、Clipなどの強力なビジョン言語モデルの転送を調査しています。
ただし、これらのアプローチは2つの重要な課題に直面しています。(1)クリップのローカルセマンティクスは、そのグローバルなトレーニング前の目標のために破壊され、信頼できない地域の予測をもたらします。
(2)画像領域と候補ラベル間の一致するプロパティは無視されており、代わりに平均プーリングなどの素朴な特徴集計に依存しており、これは無関係な領域からの偽の予測につながります。
この論文では、上記の問題に効果的に対処する新しいフレームワークであるRAM(回復と一致)を提示します。
最初の問題に取り組むために、はしごローカルアダプター(LLA)を提案して、ローカル地域に再焦点を合わせ、メモリに優しい方法でローカルセマンティクスを回復します。
2番目の号では、タスクを最適な輸送問題として策定することにより、無意味なマッチングを非GTラベルに抑制するために、知識制限の最適輸送(KCOT)を提案します。
その結果、RAMは3つの異なるドメインからさまざまなデータセットで最新のパフォーマンスを達成し、既存の方法を高める大きな可能性を示しています。
コード:https://github.com/erictan7/ram。

要約(オリジナル)

Identifying multiple novel classes in an image, known as open-vocabulary multi-label recognition, is a challenging task in computer vision. Recent studies explore the transfer of powerful vision-language models such as CLIP. However, these approaches face two critical challenges: (1) The local semantics of CLIP are disrupted due to its global pre-training objectives, resulting in unreliable regional predictions. (2) The matching property between image regions and candidate labels has been neglected, relying instead on naive feature aggregation such as average pooling, which leads to spurious predictions from irrelevant regions. In this paper, we present RAM (Recover And Match), a novel framework that effectively addresses the above issues. To tackle the first problem, we propose Ladder Local Adapter (LLA) to enforce refocusing on local regions, recovering local semantics in a memory-friendly way. For the second issue, we propose Knowledge-Constrained Optimal Transport (KCOT) to suppress meaningless matching to non-GT labels by formulating the task as an optimal transport problem. As a result, RAM achieves state-of-the-art performance on various datasets from three distinct domains, and shows great potential to boost the existing methods. Code: https://github.com/EricTan7/RAM.

arxiv情報

著者 Hao Tan,Zichang Tan,Jun Li,Ajian Liu,Jun Wan,Zhen Lei
発行日 2025-03-19 15:33:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport はコメントを受け付けていません

Data-Free Dynamic Compression of CNNs for Tractable Efficiency

要約

リソース制約のデバイスでの畳み込みニューラルネットワーク(CNNS)の計算コストを削減するために、構造化された剪定アプローチは、精度を大幅に低下させることなく、浮動小数点操作(FLOPS)を下げることで有望であることを示しています。
ただし、ほとんどの方法では、保持された精度とフロップの減少との間の合理的なトレードオフを実現し、計算オーバーヘッドを追加し、トレーニングデータを利用できるようにするために、微調整または特定のトレーニング手順が必要です。
この目的のために、トレーニングや微調整なしでネットワークのテスト時間推論コストを即座に削減する、データフリーのプラグアンドプレイの畳み込みモジュールである急いで(扱いやすい効率のためのハッシュ)を提案します。
私たちのアプローチでは、局所に敏感なハッシュ(LSH)を利用して、潜在的な特徴マップのチャネル次元の冗長性を検出し、同様のチャネルを圧縮して入力とフィルターの深さを同時に減らし、より安価な畳み込みをもたらします。
人気のあるビジョンベンチマークCIFAR-10とImagenetでのアプローチを実証します。ここでは、フロップが46.72%減少し、HasteモジュールのCIFAR-10のResNet34の畳み込みモジュールを交換することにより、精度が1.25%減少します。

要約(オリジナル)

To reduce the computational cost of convolutional neural networks (CNNs) on resource-constrained devices, structured pruning approaches have shown promise in lowering floating-point operations (FLOPs) without substantial drops in accuracy. However, most methods require fine-tuning or specific training procedures to achieve a reasonable trade-off between retained accuracy and reduction in FLOPs, adding computational overhead and requiring training data to be available. To this end, we propose HASTE (Hashing for Tractable Efficiency), a data-free, plug-and-play convolution module that instantly reduces a network’s test-time inference cost without training or fine-tuning. Our approach utilizes locality-sensitive hashing (LSH) to detect redundancies in the channel dimension of latent feature maps, compressing similar channels to reduce input and filter depth simultaneously, resulting in cheaper convolutions. We demonstrate our approach on the popular vision benchmarks CIFAR-10 and ImageNet, where we achieve a 46.72% reduction in FLOPs with only a 1.25% loss in accuracy by swapping the convolution modules in a ResNet34 on CIFAR-10 for our HASTE module.

arxiv情報

著者 Lukas Meiner,Jens Mehnert,Alexandru Paul Condurache
発行日 2025-03-19 15:35:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Data-Free Dynamic Compression of CNNs for Tractable Efficiency はコメントを受け付けていません

FlowTok: Flowing Seamlessly Across Text and Image Tokens

要約

異なるモダリティを橋渡しすることは、クロスモダリティ世代の中心にあります。
従来のアプローチは、テキストモダリティをガウスノイズからターゲット画像モダリティまで徐々に導くコンディショニングシグナルとして扱いますが、フローマッチングを通じてテキストと画像のモダリティの間でよりシンプルなパラダイムダイレクトの進化を探ります。
これには、両方のモダリティを共有潜在スペースに投影する必要があります。これは、本質的に異なる表現のために重要な課題をもたらします。テキストは非常にセマンティックで1Dトークンとしてエンコードされますが、画像は空間的に冗長で2D潜在的な埋め込みとして表されます。
これに対処するために、画像をコンパクトな1Dトークン表現にエンコードすることにより、テキストと画像をシームレスに流れる最小限のフレームワークであるFlowtokを紹介します。
以前の方法と比較して、この設計により、256の画像解像度で潜在的な空間サイズが3.3倍になり、複雑なコンディショニングメカニズムまたはノイズスケジューリングの必要性が排除されます。
さらに、Flowtokは、同じ定式化の下で自然に画像間生成に拡張されます。
Compact 1Dトークンを中心とした合理化されたアーキテクチャにより、FlowTOKは非常にメモリ効率が高く、トレーニングリソースが大幅に少なくなり、最先端のモデルに匹敵するパフォーマンスを提供しながら、より速いサンプリング速度を達成します。
コードはhttps://github.com/bytedance/1d-tokenizerで入手できます。

要約(オリジナル)

Bridging different modalities lies at the heart of cross-modality generation. While conventional approaches treat the text modality as a conditioning signal that gradually guides the denoising process from Gaussian noise to the target image modality, we explore a much simpler paradigm-directly evolving between text and image modalities through flow matching. This requires projecting both modalities into a shared latent space, which poses a significant challenge due to their inherently different representations: text is highly semantic and encoded as 1D tokens, whereas images are spatially redundant and represented as 2D latent embeddings. To address this, we introduce FlowTok, a minimal framework that seamlessly flows across text and images by encoding images into a compact 1D token representation. Compared to prior methods, this design reduces the latent space size by 3.3x at an image resolution of 256, eliminating the need for complex conditioning mechanisms or noise scheduling. Moreover, FlowTok naturally extends to image-to-text generation under the same formulation. With its streamlined architecture centered around compact 1D tokens, FlowTok is highly memory-efficient, requires significantly fewer training resources, and achieves much faster sampling speeds-all while delivering performance comparable to state-of-the-art models. Code will be available at https://github.com/bytedance/1d-tokenizer.

arxiv情報

著者 Ju He,Qihang Yu,Qihao Liu,Liang-Chieh Chen
発行日 2025-03-19 15:39:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FlowTok: Flowing Seamlessly Across Text and Image Tokens はコメントを受け付けていません

TruthLens:A Training-Free Paradigm for DeepFake Detection

要約

高度なAIモデルによって生成された合成画像の増殖は、操作された視覚コンテンツを特定して理解する上で重要な課題をもたらします。
現在の偽の画像検出方法は、精度に焦点を当てながら解釈可能性を無視することが多いバイナリ分類モデルに主に依存しており、ユーザーが画像が本物または偽物と見なされる理由について明確な洞察を与えません。
このギャップを埋めるために、視覚的な質問(VQA)タスクとしてディープファークの検出を再考する新しいトレーニングなしのフレームワークであるTruthLensを紹介します。
TruthLensは、最先端の大型ビジョン言語モデル(LVLMS)を利用して視覚的アーティファクトを観察および説明し、これをGPT-4などの大規模な言語モデル(LLM)の推論能力と組み合わせて、証拠を分析して情報に基づいた決定に集約します。
マルチモーダルアプローチを採用することにより、TruthLensは視覚的およびセマンティックな推論をシームレスに統合して、画像を実際のまたは偽物として分類するだけでなく、その決定について解釈可能な説明を提供します。
この透明性は信頼を高め、合成含有量を信号するアーティファクトに対する貴重な洞察を提供します。
広範な評価は、Truthlensが従来の方法を上回り、説明可能性に強力な重点を維持しながら、挑戦的なデータセットの精度を達成することを示しています。
Truthlensは、推論主導型のプロセスとしてDeepFake検出を再構成することにより、合成媒体との闘いにおける新しいパラダイムを確立し、最先端のパフォーマンスと解釈可能性を組み合わせて、視覚的な偽情報の増大する脅威に対処します。

要約(オリジナル)

The proliferation of synthetic images generated by advanced AI models poses significant challenges in identifying and understanding manipulated visual content. Current fake image detection methods predominantly rely on binary classification models that focus on accuracy while often neglecting interpretability, leaving users without clear insights into why an image is deemed real or fake. To bridge this gap, we introduce TruthLens, a novel training-free framework that reimagines deepfake detection as a visual question-answering (VQA) task. TruthLens utilizes state-of-the-art large vision-language models (LVLMs) to observe and describe visual artifacts and combines this with the reasoning capabilities of large language models (LLMs) like GPT-4 to analyze and aggregate evidence into informed decisions. By adopting a multimodal approach, TruthLens seamlessly integrates visual and semantic reasoning to not only classify images as real or fake but also provide interpretable explanations for its decisions. This transparency enhances trust and provides valuable insights into the artifacts that signal synthetic content. Extensive evaluations demonstrate that TruthLens outperforms conventional methods, achieving high accuracy on challenging datasets while maintaining a strong emphasis on explainability. By reframing deepfake detection as a reasoning-driven process, TruthLens establishes a new paradigm in combating synthetic media, combining cutting-edge performance with interpretability to address the growing threats of visual disinformation.

arxiv情報

著者 Ritabrata Chakraborty,Rajatsubhra Chakraborty,Ali Khaleghi Rahimian,Thomas MacDougall
発行日 2025-03-19 15:41:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | TruthLens:A Training-Free Paradigm for DeepFake Detection はコメントを受け付けていません

Leveraging Perfect Multimodal Alignment and Gaussian Assumptions for Cross-modal Transfer

要約

Multimodal Alignmentは、同じベクトルに同じ概念マップを表す2つのモダリティを表すジョイント潜在ベクトル空間を構築することを目的としています。
これを逆の問題として定式化し、特定の条件下で完全なアライメントを達成できることを示します。
次に、クロスモーダル転送と呼ばれるアライメントの特定の応用に対処します。
監視されていないクロスモーダル転送は、1つのモダリティで訓練されたモデルを活用して、新しいモダリティにラベル付けされた微調整なしに、別のモダリティに推論を実行することを目的としています。
セマンティッククラスが潜在空間のガウスの混合物として表されていると仮定すると、表現空間からデータポイントを各モダリティを表す異なる部分空間に投影することにより、クロスモーダル転送がどのように実行できるかを示します。
合成マルチモーダルガウスデータに関する実験では、完璧なアライメントおよびクロスモーダル転送方法の有効性が検証されています。
これらの発見が、完全なアライメントの応用と、クロスモーダル学習のためのガウスモデルの使用のさらなる調査を刺激することを願っています。

要約(オリジナル)

Multimodal alignment aims to construct a joint latent vector space where two modalities representing the same concept map to the same vector. We formulate this as an inverse problem and show that under certain conditions perfect alignment can be achieved. We then address a specific application of alignment referred to as cross-modal transfer. Unsupervised cross-modal transfer aims to leverage a model trained with one modality to perform inference on another modality, without any labeled fine-tuning on the new modality. Assuming that semantic classes are represented as a mixture of Gaussians in the latent space, we show how cross-modal transfer can be performed by projecting the data points from the representation space onto different subspaces representing each modality. Our experiments on synthetic multimodal Gaussian data verify the effectiveness of our perfect alignment and cross-modal transfer method. We hope these findings inspire further exploration of the applications of perfect alignment and the use of Gaussian models for cross-modal learning.

arxiv情報

著者 Abhi Kamboj,Minh N. Do
発行日 2025-03-19 15:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.SP | Leveraging Perfect Multimodal Alignment and Gaussian Assumptions for Cross-modal Transfer はコメントを受け付けていません

SemEval-2025 Task 1: AdMIRe — Advancing Multimodal Idiomaticity Representation

要約

慣用的な表現は、NLPにユニークな課題を提示します。その意味は、構成要素の単語から直接推測されないことが多いためです。
最近の大規模な言語モデル(LLMS)における進歩にもかかわらず、慣用度は堅牢なセマンティック表現に対する重要な障害のままです。
SEMVAL-2025のデータセットとタスクを提示します。タスク1:賞賛(マルチモーダルの慣用度表現の進歩)。これは、マルチモーダルコンテキストおよび複数の言語での慣用表現を解釈するモデルの能力を評価および改善するようコミュニティに挑戦します。
参加者は、2つのサブタスクで競い合いました。慣用的または文字通りの意味との調整に基づいて画像をランキングし、次の画像をシーケンスで予測します。
最も効果的な方法は、混合物の設定で前処理されたLLMSおよび視覚言語モデルを活用することにより、人間レベルのパフォーマンスを達成しました。

要約(オリジナル)

Idiomatic expressions present a unique challenge in NLP, as their meanings are often not directly inferable from their constituent words. Despite recent advancements in Large Language Models (LLMs), idiomaticity remains a significant obstacle to robust semantic representation. We present datasets and tasks for SemEval-2025 Task 1: AdMiRe (Advancing Multimodal Idiomaticity Representation), which challenges the community to assess and improve models’ ability to interpret idiomatic expressions in multimodal contexts and in multiple languages. Participants competed in two subtasks: ranking images based on their alignment with idiomatic or literal meanings, and predicting the next image in a sequence. The most effective methods achieved human-level performance by leveraging pretrained LLMs and vision-language models in mixture-of-experts settings, with multiple queries used to smooth over the weaknesses in these models’ representations of idiomaticity.

arxiv情報

著者 Thomas Pickard,Aline Villavicencio,Maggie Mi,Wei He,Dylan Phelps,Carolina Scarton,Marco Idiart
発行日 2025-03-19 15:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, I.2.7 | SemEval-2025 Task 1: AdMIRe — Advancing Multimodal Idiomaticity Representation はコメントを受け付けていません

Boosting HDR Image Reconstruction via Semantic Knowledge Transfer

要約

LDR画像が顕著な分解と欠落コンテンツを示すと、複数の低ダイナミックレンジ(LDR)画像から高いダイナミックレンジ(HDR)画像を回復することが困難になります。
シーン固有のセマンティックプライアーズを活用すると、大幅に劣化した地域を復元するための有望なソリューションが提供されます。
ただし、これらのプライアーは通常、SRGB標準ダイナミックレンジ(SDR)画像から抽出されます。ドメイン/フォーマットギャップは、HDRイメージングに適用する際に大きな課題をもたらします。
この問題に対処するために、既存のHDR再構成を強化するために、自己抵抗を介してSDRドメインから派生したセマンティック知識を転送する一般的なフレームワークを提案します。
具体的には、提案されたフレームワークでは、最初にSMNACT PRIORS Guided Reconstruction Model(SPGRM)を導入します。これは、SDR画像セマンティック知識を活用して、初期のHDR再構成結果の不適切な問題に対処します。
その後、ベースラインとSPGRMの間の外部出力を整列させ、セマンティック知識を備えた色とコンテンツ情報を制約する自己抵抗メカニズムを活用します。
さらに、内部機能のセマンティック知識を転送するために、セマンティックナレッジアラインメントモジュール(SKAM)を利用して、欠落しているセマンティックコンテンツを補完的なマスクで埋めます。
広範な実験は、我々の方法が既存の方法のHDRイメージング品質を大幅に改善できることを示しています。

要約(オリジナル)

Recovering High Dynamic Range (HDR) images from multiple Low Dynamic Range (LDR) images becomes challenging when the LDR images exhibit noticeable degradation and missing content. Leveraging scene-specific semantic priors offers a promising solution for restoring heavily degraded regions. However, these priors are typically extracted from sRGB Standard Dynamic Range (SDR) images, the domain/format gap poses a significant challenge when applying it to HDR imaging. To address this issue, we propose a general framework that transfers semantic knowledge derived from SDR domain via self-distillation to boost existing HDR reconstruction. Specifically, the proposed framework first introduces the Semantic Priors Guided Reconstruction Model (SPGRM), which leverages SDR image semantic knowledge to address ill-posed problems in the initial HDR reconstruction results. Subsequently, we leverage a self-distillation mechanism that constrains the color and content information with semantic knowledge, aligning the external outputs between the baseline and SPGRM. Furthermore, to transfer the semantic knowledge of the internal features, we utilize a semantic knowledge alignment module (SKAM) to fill the missing semantic contents with the complementary masks. Extensive experiments demonstrate that our method can significantly improve the HDR imaging quality of existing methods.

arxiv情報

著者 Qingsen Yan,Tao Hu,Genggeng Chen,Wei Dong,Yanning Zhang
発行日 2025-03-19 16:01:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Boosting HDR Image Reconstruction via Semantic Knowledge Transfer はコメントを受け付けていません

EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models

要約

マルチモーダルの大規模な言語モデルは、複雑な推論タスクで強力なパフォーマンスを示していますが、展開中のモデルの複雑さ、特にリソース制限デバイスの複雑さに関連する重要な課題をもたらします。
このホワイトペーパーでは、マルチモーダル推論の効率を高めるために、大きな視覚言語モデルの自動剪定方法を提案します。
従来の方法は、元のモデルのトレーニングデータに依存して、さまざまなネットワークコンポーネントの適切な剪定比を選択します。
ただし、これらの方法は、Webスケールのトレーニングコーパスによって引き起こされる手頃な検索コストのため、大きなビジョン言語モデルでは非現実的です。
対照的に、私たちのアプローチは、モデルの精度を維持しながら未知のトレーニングデータの一般化能力を最大化することにより、目的のプルーニングポリシーを検索するために少数のサンプルを活用して、大規模な視覚言語モデルの精度と効率の最適なトレードオフの達成を可能にします。
具体的には、構造リスク最小化原則を使用して、剪定戦略の一般化ギャップを策定します。
タスクのパフォーマンスと一般化機能の両方に基づいて、特定の検索スペース内の最適な剪定ポリシーを繰り返し検索し、ビジョンプロジェクターを最適化して、パフォーマンスの上限で検索スペースを進化させます。
ScienceQA、Vizwiz、MM-Vet、およびLlava-Benchデータセットに関する広範な実験を行い、視覚的な質問に応答するタスクを行います。
剪定ポリシー検索に64個のサンプルのみを使用して、EfficientLlavaはScienceQAで83.05%の精度を達成し、Llava-V1.5-7Bの密なモデルと比較して$ 1.8のスピードアップを達成します。

要約(オリジナル)

While multimodal large language models demonstrate strong performance in complex reasoning tasks, they pose significant challenges related to model complexity during deployment, especially for resource-limited devices. In this paper, we propose an automatic pruning method for large vision-language models to enhance the efficiency of multimodal reasoning. Conventional methods rely on the training data of the original model to select the proper pruning ratio for different network components. However, these methods are impractical for large vision-language models due to the unaffordable search costs caused by web-scale training corpus. In contrast, our approach only leverages a small number of samples to search for the desired pruning policy by maximizing its generalization ability on unknown training data while maintaining the model accuracy, which enables the achievement of an optimal trade-off between accuracy and efficiency for large visual language models. Specifically, we formulate the generalization gap of the pruning strategy using the structural risk minimization principle. Based on both task performance and generalization capability, we iteratively search for the optimal pruning policy within a given search space and optimize the vision projector to evolve the search space with higher upper bound of performance. We conduct extensive experiments on the ScienceQA, Vizwiz, MM-vet, and LLaVA-Bench datasets for the task of visual question answering. Using only 64 samples for pruning policy search, EfficientLLaVA achieves an accuracy of 83.05% on ScienceQA, along with a $\times$ 1.8 speedup compared to the dense LLaVA-v1.5-7B model.

arxiv情報

著者 Yinan Liang,Ziwei Wang,Xiuwei Xu,Jie Zhou,Jiwen Lu
発行日 2025-03-19 16:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models はコメントを受け付けていません