Steering CLIP’s vision transformer with sparse autoencoders

要約

ビジョンモデルは非常に有能ですが、内部メカニズムはよく理解されていません。これは、まばらな自動エンコーダー(SAE)が言語で対処するのに役立っている課題ですが、ビジョンでは採用されていないままです。
ClipのビジョントランスでSAEをトレーニングすることにより、このギャップに対処し、レイヤーとトークンタイプを介したSAEの明確なスパース性パターンを含む、ビジョンと言語処理の重要な違いを明らかにします。
次に、メトリックを導入して、SAE機能を正確に操縦してモデルの出力に影響を与える方法を定量化することにより、Clipのビジョントランスの操縦性に関する最初の体系的な分析を提供します。
ニューロンと特徴の10〜15%が操縦可能であり、SAEはベースモデルよりも数千の操縦可能な機能を提供していることがわかります。
SAE機能のターゲットを絞った抑制を通じて、3つの視力解除タスク(セレバ、水鳥、タイポグラフィ攻撃)のパフォーマンスの向上を実証し、中間モデル層で最適な解散を見つけ、タイポグラフィ攻撃に対する防御に関する最先端のパフォーマンスを達成します。

要約(オリジナル)

While vision models are highly capable, their internal mechanisms remain poorly understood — a challenge which sparse autoencoders (SAEs) have helped address in language, but which remains underexplored in vision. We address this gap by training SAEs on CLIP’s vision transformer and uncover key differences between vision and language processing, including distinct sparsity patterns for SAEs trained across layers and token types. We then provide the first systematic analysis on the steerability of CLIP’s vision transformer by introducing metrics to quantify how precisely SAE features can be steered to affect the model’s output. We find that 10-15\% of neurons and features are steerable, with SAEs providing thousands more steerable features than the base model. Through targeted suppression of SAE features, we then demonstrate improved performance on three vision disentanglement tasks (CelebA, Waterbirds, and typographic attacks), finding optimal disentanglement in middle model layers, and achieving state-of-the-art performance on defense against typographic attacks.

arxiv情報

著者 Sonia Joseph,Praneet Suresh,Ethan Goldfarb,Lorenz Hufe,Yossi Gandelsman,Robert Graham,Danilo Bzdok,Wojciech Samek,Blake Aaron Richards
発行日 2025-04-11 17:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Steering CLIP’s vision transformer with sparse autoencoders はコメントを受け付けていません

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

要約

自己回帰(AR)画像生成では、視覚トークンザーは画像をコンパクトな離散潜在トークンに圧縮し、次のトークン予測を介した視覚生成のための下流の自己回帰モデルの効率的なトレーニングを可能にします。
視覚トークンザーをスケーリングすると画像の再構成の品質が向上しますが、多くの場合、下流の生成品質を低下させます。これは、既存の文献では適切に対処されていない課題です。
これに対処するために、視覚トークナーをスケーリングするときに画像の再構築、生成、および表現学習を同時に改善する最初のアプローチであるGigatokを紹介します。
潜在空間の複雑さの増大は、再構築と世代のジレンマの背後にある重要な要因として特定します。
これを緩和するために、セマンティックの正則化を提案します。これは、トークン剤機能を事前に訓練した視覚エンコーダーの意味的に一貫した機能と並べることを提案します。
この制約により、スケーリング中の過度の潜在スペースの複雑さが防止され、再構築と下流の自己回帰生成の両方で一貫した改善が得られます。
セマンティックな正則化に基づいて、トークン剤のスケーリングのための3つの重要なプラクティスを探ります。(1)1Dトーナイザーを使用して、より良いスケーラビリティを使用して、(2)エンコーダーとデコーダーの両方を拡張するときにデコーダースケーリングを優先し、(3)エントロピー損失を使用して、BELLIONSCALEトークンザーのトレーニングを安定化するためにエントロピー損失を使用します。
Gigatokは、$ \ BF {3 \ space 10億} $パラメーターにスケーリングすることにより、再構築、下流のAR生成、および下流のAR表現品質の最先端のパフォーマンスを達成します。

要約(オリジナル)

In autoregressive (AR) image generation, visual tokenizers compress images into compact discrete latent tokens, enabling efficient training of downstream autoregressive models for visual generation via next-token prediction. While scaling visual tokenizers improves image reconstruction quality, it often degrades downstream generation quality — a challenge not adequately addressed in existing literature. To address this, we introduce GigaTok, the first approach to simultaneously improve image reconstruction, generation, and representation learning when scaling visual tokenizers. We identify the growing complexity of latent space as the key factor behind the reconstruction vs. generation dilemma. To mitigate this, we propose semantic regularization, which aligns tokenizer features with semantically consistent features from a pre-trained visual encoder. This constraint prevents excessive latent space complexity during scaling, yielding consistent improvements in both reconstruction and downstream autoregressive generation. Building on semantic regularization, we explore three key practices for scaling tokenizers:(1) using 1D tokenizers for better scalability, (2) prioritizing decoder scaling when expanding both encoder and decoder, and (3) employing entropy loss to stabilize training for billion-scale tokenizers. By scaling to $\bf{3 \space billion}$ parameters, GigaTok achieves state-of-the-art performance in reconstruction, downstream AR generation, and downstream AR representation quality.

arxiv情報

著者 Tianwei Xiong,Jun Hao Liew,Zilong Huang,Jiashi Feng,Xihui Liu
発行日 2025-04-11 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation はコメントを受け付けていません

ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis

要約

シーンの再構築と理解の最近の作業は、物理的な3D環境に自然言語を接地することで進歩しましたが、3Dシーンへの抽象的な高レベルの指示を接地することは依然として困難です。
高レベルの命令は、シーン内のセマンティック要素を明示的に呼び出さない場合があり、高レベルのタスクをより具体的なサブタスクのセットに分割するプロセスでさえ、階層タスク分析と呼ばれるプロセスが環境に依存します。
この作業では、高レベルのタスクを接地されたサブタスクに分解することにより、3Dシーングラフに接地されたタスク階層を生成する最初のフレームワークであるAshitaを提案します。
ASHITAは、LLM支援の階層タスク分析を交互にして、タスク駆動型の3Dシーングラフ構造を使用して、環境の適切な表現を生成します。
私たちの実験は、AshitaがLLMベースラインよりも高レベルのタスクを環境依存のサブタスクに分解する際に大幅に優れていることを示しており、さらに最先端の方法に匹敵する接地性能を達成できることが示されています。

要約(オリジナル)

While recent work in scene reconstruction and understanding has made strides in grounding natural language to physical 3D environments, it is still challenging to ground abstract, high-level instructions to a 3D scene. High-level instructions might not explicitly invoke semantic elements in the scene, and even the process of breaking a high-level task into a set of more concrete subtasks, a process called hierarchical task analysis, is environment-dependent. In this work, we propose ASHiTA, the first framework that generates a task hierarchy grounded to a 3D scene graph by breaking down high-level tasks into grounded subtasks. ASHiTA alternates LLM-assisted hierarchical task analysis, to generate the task breakdown, with task-driven 3D scene graph construction to generate a suitable representation of the environment. Our experiments show that ASHiTA performs significantly better than LLM baselines in breaking down high-level tasks into environment-dependent subtasks and is additionally able to achieve grounding performance comparable to state-of-the-art methods.

arxiv情報

著者 Yun Chang,Leonor Fermoselle,Duy Ta,Bernadette Bucher,Luca Carlone,Jiuguang Wang
発行日 2025-04-11 12:57:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis はコメントを受け付けていません

Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering

要約

機械翻訳評価の着実な進歩にもかかわらず、既存の自動メトリックは、文の境界を超えて意味がどれほどうまく保持されているかを把握するのに苦労しています。
人間の判断を模倣するために訓練された単一の内因性の品質スコアへの依存は、長く複雑な文章の翻訳を評価するには不十分である可能性があり、より正確に重要な情報がコンテキストの翻訳によって伝えられるかを評価する「実用的」アプローチが必要であると仮定します。
TREQA(質問回答による翻訳評価)を紹介します。これは、元のソースまたはリファレンステキストの重要な情報をターゲットにする翻訳の正確な翻訳に正確な候補にどのように回答するかを評価することにより、翻訳の品質を補外的に評価するフレームワークです。
文学テキストなどの長期的な理解を必要とする挑戦的なドメインでは、TREQAが競争力があり、場合によっては、人間の判断と相関するように明示的に最適化されることはありませんが、ランキングの代替段落レベルの翻訳で最先端のニューラルおよびLLMベースのメトリックを上回ることを示します。
さらに、生成された質問と回答は解釈可能性を提供します。経験的分析は、評価されたデータセットの専門家によって特定された翻訳エラーを効果的にターゲットにしていることを示しています。
私たちのコードは、https://github.com/deep-spin/treqaで入手できます

要約(オリジナル)

Despite the steady progress in machine translation evaluation, existing automatic metrics struggle to capture how well meaning is preserved beyond sentence boundaries. We posit that reliance on a single intrinsic quality score, trained to mimic human judgments, might be insufficient for evaluating translations of long, complex passages, and a more “pragmatic” approach that assesses how accurately key information is conveyed by a translation in context is needed. We introduce TREQA (Translation Evaluation via Question-Answering), a framework that extrinsically evaluates translation quality by assessing how accurately candidate translations answer reading comprehension questions that target key information in the original source or reference texts. In challenging domains that require long-range understanding, such as literary texts, we show that TREQA is competitive with and, in some cases, outperforms state-of-the-art neural and LLM-based metrics in ranking alternative paragraph-level translations, despite never being explicitly optimized to correlate with human judgments. Furthermore, the generated questions and answers offer interpretability: empirical analysis shows that they effectively target translation errors identified by experts in evaluated datasets. Our code is available at https://github.com/deep-spin/treqa

arxiv情報

著者 Patrick Fernandes,Sweta Agrawal,Emmanouil Zaranis,André F. T. Martins,Graham Neubig
発行日 2025-04-11 08:22:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering はコメントを受け付けていません

Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

要約

1,350億パラメーターとAscend Neural Processingユニット(NPU)で訓練された密なトランスモジュールを備えた大規模な言語モデル(LLM)であるPangu Ultraを紹介します。
LLMの分野は、近年、LLMのスケールと能力を推進することに前例のない進歩を目撃していますが、このような大規模なモデルをトレーニングするには、依然として大きな最適化とシステムの課題が含まれます。
トレーニングプロセスを安定させるために、深いモデルのトレーニングプロセス中に損失スパイクを効果的に排除する深さスケールのサンドイッチ正規化を提案します。
モデルを13.2兆個の多様で高品質のトークンで事前に訓練し、トレーニング後の推論機能をさらに強化します。
このような大規模なトレーニングを効率的に実行するために、一連のシステム最適化で8,192 Ascend NPUを利用します。
複数の多様なベンチマークの評価は、Pangu UltraがLlama 405BやMistral Large 2などの密なLLMの最先端の機能を大幅に進歩させ、DeepSeek-R1との競争結果を達成することさえ、より多くのモデル構造がより多くのパラメーターを含むことを示しています。
私たちの調査は、Ascend NPUが1,000億以上のパラメーターで密なモデルを効率的かつ効果的にトレーニングできることを示しています。
私たちのモデルとシステムは、商業顧客が利用できるようになります。

要約(オリジナル)

We present Pangu Ultra, a Large Language Model (LLM) with 135 billion parameters and dense Transformer modules trained on Ascend Neural Processing Units (NPUs). Although the field of LLM has been witnessing unprecedented advances in pushing the scale and capability of LLM in recent years, training such a large-scale model still involves significant optimization and system challenges. To stabilize the training process, we propose depth-scaled sandwich normalization, which effectively eliminates loss spikes during the training process of deep models. We pre-train our model on 13.2 trillion diverse and high-quality tokens and further enhance its reasoning capabilities during post-training. To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1, whose sparse model structure contains much more parameters. Our exploration demonstrates that Ascend NPUs are capable of efficiently and effectively training dense models with more than 100 billion parameters. Our model and system will be available for our commercial customers.

arxiv情報

著者 Yichun Yin,Wenyong Huang,Kaikai Song,Yehui Tang,Xueyu Wu,Wei Guo,Peng Guo,Yaoyuan Wang,Xiaojun Meng,Yasheng Wang,Dong Li,Can Chen,Dandan Tu,Yin Li,Fisher Yu,Ruiming Tang,Yunhe Wang,Baojun Wang,Bin Wang,Bo Wang,Boxiao Liu,Changzheng Zhang,Duyu Tang,Fei Mi,Hui Jin,Jiansheng Wei,Jiarui Qin,Jinpeng Li,Jun Zhao,Liqun Deng,Lin Li,Minghui Xu,Naifu Zhang,Nianzu Zheng,Qiang Li,Rongju Ruan,Shengjun Cheng,Tianyu Guo,Wei He,Wei Li,Weiwen Liu,Wulong Liu,Xinyi Dai,Yonghan Dong,Yu Pan,Yue Li,Yufei Wang,Yujun Li,Yunsheng Ni,Zhe Liu,Zhenhe Zhang,Zhicheng Liu
発行日 2025-04-11 07:47:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs はコメントを受け付けていません

Enhancing Human-Robot Interaction in Healthcare: A Study on Nonverbal Communication Cues and Trust Dynamics with NAO Robot Caregivers

要約

高齢者の人口が増加すると、人間とロボットのケア提供者の両方が必要になります。
伝統的な慣行には、食事を提供し、基本的なニーズに応えるために人間の介護者を雇うことが含まれますが、高齢者は継続的な交際と健康監視を必要とすることがよくあります。
ただし、この仕事のために人間の介護者を雇うには多くのお金がかかります。
ただし、NAOのようなロボットを使用することは、より安くて役立つ可能性があります。
この研究では、高齢者の健康監視と介護におけるヒューマノイドロボット、特にNAOの統合を調査します。
被験者内の要因設計で混合メソッドアプローチを使用して、人間とロボットの相互作用を強化する際に、タッチ、ジェスチャー、LEDパターンなどの非言語コミュニケーションモダリティの有効性を調査しました。
我々の結果は、NAOのタッチベースの健康監視が参加者によって好評であり、さまざまな次元にわたってプラスの評価があることを示しています。
LEDパターンは、手とヘッドのジェスチャーと比較して、より効果的で正確であると認識されていました。
さらに、より長い相互作用は、より高い信頼レベルと知覚される共感と関連しており、人間とロボットの相互作用に対する信頼を促進する上で長期にわたる関与の重要性を強調しています。
制限にもかかわらず、私たちの研究は、高齢者の健康監視と介護を改善するためのヒューマノイドロボットの可能性についての貴重な洞察を提供しています。

要約(オリジナル)

As the population of older adults increases, so will the need for both human and robot care providers. While traditional practices involve hiring human caregivers to serve meals and attend to basic needs, older adults often require continuous companionship and health monitoring. However, hiring human caregivers for this job costs a lot of money. However, using a robot like Nao could be cheaper and still helpful. This study explores the integration of humanoid robots, particularly Nao, in health monitoring and caregiving for older adults. Using a mixed-methods approach with a within-subject factorial design, we investigated the effectiveness of nonverbal communication modalities, including touch, gestures, and LED patterns, in enhancing human-robot interactions. Our results indicate that Nao’s touch-based health monitoring was well-received by participants, with positive ratings across various dimensions. LED patterns were perceived as more effective and accurate compared to hand and head gestures. Moreover, longer interactions were associated with higher trust levels and perceived empathy, highlighting the importance of prolonged engagement in fostering trust in human-robot interactions. Despite limitations, our study contributes valuable insights into the potential of humanoid robots to improve health monitoring and caregiving for older adults.

arxiv情報

著者 S M Taslim Uddin Raju
発行日 2025-04-11 01:24:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Enhancing Human-Robot Interaction in Healthcare: A Study on Nonverbal Communication Cues and Trust Dynamics with NAO Robot Caregivers はコメントを受け付けていません

A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions

要約

継続的なトレーニングのための高品質の推論データの合成は、大規模な言語モデル(LLM)のパフォーマンスを向上させるのに効果的であることが証明されています。
ただし、以前の合成アプローチは、データを簡単にスケールアップし、高品質を追求するために高いコストを負担するのに苦労しています。
この論文では、高品質の推論データ合成のための経済的でスケーラブルなフレームワークであるグラフベースの合成データパイプライン(GSDP)を提案します。
ナレッジグラフに触発されて、シードデータから知識ポイントを抽出し、知識ポイント関係グラフを構築して相互接続を調査しました。
知識間の暗黙の関係を調査することにより、私たちの方法は$ 255のデータ拡張を達成します。
さらに、オープンソースモデルが率いるGSDPは、GPT-4-0613に匹敵する合成品質を達成し、100ドルの低コストを維持します。
最も挑戦的な数学的推論タスクに取り組むために、191万ペアを超える数学の問題と回答で構成されるGSDP-Mathデータセットを提示します。
GSDP-MATHで微調整した後、Mistral-7Bに基づくGSDP-7Bは、数学で37.7%の精度、GSM8Kで78.4%を達成し、方法の有効性を実証します。
データセットとモデルは、https://github.com/jayce1kk/gsdpでリリースされます。

要約(オリジナル)

Synthesizing high-quality reasoning data for continual training has been proven to be effective in enhancing the performance of Large Language Models (LLMs). However, previous synthetic approaches struggle to easily scale up data and incur high costs in the pursuit of high quality. In this paper, we propose the Graph-based Synthetic Data Pipeline (GSDP), an economical and scalable framework for high-quality reasoning data synthesis. Inspired by knowledge graphs, we extracted knowledge points from seed data and constructed a knowledge point relationships graph to explore their interconnections. By exploring the implicit relationships among knowledge, our method achieves $\times$255 data expansion. Furthermore, GSDP led by open-source models, achieves synthesis quality comparable to GPT-4-0613 while maintaining $\times$100 lower costs. To tackle the most challenging mathematical reasoning task, we present the GSDP-MATH dataset comprising over 1.91 million pairs of math problems and answers. After fine-tuning on GSDP-MATH, GSDP-7B based on Mistral-7B achieves 37.7% accuracy on MATH and 78.4% on GSM8K, demonstrating the effectiveness of our method. The dataset and models will be released at https://github.com/Jayce1kk/GSDP.

arxiv情報

著者 Jiankang Wang,Jianjun Xu,Xiaorui Wang,Yuxin Wang,Mengting Xing,Shancheng Fang,Zhineng Chen,Hongtao Xie,Yongdong Zhang
発行日 2025-04-11 05:27:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions はコメントを受け付けていません

Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition

要約

手話は、ジェスチャー、表情、身体の動きを通して微妙な表現を可能にする、聴覚障害と頑固な(DHH)コミュニティのコミュニケーションの基本的な手段です。
DHH集団内での相互作用を促進する上での重要な役割にもかかわらず、聴覚集団間の手話の流encyさが限られているため、重大な障壁が持続します。
自動信号認識(SLR)を通じてこのコミュニケーションのギャップを克服することは、特に動的な単語レベルでの課題のままです。ここでは、時間的および空間的依存関係を効果的に認識する必要があります。
畳み込みニューラルネットワーク(CNN)はSLRで可能性を示していますが、それらは計算的に集中的であり、ビデオシーケンス間のグローバルな時間的依存関係をキャプチャするのが困難です。
これらの制限に対処するために、単語レベルのアメリカ手話(ASL)認識のビデオビジョントランス(VIVIT)モデルを提案します。
変圧器モデルは、自己触媒メカニズムを利用して、空間的および時間的次元全体でグローバルな関係を効果的にキャプチャし、複雑なジェスチャー認識タスクに適しています。
VideOMAMEEモデルは、WLASL100データセットで75.58%の上位1精度を達成し、65.89%の従来のCNNと比較してその強力なパフォーマンスを強調しています。
私たちの研究は、変圧器ベースのアーキテクチャがSLRを前進させ、コミュニケーションの障壁を克服し、DHHの個人を含めることを促進する大きな可能性を持っていることを示しています。

要約(オリジナル)

Sign language is a fundamental means of communication for the deaf and hard-of-hearing (DHH) community, enabling nuanced expression through gestures, facial expressions, and body movements. Despite its critical role in facilitating interaction within the DHH population, significant barriers persist due to the limited fluency in sign language among the hearing population. Overcoming this communication gap through automatic sign language recognition (SLR) remains a challenge, particularly at a dynamic word-level, where temporal and spatial dependencies must be effectively recognized. While Convolutional Neural Networks (CNNs) have shown potential in SLR, they are computationally intensive and have difficulties in capturing global temporal dependencies between video sequences. To address these limitations, we propose a Video Vision Transformer (ViViT) model for word-level American Sign Language (ASL) recognition. Transformer models make use of self-attention mechanisms to effectively capture global relationships across spatial and temporal dimensions, which makes them suitable for complex gesture recognition tasks. The VideoMAE model achieves a Top-1 accuracy of 75.58% on the WLASL100 dataset, highlighting its strong performance compared to traditional CNNs with 65.89%. Our study demonstrates that transformer-based architectures have great potential to advance SLR, overcome communication barriers and promote the inclusion of DHH individuals.

arxiv情報

著者 Alexander Brettmann,Jakob Grävinghoff,Marlene Rüschoff,Marie Westhues
発行日 2025-04-11 06:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition はコメントを受け付けていません

AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations

要約

Visual Grounding(VG)は、自然言語の説明に基づいて画像にターゲットオブジェクトをローカライズすることを目的としています。
この論文では、航空ビューからの視覚的接地に焦点を当てた新しいタスクであるAerialVGを提案します。
従来のVGと比較して、aerialVGは新しい課題を提起します\ emph {emg。}は、視覚的に類似した複数のオブジェクトを区別するには外観ベースの接地が不十分であり、位置関係を強調する必要があります。
その上、既存のVGモデルは、高解像度の画像が重大な困難を引き起こす航空画像に適用されると闘います。
これらの課題に対処するために、5Kの実世界の空中画像、50K手動注釈付きの説明、および103Kオブジェクトで構成される最初のaerialVGデータセットを紹介します。
特に、aerialVGデータセットの各アノテーションには、相対的な空間関係が注釈された複数のターゲットオブジェクトが含まれており、包括的な空間推論を実行するためにモデルが必要です。
さらに、特にAerialVGタスクの革新的なモデルを提案します。そこでは、ターゲット領域に焦点を合わせるために階層的な交差出席が考案され、関係認識の接地モジュールが位置関係を推測するように設計されています。
実験結果は、データセットとメソッドの有効性を検証し、空中視覚接地における空間推論の重要性を強調します。
コードとデータセットがリリースされます。

要約(オリジナル)

Visual grounding (VG) aims to localize target objects in an image based on natural language descriptions. In this paper, we propose AerialVG, a new task focusing on visual grounding from aerial views. Compared to traditional VG, AerialVG poses new challenges, \emph{e.g.}, appearance-based grounding is insufficient to distinguish among multiple visually similar objects, and positional relations should be emphasized. Besides, existing VG models struggle when applied to aerial imagery, where high-resolution images cause significant difficulties. To address these challenges, we introduce the first AerialVG dataset, consisting of 5K real-world aerial images, 50K manually annotated descriptions, and 103K objects. Particularly, each annotation in AerialVG dataset contains multiple target objects annotated with relative spatial relations, requiring models to perform comprehensive spatial reasoning. Furthermore, we propose an innovative model especially for the AerialVG task, where a Hierarchical Cross-Attention is devised to focus on target regions, and a Relation-Aware Grounding module is designed to infer positional relations. Experimental results validate the effectiveness of our dataset and method, highlighting the importance of spatial reasoning in aerial visual grounding. The code and dataset will be released.

arxiv情報

著者 Junli Liu,Qizhi Chen,Zhigang Wang,Yiwen Tang,Yiting Zhang,Chi Yan,Dong Wang,Xuelong Li,Bin Zhao
発行日 2025-04-11 01:47:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations はコメントを受け付けていません

Scaling Laws for Native Multimodal Models

要約

マルチモーダル信号を通じて世界を効果的に知覚できる汎用モデルの構築は、長年の目標となっています。
現在のアプローチでは、VisionエンコーダーをLLMに接続したり、マルチモーダルトレーニングを継続するなど、事前に訓練されたコンポーネントを個別に統合することが含まれます。
そのようなアプローチは顕著なサンプル効率を示しますが、そのような延性アーキテクチャが本質的に優れているかどうかは未解決の問題のままです。
この作業では、ネイティブマルチモーダルモデル(NMMS)のアーキテクチャデザイン(すべてのモダリティでゼロから訓練された設計)を再訪し、さまざまなアーキテクチャとトレーニング混合物を備えた457の訓練されたモデルに及ぶ広範なスケーリング法の調査を実施します。
私たちの調査は、画像エンコーダーに依存していない早期融合アーキテクチャに対する延性アーキテクチャに対する固有の利点はないことを明らかにしています。
それどころか、より低いパラメーターカウントで早期融合を示すパフォーマンスはより強力であり、トレーニングがより効率的であり、展開しやすいです。
早期融合アーキテクチャの強力なパフォーマンスに動機付けられて、専門家(MOE)の混合物を組み込むことで、モダリティ固有の重みを学習するモデルが可能になり、パフォーマンスが大幅に向上することが示されます。

要約(オリジナル)

Building general-purpose models that can effectively perceive the world through multimodal signals has been a long-standing goal. Current approaches involve integrating separately pre-trained components, such as connecting vision encoders to LLMs and continuing multimodal training. While such approaches exhibit remarkable sample efficiency, it remains an open question whether such late-fusion architectures are inherently superior. In this work, we revisit the architectural design of native multimodal models (NMMs)–those trained from the ground up on all modalities–and conduct an extensive scaling laws study, spanning 457 trained models with different architectures and training mixtures. Our investigation reveals no inherent advantage to late-fusion architectures over early-fusion ones, which do not rely on image encoders. On the contrary, early-fusion exhibits stronger performance at lower parameter counts, is more efficient to train, and is easier to deploy. Motivated by the strong performance of the early-fusion architectures, we show that incorporating Mixture of Experts (MoEs) allows for models that learn modality-specific weights, significantly enhancing performance.

arxiv情報

著者 Mustafa Shukor,Enrico Fini,Victor Guilherme Turrisi da Costa,Matthieu Cord,Joshua Susskind,Alaaeldin El-Nouby
発行日 2025-04-11 06:35:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Scaling Laws for Native Multimodal Models はコメントを受け付けていません