Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks

要約

テキストリッチ画像は、テキストが全体的な理解を導く中心的な視覚要素として機能するものであり、プレゼンテーションのスライド、スキャンした文書、ウェブページのスナップショットなど、実世界のアプリケーションに広く普及している。個々の画像の内容を理解するだけでなく、複数の視覚入力の相互関係や論理的な流れを推論する必要があるため、複数のテキストが豊富な画像を含むタスクは特に困難である。このようなシナリオの重要性にもかかわらず、現在のマルチモーダル大規模言語モデル(MLLM)は、(1)テキストリッチな複数画像シナリオのための高品質な命令チューニングデータセットの不足、(2)画像の解像度と視覚的特徴列の長さのバランスの難しさという2つの重要な課題のために、このようなタスクを処理するのに苦労している。これらの課題を解決するために、我々はLeopardを提案する。Leopardは、複数のテキストが豊富な画像を含む視覚言語タスクを処理するために特別に設計されたMLLMである。まず、テキストリッチな複数画像のシナリオに合わせた、約100万件の高品質なマルチモーダル命令チューニングデータを収集した。次に、入力画像のアスペクト比と解像度に基づき、視覚シーケンスの長さの割り当てを動的に最適化する適応型高解像度マルチ画像エンコーディングモジュールを開発した。広範なベンチマークでの実験により、テキストリッチな多画像評価における我々のモデルの優れた能力と、一般的なドメイン評価における競争力が実証された。

要約(オリジナル)

Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose Leopard, a MLLM designed specifically for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we developed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of the input images. Experiments across a wide range of benchmarks demonstrate our model’s superior capabilities in text-rich, multi-image evaluations and competitive performance in general domain evaluations.

arxiv情報

著者 Mengzhao Jia,Wenhao Yu,Kaixin Ma,Tianqing Fang,Zhihan Zhang,Siru Ouyang,Hongming Zhang,Meng Jiang,Dong Yu
発行日 2024-10-03 15:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

Fake It Until You Break It: On the Adversarial Robustness of AI-generated Image Detectors

要約

ジェネレーティブAI(GenAI)は創造的で生産的なタスクに無数の可能性を提供する一方で、人工的に生成されたメディアは詐欺、操作、詐欺、誤報キャンペーンなどに悪用される可能性がある。悪意を持って生成されたメディアに関連するリスクを軽減するために、AIが生成したコンテンツを識別するためのフォレンジック分類器が採用されている。しかし、現在のフォレンジック分類器は、攻撃者の存在や、ソーシャルメディアの劣化のような現実世界のアーティファクトが画像に影響を与える場合など、実際に関連するシナリオでは評価されないことが多い。本稿では、様々な攻撃シナリオの下で、最先端のAI生成画像(AIGI)検出器を評価する。攻撃者がターゲットモデルにアクセスできず、ソーシャルメディアプラットフォームで標準的な、敵対的な例が作成された後に後処理が行われる場合でも、フォレンジック分類器が現実的な設定で効果的に攻撃される可能性があることを実証する。このような攻撃は、検出器に頼ることのリスクがその利点を上回るほど、検出精度を著しく低下させる可能性がある。最後に、現在最高性能の検出器であるCLIPベースの検出器を、これらの攻撃に対して頑健にするための簡単な防御メカニズムを提案する。

要約(オリジナル)

While generative AI (GenAI) offers countless possibilities for creative and productive tasks, artificially generated media can be misused for fraud, manipulation, scams, misinformation campaigns, and more. To mitigate the risks associated with maliciously generated media, forensic classifiers are employed to identify AI-generated content. However, current forensic classifiers are often not evaluated in practically relevant scenarios, such as the presence of an attacker or when real-world artifacts like social media degradations affect images. In this paper, we evaluate state-of-the-art AI-generated image (AIGI) detectors under different attack scenarios. We demonstrate that forensic classifiers can be effectively attacked in realistic settings, even when the attacker does not have access to the target model and post-processing occurs after the adversarial examples are created, which is standard on social media platforms. These attacks can significantly reduce detection accuracy to the extent that the risks of relying on detectors outweigh their benefits. Finally, we propose a simple defense mechanism to make CLIP-based detectors, which are currently the best-performing detectors, robust against these attacks.

arxiv情報

著者 Sina Mavali,Jonas Ricker,David Pape,Yash Sharma,Asja Fischer,Lea Schönherr
発行日 2024-10-03 10:11:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | コメントする

Releasing the Parameter Latency of Neural Representation for High-Efficiency Video Compression

要約

何十年もの間、映像圧縮技術は著名な研究分野であった。従来のハイブリッド動画圧縮フレームワークやエンドツーエンドフレームワークでは、離散変換やディープラーニング技術に基づく様々なフレーム内・フレーム間参照・予測戦略が模索され続けている。しかし、新たな暗黙的ニューラル表現(INR)技術は、動画全体を基本単位としてモデル化し、フレーム内およびフレーム間の相関関係を自動的に捕捉し、有望な性能を得る。INRは、コンパクトなニューラルネットワークを使用して、ネットワークパラメータに動画情報を格納し、元の動画の空間的・時間的冗長性を効果的に排除する。しかし、本論文では、我々の探索と検証により、現在のINRビデオ圧縮手法が、情報保存の潜在能力を十分に引き出せていないことが明らかになった。パラメータ再利用によるネットワークパラメータ保存強化の可能性を調査する。ネットワークを深くすることで、圧縮性能をさらに向上させる実現可能なINRパラメータ再利用方式を設計した。広範な実験結果から、我々の手法がINRビデオ圧縮のレート歪み性能を大幅に向上させることが示された。

要約(オリジナル)

For decades, video compression technology has been a prominent research area. Traditional hybrid video compression framework and end-to-end frameworks continue to explore various intra- and inter-frame reference and prediction strategies based on discrete transforms and deep learning techniques. However, the emerging implicit neural representation (INR) technique models entire videos as basic units, automatically capturing intra-frame and inter-frame correlations and obtaining promising performance. INR uses a compact neural network to store video information in network parameters, effectively eliminating spatial and temporal redundancy in the original video. However, in this paper, our exploration and verification reveal that current INR video compression methods do not fully exploit their potential to preserve information. We investigate the potential of enhancing network parameter storage through parameter reuse. By deepening the network, we designed a feasible INR parameter reuse scheme to further improve compression performance. Extensive experimental results show that our method significantly enhances the rate-distortion performance of INR video compression.

arxiv情報

著者 Gai Zhang,Xinfeng Zhang,Lv Tang,Yue Li,Kai Zhang,Li Zhang
発行日 2024-10-03 12:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM, eess.IV | コメントする

MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning

要約

広範な研究により、ディープニューラルネットワーク(DNN)は、わずかな敵対的な摂動に弱いことが示されています。特定の攻撃手法から生成された敵対的な例で訓練データを増強することに加え、現在の防御戦略のほとんどは、ロバスト性を向上させるために元のモデル・アーキテクチャ・コンポーネントを修正するか、敵対的な攻撃に対処するためにテスト時間のデータ純化を実行する必要がある。本研究では、訓練中に強力な特徴表現を学習することで、元のモデルの頑健性を大幅に向上できることを実証する。我々はMORELという多目的特徴表現学習アプローチを提案し、分類モデルが摂動にもかかわらず、同じクラス内の入力に対して類似した特徴を生成するよう促す。我々の学習手法は、コサイン類似度損失と多正対照損失が、モデルエンコーダからの自然特徴量と敵対特徴量を整列させ、厳密なクラスタリングを保証するために使用される埋め込み空間を含む。同時に、分類器は正確な予測を達成するように動機づけられる。広範な実験を通して、我々は、我々のアプローチが、ホワイトボックスとブラックボックスの敵対的攻撃に対するDNNの頑健性を大幅に強化し、同様にアーキテクチャの変更やテスト時のデータ精製を必要としない他の方法よりも優れていることを実証する。我々のコードはhttps://github.com/salomonhotegni/MOREL

要約(オリジナル)

Extensive research has shown that deep neural networks (DNNs) are vulnerable to slight adversarial perturbations$-$small changes to the input data that appear insignificant but cause the model to produce drastically different outputs. In addition to augmenting training data with adversarial examples generated from a specific attack method, most of the current defense strategies necessitate modifying the original model architecture components to improve robustness or performing test-time data purification to handle adversarial attacks. In this work, we demonstrate that strong feature representation learning during training can significantly enhance the original model’s robustness. We propose MOREL, a multi-objective feature representation learning approach, encouraging classification models to produce similar features for inputs within the same class, despite perturbations. Our training method involves an embedding space where cosine similarity loss and multi-positive contrastive loss are used to align natural and adversarial features from the model encoder and ensure tight clustering. Concurrently, the classifier is motivated to achieve accurate predictions. Through extensive experiments, we demonstrate that our approach significantly enhances the robustness of DNNs against white-box and black-box adversarial attacks, outperforming other methods that similarly require no architectural changes or test-time data purification. Our code is available at https://github.com/salomonhotegni/MOREL

arxiv情報

著者 Sedjro Salomon Hotegni,Sebastian Peitz
発行日 2024-10-03 09:28:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | コメントする

TopER: Topological Embeddings in Graph Representation Learning

要約

グラフ埋め込みはグラフ表現学習において重要な役割を果たし、機械学習モデルによるグラフ構造データの探索と解釈を可能にする。しかし、既存の手法は不透明で高次元の埋め込みに依存することが多く、解釈可能性や実用的な可視化が制限されている。 本研究では、トポロジカルデータ解析に基づく、新しい低次元埋め込みアプローチであるTopological Evolution Rate (TopER)を紹介する。TopERは、グラフ部分構造の進化率を計算することにより、主要なトポロジカルアプローチであるパーシステントホモロジーを単純化し、グラフデータの直感的で解釈可能な可視化をもたらす。このアプローチはグラフデータセットの探索を向上させるだけでなく、グラフのクラスタリングや分類タスクにおいても競争力のある性能を発揮する。我々のTopERベースのモデルは、分類、クラスタリング、可視化などのタスクにおいて、分子、生物学、社会ネットワークのデータセットで最先端の結果を達成、あるいはそれを上回る。

要約(オリジナル)

Graph embeddings play a critical role in graph representation learning, allowing machine learning models to explore and interpret graph-structured data. However, existing methods often rely on opaque, high-dimensional embeddings, limiting interpretability and practical visualization. In this work, we introduce Topological Evolution Rate (TopER), a novel, low-dimensional embedding approach grounded in topological data analysis. TopER simplifies a key topological approach, Persistent Homology, by calculating the evolution rate of graph substructures, resulting in intuitive and interpretable visualizations of graph data. This approach not only enhances the exploration of graph datasets but also delivers competitive performance in graph clustering and classification tasks. Our TopER-based models achieve or surpass state-of-the-art results across molecular, biological, and social network datasets in tasks such as classification, clustering, and visualization.

arxiv情報

著者 Astrit Tola,Funmilola Mary Taiwo,Cuneyt Gurcan Akcora,Baris Coskunuzer
発行日 2024-10-03 01:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.AT | コメントする

Uncertainty Quantification with Bayesian Higher Order ReLU KANs

要約

我々は、コルモゴロフ・アーノルド・ネットワークの領域における最初の不確実性定量化法を紹介する。特に、ベイズ法の計算要求から計算効率を向上させるために、(高次)ReLUKANに焦点を当てる。我々が提案する方法は、本質的に一般的であり、エピステミックな不確実性とアレータリックな不確実性の両方にアクセスすることができる。また、他の様々な基底関数への一般化も可能である。我々は、単純な一次元関数や(確率)偏微分方程式の領域への適用を含む、一連のクロージャテストを通して我々の方法を検証する。後者については、確率項を含むことによって生じる関数従属性を正しく識別できることを実証する。この研究をサポートするコードは https://github.com/wmdataphys/Bayesian-HR-KAN にある。

要約(オリジナル)

We introduce the first method of uncertainty quantification in the domain of Kolmogorov-Arnold Networks, specifically focusing on (Higher Order) ReLUKANs to enhance computational efficiency given the computational demands of Bayesian methods. The method we propose is general in nature, providing access to both epistemic and aleatoric uncertainties. It is also capable of generalization to other various basis functions. We validate our method through a series of closure tests, including simple one-dimensional functions and application to the domain of (Stochastic) Partial Differential Equations. Referring to the latter, we demonstrate the method’s ability to correctly identify functional dependencies introduced through the inclusion of a stochastic term. The code supporting this work can be found at https://github.com/wmdataphys/Bayesian-HR-KAN

arxiv情報

著者 James Giroux,Cristiano Fanelli
発行日 2024-10-03 02:21:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, physics.data-an | コメントする

LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

要約

眼科では、診断や治療計画のために詳細な画像解析に大きく依存している。大規模視覚言語モデル(LVLM)は複雑な視覚情報を理解する上で有望であるが、眼科画像におけるその性能はまだ十分に検討されていない。我々は、眼科画像におけるLVLMを評価するためのデータセットとベンチマークであるLMODを紹介し、解剖学的理解、診断分析、人口統計抽出をカバーする。LMODには、光コヒーレンストモグラフィー、走査型レーザー検眼鏡、眼球写真、手術シーン、カラー眼底写真にまたがる21,993枚の画像が含まれる。我々は、13の最新のLVLMをベンチマークし、それらが眼科画像を理解するには完璧には程遠いことを発見した。モデルは診断分析と人口統計抽出に苦戦し、空間推論、診断分析、領域外クエリの処理、眼科画像のバイオマーカーを扱うための安全対策に弱点があることが明らかになった。

要約(オリジナル)

Ophthalmology relies heavily on detailed image analysis for diagnosis and treatment planning. While large vision-language models (LVLMs) have shown promise in understanding complex visual information, their performance on ophthalmology images remains underexplored. We introduce LMOD, a dataset and benchmark for evaluating LVLMs on ophthalmology images, covering anatomical understanding, diagnostic analysis, and demographic extraction. LMODincludes 21,993 images spanning optical coherence tomography, scanning laser ophthalmoscopy, eye photos, surgical scenes, and color fundus photographs. We benchmark 13 state-of-the-art LVLMs and find that they are far from perfect for comprehending ophthalmology images. Models struggle with diagnostic analysis and demographic extraction, reveal weaknesses in spatial reasoning, diagnostic analysis, handling out-of-domain queries, and safeguards for handling biomarkers of ophthalmology images.

arxiv情報

著者 Zhenyue Qin,Yu Yin,Dylan Campbell,Xuansheng Wu,Ke Zou,Yih-Chung Tham,Ninghao Liu,Xiuzhen Zhang,Qingyu Chen
発行日 2024-10-03 02:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

OccRWKV: Rethinking Efficient 3D Semantic Occupancy Prediction with Linear Complexity

要約

3D セマンティック占有予測ネットワークは、3D シーンの幾何学的およびセマンティック構造を再構築する際に優れた機能を実証し、ロボット ナビゲーションや自動運転システムに重要な情報を提供します。
しかし、高密度のネットワーク構造設計によるオーバーヘッドが大きいため、既存のネットワークは精度と遅延のバランスをとるという課題に直面しています。
このペーパーでは、Receptance Weighted Key Value (RWKV) からインスピレーションを得た効率的なセマンティック占有ネットワークである OccRWKV を紹介します。
OccRWKV は、セマンティクス、占有予測、および機能融合を個別のブランチに分離し、それぞれに Sem-RWKV ブロックと Geo-RWKV ブロックを組み込んでいます。
これらのブロックは、長距離の依存関係をキャプチャするように設計されており、ネットワークがドメイン固有の表現 (つまり、セマンティクスとジオメトリ) を学習できるようになり、予測精度が向上します。
現実世界の 3D 占有のまばらな性質を利用して、特徴を鳥瞰図 (BEV) 空間に投影することで計算オーバーヘッドを削減し、効率的な特徴強化と融合のための BEV-RWKV ブロックを提案します。
これにより、パフォーマンスを損なうことなく 22.2 FPS でのリアルタイム推論が可能になります。
実験では、OccRWKV が SemanticKITTI データセットで最先端の手法を上回っており、最良のベースラインである Co-Occ よりも 20 倍高速でありながら 25.1 の mIoU を達成し、ロボットでのリアルタイム展開に適していることが実証されています。
自律航行の効率。
コードとビデオはプロジェクト ページ https://jmwang0117.github.io/OccRWKV/ で入手できます。

要約(オリジナル)

3D semantic occupancy prediction networks have demonstrated remarkable capabilities in reconstructing the geometric and semantic structure of 3D scenes, providing crucial information for robot navigation and autonomous driving systems. However, due to their large overhead from dense network structure designs, existing networks face challenges balancing accuracy and latency. In this paper, we introduce OccRWKV, an efficient semantic occupancy network inspired by Receptance Weighted Key Value (RWKV). OccRWKV separates semantics, occupancy prediction, and feature fusion into distinct branches, each incorporating Sem-RWKV and Geo-RWKV blocks. These blocks are designed to capture long-range dependencies, enabling the network to learn domain-specific representation (i.e., semantics and geometry), which enhances prediction accuracy. Leveraging the sparse nature of real-world 3D occupancy, we reduce computational overhead by projecting features into the bird’s-eye view (BEV) space and propose a BEV-RWKV block for efficient feature enhancement and fusion. This enables real-time inference at 22.2 FPS without compromising performance. Experiments demonstrate that OccRWKV outperforms the state-of-the-art methods on the SemanticKITTI dataset, achieving a mIoU of 25.1 while being 20 times faster than the best baseline, Co-Occ, making it suitable for real-time deployment on robots to enhance autonomous navigation efficiency. Code and video are available on our project page: https://jmwang0117.github.io/OccRWKV/.

arxiv情報

著者 Junming Wang,Wei Yin,Xiaoxiao Long,Xingyu Zhang,Zebin Xing,Xiaoyang Guo,Qian Zhang
発行日 2024-10-01 20:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

An Approach to Elicit Human-Understandable Robot Expressions to Support Human-Robot Interaction

要約

人間とロボットの自然でシームレスなコラボレーションには、ロボットの意図を理解することが不可欠です。
ロボットに非言語コミュニケーション手段を確保することは、直感的かつ暗黙的な対話の基礎となります。
このために、私たちは人間が理解できるロボット表現を導き出し、設計するアプローチを提供します。
非ヒューマノイド ロボットのコンテキストでアプローチの概要を説明します。
私たちは人間の模倣と演技を、ジェスチャー誘発の 2 段階の研究と組み合わせました。第 1 段階では表現を引き出し、第 2 段階ではそれが理解できることを確認しました。
単純な 6-DoF ロボット アームの式を導き出すアプローチの 2 つの研究 (N=16 \& N=260) を通じて応用例を示します。
これにより、注意を引くことへの好奇心や関心を示すロボットの表現をデザインできることを示します。
私たちの主な貢献は、ロボットのための理解可能な表現を生成および検証し、より自然な人間とロボットのインタラクションを可能にするアプローチです。

要約(オリジナル)

Understanding the intentions of robots is essential for natural and seamless human-robot collaboration. Ensuring that robots have means for non-verbal communication is a basis for intuitive and implicit interaction. For this, we contribute an approach to elicit and design human-understandable robot expressions. We outline the approach in the context of non-humanoid robots. We paired human mimicking and enactment with research from gesture elicitation in two phases: first, to elicit expressions, and second, to ensure they are understandable. We present an example application through two studies (N=16 \& N=260) of our approach to elicit expressions for a simple 6-DoF robotic arm. We show that it enabled us to design robot expressions that signal curiosity and interest in getting attention. Our main contribution is an approach to generate and validate understandable expressions for robots, enabling more natural human-robot interaction.

arxiv情報

著者 Jan Leusmann,Steeven Villa,Thomas Liang,Chao Wang,Albrecht Schmidt,Sven Mayer
発行日 2024-10-01 21:01:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | コメントする

Two-Finger Soft Gripper Force Modulation via Kinesthetic Feedback

要約

私たちは、触覚センサーに依存せずに、2 本指グリッパーの柔らかい指と物体との間の接触力を調整する方法を研究します。
この研究は、接触検出に関する以前の結果のフォローアップです。
ここで、私たちの仮説は、指と物体の接触が検出されると、指の曲げ測定値と接触の瞬間の曲げとの間の望ましい差を維持するコントローラーが、接触力を維持および調整するのに十分であるというものです。
このアプローチは、単一のオブジェクトに接触しているときに両方の指に同時に適用できます。
私たちは仮説の検証に成功し、接触力とピーク引き抜き力の大きさと、乗算係数で表される望ましい差との関係を特徴づけました。
すべての結果は実際の物理デバイス上で実行されます。

要約(オリジナル)

We investigate a method to modulate contact forces between the soft fingers of a two-finger gripper and an object, without relying on tactile sensors. This work is a follow-up to our previous results on contact detection. Here, our hypothesis is that once the contact between a finger and an object is detected, a controller that keeps a desired difference between the finger bending measurement and its bending at the moment of contact is sufficient to maintain and modulate the contact force. This approach can be simultaneously applied to both fingers while getting in contact with a single object. We successfully tested the hypothesis, and characterized the contact and peak pull-out force magnitude vs. the desired difference expressed by a multiplicative factor. All of the results are performed on a real physical device.

arxiv情報

著者 Stephanie O. Herrera,Tae Myung Huh,Dejan Milutinovic
発行日 2024-10-01 21:19:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする