Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery

要約

時系列モチーフディスカバリー(TSMD)は、時系列データの繰り返しパターンを識別しますが、その教師のない性質は、ユーザーにとって興味深いモチーフにつながる可能性があります。
これに対処するために、ユーザーがモチーフに制約を課すことができるフレームワークを提案します。ここで、アプリケーションドメイン内の目的のモチーフのプロパティに従って制約を簡単に定義できます。
また、フレームワークであるMocomotif-Dokアルゴリズムの効率的な実装も提案しています。
Locomotif-Dokが、実際のデータと合成データでドメインの知識を効果的に活用し、限られた形式のドメイン知識のみをサポートする他のTSMD技術を上回ることができることを実証します。

要約(オリジナル)

Time Series Motif Discovery (TSMD) identifies repeating patterns in time series data, but its unsupervised nature might result in motifs that are not interesting to the user. To address this, we propose a framework that allows the user to impose constraints on the motifs to be discovered, where constraints can easily be defined according to the properties of the desired motifs in the application domain. We also propose an efficient implementation of the framework, the LoCoMotif-DoK algorithm. We demonstrate that LoCoMotif-DoK can effectively leverage domain knowledge in real and synthetic data, outperforming other TSMD techniques which only support a limited form of domain knowledge.

arxiv情報

著者 Aras Yurtman,Daan Van Wesenbeeck,Wannes Meert,Hendrik Blockeel
発行日 2025-02-17 14:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery はコメントを受け付けていません

Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives

要約

視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊かに理解してモデルを装備していますが、この統合は敵対的な攻撃に対して新しい脆弱性も導入します。
この論文では、時間的およびモダリティ固有の脆弱性の両方を考慮して、視聴覚モデルの敵対的な堅牢性に関する包括的な研究を提示します。
2つの強力な敵対的攻撃を提案します。1)連続した時間セグメントにわたって固有の時間的冗長性を活用する時間的不変攻撃と2)音声と視覚モダリティの不一致をもたらすモダリティの不整合攻撃。
これらの攻撃は、多様な脅威に対する視聴覚モデルの堅牢性を徹底的に評価するように設計されています。
さらに、このような攻撃から防御するために、新しい視聴覚敵の敵対的訓練フレームワークを紹介します。
このフレームワークは、マルチモーダルデータと敵対的なカリキュラム戦略に合わせて調整された効率的な敵対的な摂動クラフトを組み込むことにより、バニラ敵対的訓練における重要な課題に対処します。
速度論的サウンドデータセットでの広範な実験は、モデルのパフォーマンスを低下させるために提案されている時間的およびモダリティベースの攻撃が最先端のパフォーマンスを達成できることを示していますが、敵対的なトレーニングの防御により、敵対的な訓練効率性が大幅に改善されることが示されています。

要約(オリジナル)

While audio-visual learning equips models with a richer understanding of the real world by leveraging multiple sensory modalities, this integration also introduces new vulnerabilities to adversarial attacks. In this paper, we present a comprehensive study of the adversarial robustness of audio-visual models, considering both temporal and modality-specific vulnerabilities. We propose two powerful adversarial attacks: 1) a temporal invariance attack that exploits the inherent temporal redundancy across consecutive time segments and 2) a modality misalignment attack that introduces incongruence between the audio and visual modalities. These attacks are designed to thoroughly assess the robustness of audio-visual models against diverse threats. Furthermore, to defend against such attacks, we introduce a novel audio-visual adversarial training framework. This framework addresses key challenges in vanilla adversarial training by incorporating efficient adversarial perturbation crafting tailored to multi-modal data and an adversarial curriculum strategy. Extensive experiments in the Kinetics-Sounds dataset demonstrate that our proposed temporal and modality-based attacks in degrading model performance can achieve state-of-the-art performance, while our adversarial training defense largely improves the adversarial robustness as well as the adversarial training efficiency.

arxiv情報

著者 Zeliang Zhang,Susan Liang,Daiki Shimada,Chenliang Xu
発行日 2025-02-17 14:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD | Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives はコメントを受け付けていません

Defining and Evaluating Visual Language Models’ Basic Spatial Abilities: A Perspective from Psychometrics

要約

複数のインテリジェンスの理論は、認知能力の階層的な性質を強調しています。
空間人工知能を進めるために、視覚言語モデル(VLMS)の5つの基本的な空間能力(BSA)を定義する心理測定フレームワークの先駆者:空間的知覚、空間的関係、空間方向、精神回転、および空間視覚化。
9つの検証済みの心理測定実験を通じて13の主流VLMS 13の主流VLMSは、人間に対して有意なギャップ(平均スコア24.95対68.38)、3つの重要な調査結果を示し、VLMSミラーのヒト階層(2D回転で最も強く、3D回転で最も弱い)を独立したBSAS(Pearson’s Human Hierarchies)
R <0.4); 2)QWEN2-VL-7Bなどの小型モデルは、QWENがリード(30.82)とInternVL2の遅れ(19.6)で大規模な対応物を上回ります。 3)考え方のチェーン(0.100精度ゲイン)や5ショットトレーニング(0.259の改善)などの介入は、建築上の制約からの制限を示しています。 識別された障壁には、動的シミュレーションの弱いジオメトリが弱いことが含まれます。 心理測定BSAをVLM機能にリンクすることにより、空間インテリジェンス評価のための診断ツールキット、具体化されたAI開発のための方法論的基礎、および人間のような空間知能を達成するための認知科学に基づいたロードマップを提供します。

要約(オリジナル)

The Theory of Multiple Intelligences underscores the hierarchical nature of cognitive capabilities. To advance Spatial Artificial Intelligence, we pioneer a psychometric framework defining five Basic Spatial Abilities (BSAs) in Visual Language Models (VLMs): Spatial Perception, Spatial Relation, Spatial Orientation, Mental Rotation, and Spatial Visualization. Benchmarking 13 mainstream VLMs through nine validated psychometric experiments reveals significant gaps versus humans (average score 24.95 vs. 68.38), with three key findings: 1) VLMs mirror human hierarchies (strongest in 2D orientation, weakest in 3D rotation) with independent BSAs (Pearson’s r<0.4); 2) Smaller models such as Qwen2-VL-7B surpass larger counterparts, with Qwen leading (30.82) and InternVL2 lagging (19.6); 3) Interventions like chain-of-thought (0.100 accuracy gain) and 5-shot training (0.259 improvement) show limits from architectural constraints. Identified barriers include weak geometry encoding and missing dynamic simulation. By linking psychometric BSAs to VLM capabilities, we provide a diagnostic toolkit for spatial intelligence evaluation, methodological foundations for embodied AI development, and a cognitive science-informed roadmap for achieving human-like spatial intelligence.

arxiv情報

著者 Wenrui Xu,Dalin Lyu,Weihang Wang,Jie Feng,Chen Gao,Yong Li
発行日 2025-02-17 14:50:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Defining and Evaluating Visual Language Models’ Basic Spatial Abilities: A Perspective from Psychometrics はコメントを受け付けていません

Does Knowledge About Perceptual Uncertainty Help an Agent in Automated Driving?

要約

自動化された運転のような現実世界のシナリオのエージェントは、特に知覚的な不確実性のために、環境の不確実性に対処します。
補強学習は、不確実性の下での自律的な意思決定に専念していますが、これらのアルゴリズムは通常、環境に含まれている不確実性について知らされていません。
一方、知覚自体の不確実性の推定は、一般的に、カメラの画像に基づいた誤陽性検出率またはキャリブレーションエラーの観点から、知覚ドメインで直接評価されます。
目標指向のアクションを決定するためのその使用は、ほとんど実施されていません。
この論文では、この不確実性に関する情報が利用可能な場合、エージェントの行動が不確実な認識にどのように影響され、この行動がどのように変化するかを調査します。
したがって、他の道路利用者と衝突することなく、可能な限り速くルートを運転することでエージェントが報われるプロキシタスクを検討します。
対照実験については、後者を通知しながら与えられた薬剤の認識を摂動することにより、観測空間に不確実性を導入します。
私たちの実験は、乱れた知覚によってモデル化された信頼できない観察スペースが、エージェントの防御的な運転行動につながることを示しています。
さらに、現在の不確実性に関する情報を観測​​空間に直接追加すると、エージェントは特定の状況に適応し、一般にタスクをより速く達成し、同時にリスクを占めます。

要約(オリジナル)

Agents in real-world scenarios like automated driving deal with uncertainty in their environment, in particular due to perceptual uncertainty. Although, reinforcement learning is dedicated to autonomous decision-making under uncertainty these algorithms are typically not informed about the uncertainty currently contained in their environment. On the other hand, uncertainty estimation for perception itself is typically directly evaluated in the perception domain, e.g., in terms of false positive detection rates or calibration errors based on camera images. Its use for deciding on goal-oriented actions remains largely unstudied. In this paper, we investigate how an agent’s behavior is influenced by an uncertain perception and how this behavior changes if information about this uncertainty is available. Therefore, we consider a proxy task, where the agent is rewarded for driving a route as fast as possible without colliding with other road users. For controlled experiments, we introduce uncertainty in the observation space by perturbing the perception of the given agent while informing the latter. Our experiments show that an unreliable observation space modeled by a perturbed perception leads to a defensive driving behavior of the agent. Furthermore, when adding the information about the current uncertainty directly to the observation space, the agent adapts to the specific situation and in general accomplishes its task faster while, at the same time, accounting for risks.

arxiv情報

著者 Natalie Grabowsky,Annika Mütze,Joshua Wendland,Nils Jansen,Matthias Rottmann
発行日 2025-02-17 14:56:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Does Knowledge About Perceptual Uncertainty Help an Agent in Automated Driving? はコメントを受け付けていません

Understanding Long Videos with Multimodal Language Models

要約

大規模な言語モデル(LLM)により、最近のLLMベースのアプローチが可能になり、長距離理解ベンチマークで優れたパフォーマンスを実現しています。
私たちは、基礎となるLLMの広範な世界知識と強力な推論スキルがこの強力なパフォーマンスにどのように影響するかを調査します。
驚くべきことに、LLMベースのアプローチは、ビデオ具体情報が限られている場合でも、ビデオ情報が限られている場合でも、驚くほど良好な精度をもたらす可能性があることがわかります。
これに基づいて、ビデオ固有の情報をLLMベースのフレームワークに注入することを検討します。
既製のビジョンツールを利用して、ビデオから3つのオブジェクト中心の情報モダリティを抽出し、この情報を融合するための媒体として自然言語を活用します。
結果として生じるマルチモーダルビデオ理解(MVU)フレームワークは、複数のビデオ理解ベンチマークにわたって最先端のパフォーマンスを示しています。
また、ロボティクスドメインタスクでの強力なパフォーマンスは、その強力な一般性を確立します。
私たちのコードは公開されます。

要約(オリジナル)

Large Language Models (LLMs) have allowed recent LLM-based approaches to achieve excellent performance on long-video understanding benchmarks. We investigate how extensive world knowledge and strong reasoning skills of underlying LLMs influence this strong performance. Surprisingly, we discover that LLM-based approaches can yield surprisingly good accuracy on long-video tasks with limited video information, sometimes even with no video specific information. Building on this, we exploring injecting video-specific information into an LLM-based framework. We utilize off-the-shelf vision tools to extract three object-centric information modalities from videos and then leverage natural language as a medium for fusing this information. Our resulting Multimodal Video Understanding (MVU) framework demonstrates state-of-the-art performance across multiple video understanding benchmarks. Strong performance also on robotics domain tasks establish its strong generality. Our code will be released publicly.

arxiv情報

著者 Kanchana Ranasinghe,Xiang Li,Kumara Kahatapitiya,Michael S. Ryoo
発行日 2025-02-17 14:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Understanding Long Videos with Multimodal Language Models はコメントを受け付けていません

iFormer: Integrating ConvNet and Transformer for Mobile Application

要約

Iformerと呼ばれるモバイルハイブリッドビジョンネットワークの新しいファミリーを紹介し、モバイルアプリケーションの遅延と精度の最適化に重点を置いています。
Iformerは、畳み込みの高速ローカル表現能力を、自己触たちの効率的なグローバルモデリング能力と効果的に統合します。
局所的な相互作用は、より軽量のモバイルネットワークを設計するために、標準の畳み込みネットワーク\ textit {i.e。}、Convnextの変換から派生しています。
新しく導入されたモバイル変調注意は、MHAでのメモリ集約型操作を削除し、効率的な変調メカニズムを採用して動的なグローバル表現能力を高めます。
Iformerがさまざまなタスクで既存の軽量ネットワークを上回ることを示す包括的な実験を実施します。
特に、Iformerは、Imagenet-1Kで80.4 \%の印象的なTOP-1精度を達成し、iPhone 13で1.10ミリ秒のレイテンシで、同様のレイテンシ制約の下で最近提案されたMobileNETV4を上回ります。
さらに、この方法では、COCOオブジェクトの検出、インスタンスセグメンテーション、ADE20Kセマンティックセグメンテーションなど、下流タスクの大幅な改善が示されており、これらのシナリオの高解像度入力のためにモバイルデバイスの低レイテンシを維持しています。

要約(オリジナル)

We present a new family of mobile hybrid vision networks, called iFormer, with a focus on optimizing latency and accuracy on mobile applications. iFormer effectively integrates the fast local representation capacity of convolution with the efficient global modeling ability of self-attention. The local interactions are derived from transforming a standard convolutional network, \textit{i.e.}, ConvNeXt, to design a more lightweight mobile network. Our newly introduced mobile modulation attention removes memory-intensive operations in MHA and employs an efficient modulation mechanism to boost dynamic global representational capacity. We conduct comprehensive experiments demonstrating that iFormer outperforms existing lightweight networks across various tasks. Notably, iFormer achieves an impressive Top-1 accuracy of 80.4\% on ImageNet-1k with a latency of only 1.10 ms on an iPhone 13, surpassing the recently proposed MobileNetV4 under similar latency constraints. Additionally, our method shows significant improvements in downstream tasks, including COCO object detection, instance segmentation, and ADE20k semantic segmentation, while still maintaining low latency on mobile devices for high-resolution inputs in these scenarios.

arxiv情報

著者 Chuanyang Zheng
発行日 2025-02-17 15:09:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | iFormer: Integrating ConvNet and Transformer for Mobile Application はコメントを受け付けていません

From Open-Vocabulary to Vocabulary-Free Semantic Segmentation

要約

オープンボキャブラリーセマンティックセグメンテーションにより、モデルはトレーニングデータを超えて新しいオブジェクトカテゴリを特定できます。
この柔軟性は大きな進歩を表していますが、現在のアプローチは、手動で指定されたクラス名に入力として依然として依存しており、実際のアプリケーションに固有のボトルネックを作成します。
この作業は、語彙を含まないセマンティックセグメンテーションパイプラインを提案し、事前定義されたクラスの語彙の必要性を排除します。
具体的には、ユーザーがシーン内のすべての潜在的なオブジェクトの知識を必要とする鶏肉と卵の問題に対処しますが、セグメンテーションの目的は、これらのオブジェクトを発見することです。
提案されたアプローチは、視覚言語モデルを活用して、オブジェクトを自動的に認識し、適切なクラス名を生成し、クラスの仕様と命名品質の課題を解決することを目指しています。
いくつかのパブリックデータセットでの広範な実験を通じて、特に画像テキストクラスが生成された説明とペアになっている場合、モデルパフォーマンスにおけるテキストエンコーダーの重要な役割を強調します。
セグメンテーションテキストエンコーダーの感度によって導入された課題は、クラスタグ付けプロセス内の偽ネガに誤ったネガになり、タスクに複雑さを加えますが、完全に自動化されたパイプラインが、多様な実際のシナリオ全体で語彙のないセグメンテーションの精度を大幅に向上させることを示しています。

要約(オリジナル)

Open-vocabulary semantic segmentation enables models to identify novel object categories beyond their training data. While this flexibility represents a significant advancement, current approaches still rely on manually specified class names as input, creating an inherent bottleneck in real-world applications. This work proposes a Vocabulary-Free Semantic Segmentation pipeline, eliminating the need for predefined class vocabularies. Specifically, we address the chicken-and-egg problem where users need knowledge of all potential objects within a scene to identify them, yet the purpose of segmentation is often to discover these objects. The proposed approach leverages Vision-Language Models to automatically recognize objects and generate appropriate class names, aiming to solve the challenge of class specification and naming quality. Through extensive experiments on several public datasets, we highlight the crucial role of the text encoder in model performance, particularly when the image text classes are paired with generated descriptions. Despite the challenges introduced by the sensitivity of the segmentation text encoder to false negatives within the class tagging process, which adds complexity to the task, we demonstrate that our fully automated pipeline significantly enhances vocabulary-free segmentation accuracy across diverse real-world scenarios.

arxiv情報

著者 Klara Reichard,Giulia Rizzoli,Stefano Gasperini,Lukas Hoyer,Pietro Zanuttigh,Nassir Navab,Federico Tombari
発行日 2025-02-17 15:17:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From Open-Vocabulary to Vocabulary-Free Semantic Segmentation はコメントを受け付けていません

DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation

要約

この論文では、潜在空間で適応的な時間的圧縮を利用できるトレーニングなしのパラダイムである動的潜在フレームレートVAE(DLFR-vae)を提案します。
既存のビデオ生成モデルは、前処理されたVAEを介して固定圧縮速度を適用しますが、実際のビデオコンテンツは、静的なシーンよりも多くの情報を含むハイモーションセグメントを含むかなりの時間的非均一性を示すことを観察します。
この洞察に基づいて、DLFR-Vaeはコンテンツの複雑さに応じて潜在フレームレートを動的に調整します。
具体的には、DLFR-Vaeは2つのコアイノベーションで構成されています。(1)動画を一時的なチャンクに分割し、情報理論的コンテンツの複雑さに基づいて最適なフレームレートを適応的に決定する動的潜在フレームレートスケジューラ、および(2)トレーニングなしの適応メカニズム
前処理されたVAEアーキテクチャを、さまざまなフレームレートで機能を処理できる動的なVAEに変換します。
当社のシンプルだが効果的なDLFR-Vaeは、既存のビデオ生成モデルとシームレスに統合され、ビデオ生成プロセスを加速するプラグアンドプレイモジュールとして機能できます。

要約(オリジナル)

In this paper, we propose the Dynamic Latent Frame Rate VAE (DLFR-VAE), a training-free paradigm that can make use of adaptive temporal compression in latent space. While existing video generative models apply fixed compression rates via pretrained VAE, we observe that real-world video content exhibits substantial temporal non-uniformity, with high-motion segments containing more information than static scenes. Based on this insight, DLFR-VAE dynamically adjusts the latent frame rate according to the content complexity. Specifically, DLFR-VAE comprises two core innovations: (1) A Dynamic Latent Frame Rate Scheduler that partitions videos into temporal chunks and adaptively determines optimal frame rates based on information-theoretic content complexity, and (2) A training-free adaptation mechanism that transforms pretrained VAE architectures into a dynamic VAE that can process features with variable frame rates. Our simple but effective DLFR-VAE can function as a plug-and-play module, seamlessly integrating with existing video generation models and accelerating the video generation process.

arxiv情報

著者 Zhihang Yuan,Siyuan Wang,Rui Xie,Hanling Zhang,Tongcheng Fang,Yuzhang Shang,Shengen Yan,Guohao Dai,Yu Wang
発行日 2025-02-17 15:22:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation はコメントを受け付けていません

Bridging Compressed Image Latents and Multimodal Large Language Models

要約

このホワイトペーパーでは、マルチモーダルの大手言語モデル(MLLM)を採用する下流の視力タスクのニーズに合わせて、圧縮された画像の潜在性を適応させる最初の研究を紹介します。
MLLMは、テキストを超えて大規模な言語モデルの成功をモダリティ(画像など)に拡大しましたが、10億スケールはリソース制約のエンドデバイスでの展開を妨げています。
クラウドホストされたMLLMは利用可能になる可能性がありますが、エンドデバイスによってキャプチャされた生の未圧縮の画像をクラウドに送信するには、効率的な画像圧縮システムが必要です。
これに対処するために、新たなニューラルイメージ圧縮に焦点を当て、軽量の変換ネックとサロゲート損失を備えた新しいフレームワークを提案し、MLLMベースのビジョンタスクに圧縮された画像潜在性を適応させます。
MLLMSの大規模を考えると、当社のフレームワークは、システムのトレーニングからの視覚エンコーダーの一部を除き、下流のMLLM全体を除外します。
これは、トレーニングにダウンストリームネットワークを含むマシンアプローチのほとんどの既存のコーディングから際立っているため、ネットワークがMLLMである場合は非現実的である可能性があります。
提案されたフレームワークは、さまざまなMLLM、ニューラルイメージコーデック、および複数のアプリケーションシナリオに適用できるという点で一般的です。
およびマシン認識、または(3)マシン認識のみのために完全に更新されます。
さまざまなニューラル画像コーデックとさまざまなMLLMに関する広範な実験は、私たちの方法がより複雑ではるかに少ない優れたレートのアクカリ性パフォーマンスを達成することを示しています。

要約(オリジナル)

This paper presents the first-ever study of adapting compressed image latents to suit the needs of downstream vision tasks that adopt Multimodal Large Language Models (MLLMs). MLLMs have extended the success of large language models to modalities (e.g. images) beyond text, but their billion scale hinders deployment on resource-constrained end devices. While cloud-hosted MLLMs could be available, transmitting raw, uncompressed images captured by end devices to the cloud requires an efficient image compression system. To address this, we focus on emerging neural image compression and propose a novel framework with a lightweight transform-neck and a surrogate loss to adapt compressed image latents for MLLM-based vision tasks. Given the huge scale of MLLMs, our framework excludes the entire downstream MLLM except part of its visual encoder from training our system. This stands out from most existing coding for machine approaches that involve downstream networks in training and thus could be impractical when the networks are MLLMs. The proposed framework is general in that it is applicable to various MLLMs, neural image codecs, and multiple application scenarios, where the neural image codec can be (1) pre-trained for human perception without updating, (2) fully updated for joint human and machine perception, or (3) fully updated for only machine perception. Extensive experiments on different neural image codecs and various MLLMs show that our method achieves great rate-accuracy performance with much less complexity.

arxiv情報

著者 Chia-Hao Kao,Cheng Chien,Yu-Jen Tseng,Yi-Hsin Chen,Alessandro Gnutti,Shao-Yuan Lo,Wen-Hsiao Peng,Riccardo Leonardi
発行日 2025-02-17 15:29:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM | Bridging Compressed Image Latents and Multimodal Large Language Models はコメントを受け付けていません

GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs

要約

マルチモーダル大手言語モデル(MLLMS)の急速な開発により、テキストや画像を含む複数のモダリティ(LLM)フレームワーク内の複数のモダリティの統合が可能になりました。
ただし、テキストと画像は通常相互接続されており、マルチモーダル属性グラフ(MMAG)を形成します。
MLLMSが、マルチモーダル理解と生成のために、そのようなグラフにリレーショナル情報(\ textit {i.e。}、グラフ構造)およびセマンティック情報(\ textit {i.e。、}テキストと画像)を組み込む方法を説明していません。
このホワイトペーパーでは、MMAGSでのOmni-Multimodalの理解と作成をサポートするGraphGpt-Oを提案します。
まず、線形化バリアントを包括的に研究して、MLLMSの入力としてセマンティックおよび構造情報を変換します。
次に、MMAGとMLLMの間のギャップを埋める深いグラフエンコードを可能にする階層アライナーを提案します。
最後に、グラフシナリオのインターリーブテキストと画像生成にMLLMを適応させる推論の選択肢を探ります。
異なるドメインからの3つのデータセットでの広範な実験は、提案された方法の有効性を示しています。
データセットとコードは、受け入れられるとオープンソーリングされます。

要約(オリジナル)

The rapid development of Multimodal Large Language Models (MLLMs) has enabled the integration of multiple modalities, including texts and images, within the large language model (LLM) framework. However, texts and images are usually interconnected, forming a multimodal attributed graph (MMAG). It is underexplored how MLLMs can incorporate the relational information (\textit{i.e.}, graph structure) and semantic information (\textit{i.e.,} texts and images) on such graphs for multimodal comprehension and generation. In this paper, we propose GraphGPT-o, which supports omni-multimodal understanding and creation on MMAGs. We first comprehensively study linearization variants to transform semantic and structural information as input for MLLMs. Then, we propose a hierarchical aligner that enables deep graph encoding, bridging the gap between MMAGs and MLLMs. Finally, we explore the inference choices, adapting MLLM to interleaved text and image generation in graph scenarios. Extensive experiments on three datasets from different domains demonstrate the effectiveness of our proposed method. Datasets and codes will be open-sourced upon acceptance.

arxiv情報

著者 Yi Fang,Bowen Jin,Jiacheng Shen,Sirui Ding,Qiaoyu Tan,Jiawei Han
発行日 2025-02-17 15:35:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs はコメントを受け付けていません