Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models

要約

実際のシナリオでは、モデルが未知のターゲット分布に適応または一般化する必要があるため、ドメインの適応と一般化を達成することは重要な課題をもたらします。
これらの機能を目に見えないマルチモーダル分布、つまりマルチモーダルドメインの適応と一般化に拡張することは、異なるモダリティの明確な特性のためにさらに困難です。
アクション認識からセマンティックセグメンテーションに至るまで、アプリケーションが長年にわたって大幅に進歩してきました。
さらに、Clipなどの大規模な事前訓練を受けたマルチモーダルファンデーションモデルの最近の出現により、これらのモデルを活用して適応と一般化のパフォーマンスを強化したり、ダウンストリームタスクに適応させたりしています。
この調査では、従来のアプローチから基礎モデルへの最近の進歩に関する最初の包括的なレビューを提供し、次のことをカバーしています。(1)マルチモーダルドメイン適応。
(2)マルチモーダルテスト時間適応。
(3)マルチモーダルドメイン一般化。
(4)マルチモーダルファンデーションモデルの助けを借りて、ドメインの適応と一般化。
(5)マルチモーダルファンデーションモデルの適応。
各トピックについて、問題を正式に定義し、既存の方法を徹底的に確認します。
さらに、関連するデータセットとアプリケーションを分析し、オープンな課題と潜在的な将来の研究の方向性を強調します。
https://github.com/donghao51/awesome-multimodal-adaptationで最新の文献を含むアクティブなリポジトリを維持しています。

要約(オリジナル)

In real-world scenarios, achieving domain adaptation and generalization poses significant challenges, as models must adapt to or generalize across unknown target distributions. Extending these capabilities to unseen multimodal distributions, i.e., multimodal domain adaptation and generalization, is even more challenging due to the distinct characteristics of different modalities. Significant progress has been made over the years, with applications ranging from action recognition to semantic segmentation. Besides, the recent advent of large-scale pre-trained multimodal foundation models, such as CLIP, has inspired works leveraging these models to enhance adaptation and generalization performances or adapting them to downstream tasks. This survey provides the first comprehensive review of recent advances from traditional approaches to foundation models, covering: (1) Multimodal domain adaptation; (2) Multimodal test-time adaptation; (3) Multimodal domain generalization; (4) Domain adaptation and generalization with the help of multimodal foundation models; and (5) Adaptation of multimodal foundation models. For each topic, we formally define the problem and thoroughly review existing methods. Additionally, we analyze relevant datasets and applications, highlighting open challenges and potential future research directions. We maintain an active repository that contains up-to-date literature at https://github.com/donghao51/Awesome-Multimodal-Adaptation.

arxiv情報

著者 Hao Dong,Moru Liu,Kaiyang Zhou,Eleni Chatzi,Juho Kannala,Cyrill Stachniss,Olga Fink
発行日 2025-02-17 16:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models はコメントを受け付けていません

Enhancing Transparent Object Pose Estimation: A Fusion of GDR-Net and Edge Detection

要約

透明なオブジェクトのオブジェクトのポーズ推定は、照明、背景、および反射の大きな影響により、ロボット視野の分野では困難なタスクのままです。
ただし、クリアオブジェクトのエッジは最もコントラストが最も高く、安定した顕著な特徴につながります。
オブジェクト検出とオブジェクトのポーズ推定のタスクの前処理ステップにエッジ検出を組み込むことにより、新しいアプローチを提案します。
透明なオブジェクトに対するエッジ検出器の効果を調査するために実験を行いました。
最先端の6Dオブジェクトポーズ推定パイプラインGDR-NETとオブジェクト検出器Yoloxのパフォーマンスを調べます。
-nested Edges(hed))。
BOPチャレンジによって提案されたパラメーターを使用して、物理ベースのレンダリングされたデータセットTrans6D-32 Kの透明オブジェクトを評価します。
私たちの結果は、前処理としてエッジ検出を適用すると、特定のオブジェクトのパフォーマンスが向上することを示しています。

要約(オリジナル)

Object pose estimation of transparent objects remains a challenging task in the field of robot vision due to the immense influence of lighting, background, and reflections. However, the edges of clear objects have the highest contrast, which leads to stable and prominent features. We propose a novel approach by incorporating edge detection in a pre-processing step for the tasks of object detection and object pose estimation. We conducted experiments to investigate the effect of edge detectors on transparent objects. We examine the performance of the state-of-the-art 6D object pose estimation pipeline GDR-Net and the object detector YOLOX when applying different edge detectors as pre-processing steps (i.e., Canny edge detection with and without color information, and holistically-nested edges (HED)). We evaluate the physically-based rendered dataset Trans6D-32 K of transparent objects with parameters proposed by the BOP Challenge. Our results indicate that applying edge detection as a pre-processing enhances performance for certain objects.

arxiv情報

著者 Tessa Pulli,Peter Hönig,Stefan Thalhammer,Matthias Hirschmanner,Markus Vincze
発行日 2025-02-17 16:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing Transparent Object Pose Estimation: A Fusion of GDR-Net and Edge Detection はコメントを受け付けていません

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

要約

統一された自己回帰パラダイム内に医学的視覚的理解と生成能力を統合する強力な医療大規模視覚モデル(MED-LVLM)であるHealthGptを提示します。
私たちのブートストラップ哲学は、不均一な理解と生成の知識を事前に訓練された大手言語モデル(LLM)に徐々に適応させることです。
これは、カスタマイズされた階層的視覚知覚アプローチと3段階の学習戦略によって補完される、新しい不均一な低ランク適応(H-LORA)技術によって達成されます。
HealthGPTを効果的に学ぶために、VL-Healthと呼ばれる包括的な医療ドメイン固有の理解と生成データセットを考案します。
実験結果は、医療視覚統一タスクにおけるHealthGPTの並外れたパフォーマンスとスケーラビリティを示しています。
当社のプロジェクトは、https://github.com/dcdmllm/healthgptでアクセスできます。

要約(オリジナル)

We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.

arxiv情報

著者 Tianwei Lin,Wenqiao Zhang,Sijing Li,Yuqian Yuan,Binhe Yu,Haoyuan Li,Wanggui He,Hao Jiang,Mengze Li,Xiaohui Song,Siliang Tang,Jun Xiao,Hui Lin,Yueting Zhuang,Beng Chin Ooi
発行日 2025-02-17 17:17:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation はコメントを受け付けていません

Understanding Figurative Meaning through Explainable Visual Entailment

要約

大規模なビジョン言語モデル(VLM)は、視覚的な質問や視覚的誘惑など、画像やテキストの文字通りの意味を細かく理解する必要があるタスクの強力な能力を実証しています。
ただし、メタファーやユーモアなどの比fig的な意味を含む画像とキャプションを提示した場合、これらのモデルの機能についてはほとんど探求されていません。
このギャップを埋めるために、モデルが画像(前提)にキャプション(仮説)を伴い、テキストの説明で予測ラベルを正当化するかどうかをモデルが予測する必要がある、説明可能な視覚的密接なタスクとして、比ur的な意味の理解をフレーミングする新しいタスクを提案します。

比ur的な現象は、画像、キャプション、またはその両方に存在する可能性があります。
Human-AI-AIコラボレーションアプローチを使用して、6,027 {画像、キャプション、ラベル、説明} 5つの多様な比ur的現象を含む添付の専門家で検証されたデータセットV-Fluteを構築します。
自動評価を通じて、VLMは、特に画像に存在する場合、文字通りから比fig的な意味に一般化するのに苦労していることがわかります。
さらに、人間の評価を介してモデルのクラス全体で、VLMの推論(幻覚と不完全または不健全な推論)の一般的なタイプのエラーを特定します。

要約(オリジナル)

Large Vision-Language Models (VLMs) have demonstrated strong capabilities in tasks requiring a fine-grained understanding of literal meaning in images and text, such as visual question-answering or visual entailment. However, there has been little exploration of the capabilities of these models when presented with images and captions containing figurative meaning, such as metaphors or humor. To close this gap, we propose a new task framing the figurative meaning understanding problem as an explainable visual entailment task, where the model has to predict whether the image (premise) entails a caption (hypothesis) and justify the predicted label with a textual explanation. The figurative phenomena can be present in the image, in the caption, or both. Using a human-AI collaboration approach, we build the accompanying expert-verified dataset V-FLUTE, containing 6,027 {image, caption, label, explanation} instances spanning five diverse figurative phenomena: metaphors, similes, idioms, sarcasm, and humor. Through automatic evaluation, we find that VLMs struggle to generalize from literal to figurative meaning, particularly when it is present in images. Further, we identify common types of errors in VLM reasoning (hallucination and incomplete or unsound reasoning) across classes of models via human evaluation.

arxiv情報

著者 Arkadiy Saakyan,Shreyas Kulkarni,Tuhin Chakrabarty,Smaranda Muresan
発行日 2025-02-17 17:24:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Understanding Figurative Meaning through Explainable Visual Entailment はコメントを受け付けていません

Vision CNNs trained to estimate spatial latents learned similar ventral-stream-aligned representations

要約

霊長類の腹側視覚河川の機能的役割の研究は、伝統的にオブジェクトの分類に焦点を当てており、多くの場合、多くの事前の証拠にもかかわらず、オブジェクトの位置やポーズなどの「空間的」潜在体を推定する上での役割を無視しています。
ほとんどの主要な腹部流れモデルは、オブジェクトの分類のためのネットワークを最適化することによって導き出されます。これは、腹側の流れがそのような目的の下でも導出されていることを意味するようです。
ここでは、別の仮説を探ります。腹側の流れは、空間的潜伏物質を推定するために最適化される可能性がありますか?
そして、密接に関連する質問:分類と比較して、空間的潜在推定から表現が学習された場合は、どの程度異なっていますか?
これらの質問をするために、3Dグラフィックエンジンによって生成された合成画像データセットを活用し、訓練された畳み込みニューラルネットワーク(CNN)をレバレバルして、空間とカテゴリの潜在性の異なる組み合わせを推定しました。
数百のカテゴリでトレーニングされたカテゴリに匹敵する神経アライメントスコアを達成するために、わずかな空間的潜伏物のみを推定するように訓練されたモデルが、モデルの空間的潜在性パフォーマンスは、その神経アラインメントと強く相関することがわかりました。
空間的潜在モデルとカテゴリトレーニングを受けたモデルは、特に初期および中間層で、非常に類似していますが、同一ではありませんが、同一ではありません。
この収束は、トレーニングデータの非ターゲット潜在的変動によって部分的に駆動されるという証拠を提供します。これにより、これらの非ターゲット潜在性の表現の暗黙の学習が促進されます。
まとめると、これらの結果は、空間的潜伏物質などの多くのトレーニング目標が、腹部の流れに類似したモデルに沿った同様のモデルにつながる可能性があることを示唆しています。
したがって、腹側流がオブジェクトの分類のみに最適化されていると想定してはなりません。
フィールドとして、モデルを脳と脳と比較するという尺度を削減して、腹側流の機能的役割をよりよく理解する必要があります。

要約(オリジナル)

Studies of the functional role of the primate ventral visual stream have traditionally focused on object categorization, often ignoring — despite much prior evidence — its role in estimating ‘spatial’ latents such as object position and pose. Most leading ventral stream models are derived by optimizing networks for object categorization, which seems to imply that the ventral stream is also derived under such an objective. Here, we explore an alternative hypothesis: Might the ventral stream be optimized for estimating spatial latents? And a closely related question: How different — if at all — are representations learned from spatial latent estimation compared to categorization? To ask these questions, we leveraged synthetic image datasets generated by a 3D graphic engine and trained convolutional neural networks (CNNs) to estimate different combinations of spatial and category latents. We found that models trained to estimate just a few spatial latents achieve neural alignment scores comparable to those trained on hundreds of categories, and the spatial latent performance of models strongly correlates with their neural alignment. Spatial latent and category-trained models have very similar — but not identical — internal representations, especially in their early and middle layers. We provide evidence that this convergence is partly driven by non-target latent variability in the training data, which facilitates the implicit learning of representations of those non-target latents. Taken together, these results suggest that many training objectives, such as spatial latents, can lead to similar models aligned neurally with the ventral stream. Thus, one should not assume that the ventral stream is optimized for object categorization only. As a field, we need to continue to sharpen our measures of comparing models to brains to better understand the functional roles of the ventral stream.

arxiv情報

著者 Yudi Xie,Weichen Huang,Esther Alter,Jeremy Schwartz,Joshua B. Tenenbaum,James J. DiCarlo
発行日 2025-02-17 17:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE, q-bio.NC | Vision CNNs trained to estimate spatial latents learned similar ventral-stream-aligned representations はコメントを受け付けていません

HumanGif: Single-View Human Diffusion with Generative Prior

要約

以前のシングルビューベースの3Dヒューマン再構成方法は、新しいビューの合成に大きな進歩を遂げましたが、単一の画像入力からのアニメーション可能なアバターのビューは整合性とポーズ親和性の両方の結果を合成することは依然として課題です。
2Dキャラクターアニメーションの成功に動機付けられ、生成事前のシングルビューヒト拡散モデルである humangif を提案します。
具体的には、シングルビューベースの3D人間の新規ビューを策定し、合成をシングル条件付けされたヒト拡散プロセスとして策定し、基礎拡散モデルから生成前の事前を利用します。
細かく一貫した新規ビューとポーズ合成を確保するために、HumangifにヒトNERFモジュールを導入して、入力画像から空間的に整列した機能を学習し、相対的なカメラと人間のポーズ変換を暗黙的にキャプチャします。
さらに、最適化中に画像レベルの損失を導入して、拡散モデルの潜在スペースと画像スペースのギャップを埋めることができます。
RenderPeopleおよびDNAレンダリングデータセットに関する広範な実験は、Humangifが新しいビューとポーズ統合の一般化を改善し、最高の知覚パフォーマンスを達成することを示しています。

要約(オリジナル)

While previous single-view-based 3D human reconstruction methods made significant progress in novel view synthesis, it remains a challenge to synthesize both view-consistent and pose-consistent results for animatable human avatars from a single image input. Motivated by the success of 2D character animation, we propose HumanGif, a single-view human diffusion model with generative prior. Specifically, we formulate the single-view-based 3D human novel view and pose synthesis as a single-view-conditioned human diffusion process, utilizing generative priors from foundational diffusion models. To ensure fine-grained and consistent novel view and pose synthesis, we introduce a Human NeRF module in HumanGif to learn spatially aligned features from the input image, implicitly capturing the relative camera and human pose transformation. Furthermore, we introduce an image-level loss during optimization to bridge the gap between latent and image spaces in diffusion models. Extensive experiments on RenderPeople and DNA-Rendering datasets demonstrate that HumanGif achieves the best perceptual performance, with better generalizability for novel view and pose synthesis.

arxiv情報

著者 Shoukang Hu,Takuya Narihira,Kazumi Fukuda,Ryosuke Sawata,Takashi Shibuya,Yuki Mitsufuji
発行日 2025-02-17 17:55:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HumanGif: Single-View Human Diffusion with Generative Prior はコメントを受け付けていません

Unhackable Temporal Rewarding for Scalable Video MLLMs

要約

優れたビデオ処理MLLMを追求するために、私たちは困惑するパラドックスに遭遇しました:「反スケーリング法」では、より多くのデータとより大きなモデルがパフォーマンスを悪化させます。
この研究では、犯人がマスクされていません:「時間的ハッキング」は、特定のフレームに固定してショートカットされ、完全なビデオの物語が欠けている現象です。
この作業では、一時的なハッキングの包括的な理論を体系的に確立し、強化学習の観点からそれを定義し、時間的困惑(TPL)スコアを導入してこの不整合を評価し、不可解な時間的やりがいのある(UTR)フレームワークを提案して、時間的ハッキングを軽減する

理論的および経験的には、TPLは、フレームの活性化パターンと強く相関して、時間モデリングの品質の信頼できる指標であることが証明されています。
広範な実験により、UTRは一時的なハッキングに対抗するだけでなく、ビデオ理解能力を大幅に高めることが明らかになりました。
この作業は、ビデオシステムを進歩させるだけでなく、プロキシ報酬をMLLM開発における真の目的と整合することの重要な重要性を明らかにしています。

要約(オリジナル)

In the pursuit of superior video-processing MLLMs, we have encountered a perplexing paradox: the ‘anti-scaling law’, where more data and larger models lead to worse performance. This study unmasks the culprit: ‘temporal hacking’, a phenomenon where models shortcut by fixating on select frames, missing the full video narrative. In this work, we systematically establish a comprehensive theory of temporal hacking, defining it from a reinforcement learning perspective, introducing the Temporal Perplexity (TPL) score to assess this misalignment, and proposing the Unhackable Temporal Rewarding (UTR) framework to mitigate the temporal hacking. Both theoretically and empirically, TPL proves to be a reliable indicator of temporal modeling quality, correlating strongly with frame activation patterns. Extensive experiments reveal that UTR not only counters temporal hacking but significantly elevates video comprehension capabilities. This work not only advances video-AI systems but also illuminates the critical importance of aligning proxy rewards with true objectives in MLLM development.

arxiv情報

著者 En Yu,Kangheng Lin,Liang Zhao,Yana Wei,Zining Zhu,Haoran Wei,Jianjian Sun,Zheng Ge,Xiangyu Zhang,Jingyu Wang,Wenbing Tao
発行日 2025-02-17 17:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Unhackable Temporal Rewarding for Scalable Video MLLMs はコメントを受け付けていません

CLEAR: Character Unlearning in Textual and Visual Modalities

要約

Machine Ulderning(MU)は、深い学習モデルからプライベートまたは危険な情報を削除するために重要です。
MUはUnimodal(テキストまたはビジョン)設定で大幅に進歩していますが、マルチモーダル解除(MMU)は、クロスモーダルデータ除去を評価するためのオープンベンチマークがないため、既に既に採用されていないままです。
このギャップに対処するために、MMU専用に設計された最初のオープンソースベンチマークであるClearを紹介します。
Clearには、対応する質問回答ペアにリンクされた200の架空の個人と3,700の画像が含まれており、モダリティ全体で徹底的な評価が可能になります。
4つの評価セットで11のMUメソッド(スクラブ、勾配上昇、DPOなど)の包括的な分析を実施し、両方のモダリティを共同で育成することを実証します。
データセットはhttps://huggingface.co/datasets/therem/clearで入手できます

要約(オリジナル)

Machine Unlearning (MU) is critical for removing private or hazardous information from deep learning models. While MU has advanced significantly in unimodal (text or vision) settings, multimodal unlearning (MMU) remains underexplored due to the lack of open benchmarks for evaluating cross-modal data removal. To address this gap, we introduce CLEAR, the first open-source benchmark designed specifically for MMU. CLEAR contains 200 fictitious individuals and 3,700 images linked with corresponding question-answer pairs, enabling a thorough evaluation across modalities. We conduct a comprehensive analysis of 11 MU methods (e.g., SCRUB, gradient ascent, DPO) across four evaluation sets, demonstrating that jointly unlearning both modalities outperforms single-modality approaches. The dataset is available at https://huggingface.co/datasets/therem/CLEAR

arxiv情報

著者 Alexey Dontsov,Dmitrii Korzh,Alexey Zhavoronkin,Boris Mikheev,Denis Bobkov,Aibek Alanov,Oleg Y. Rogov,Ivan Oseledets,Elena Tutubalina
発行日 2025-02-17 18:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | CLEAR: Character Unlearning in Textual and Visual Modalities はコメントを受け付けていません

Descriminative-Generative Custom Tokens for Vision-Language Models

要約

このペーパーでは、ビジョン言語モデル(VLM)で新しい概念を表すためにカスタムトークンを学習する可能性を探ります。
私たちの目的は、新しい入力クエリを形成するために単語でよく構成しながら、差別的タスクと生成タスクの両方に効果的なトークンを学ぶことです。
ターゲットの概念は、テキストを使用して説明されている画像の小さなセットと親の概念の観点から指定されています。
クリップテキスト機能を操作し、テキストの反転損失と分類損失の組み合わせを使用して、学習されたトークンのテキスト機能がクリップ埋め込みスペースのコンセプトの画像機能と一致するようにすることを提案します。
指定されたスーパークラスに適した属性については、トークンに及ぶ低次元サブスペースに学習されたトークンを制限します。
これらの変更は、新しいシーンを生成するために、自然言語で学んだトークンの構成の品質を改善します。
さらに、学習したカスタムトークンを使用してテキストから画像への検索タスクのクエリを形成できることを示し、また、希望の概念が忠実にエンコードされるように、複合クエリを視覚化できる重要な利点もあることを示します。
これに基づいて、検索意図に合わせてクエリが推論時間に変更される生成支援画像検索の方法を紹介します。
DeepFashion2データセットでは、この方法により、関連するベースラインよりも平均相互検索(MRR)が7%改善されます。

要約(オリジナル)

This paper explores the possibility of learning custom tokens for representing new concepts in Vision-Language Models (VLMs). Our aim is to learn tokens that can be effective for both discriminative and generative tasks while composing well with words to form new input queries. The targeted concept is specified in terms of a small set of images and a parent concept described using text. We operate on CLIP text features and propose to use a combination of a textual inversion loss and a classification loss to ensure that text features of the learned token are aligned with image features of the concept in the CLIP embedding space. We restrict the learned token to a low-dimensional subspace spanned by tokens for attributes that are appropriate for the given super-class. These modifications improve the quality of compositions of the learned token with natural language for generating new scenes. Further, we show that learned custom tokens can be used to form queries for text-to-image retrieval task, and also have the important benefit that composite queries can be visualized to ensure that the desired concept is faithfully encoded. Based on this, we introduce the method of Generation Aided Image Retrieval, where the query is modified at inference time to better suit the search intent. On the DeepFashion2 dataset, our method improves Mean Reciprocal Retrieval (MRR) over relevant baselines by 7%.

arxiv情報

著者 Pramuditha Perera,Matthew Trager,Luca Zancato,Alessandro Achille,Stefano Soatto
発行日 2025-02-17 18:13:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Descriminative-Generative Custom Tokens for Vision-Language Models はコメントを受け付けていません

Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications

要約

このホワイトペーパーでは、生成セマンティックコミュニケーションズ(GENSC)のクロスモーダルコンテキスト情報を活用するための統一されたフレームワークであるToken Communications(Tokcom)を紹介します。
Tokcomは新しいパラダイムであり、最近の生成基盤モデルとマルチモーダル大手言語モデル(GFM/MLLMS)の成功に動機付けられており、通信ユニットがトークンであり、トランスミッターとレシーバーでの効率的な変圧器ベースのトークン処理を可能にします。
この論文では、GENSCのコンテキストを活用する潜在的な機会と課題を紹介し、GFM/MLLMSベースのトークン処理をセマンティック通信システムに統合してクロスモーダルコンテキストを効果的に活用し、さまざまなレイヤーで効率的なTokcomの重要な原則を提示します
将来のワイヤレスネットワーク。
画像のGENSCセットアップで対応するTokcomの利点を示し、クロスモーダルコンテキスト情報を活用して、セマンティック/知覚品質の無視できる損失で帯域幅の効率を70.8%増加させます。
最後に、将来のワイヤレスネットワークでのTokcomの採用を促進するために、潜在的な研究方向が特定されています。

要約(オリジナル)

In this paper, we introduce token communications (TokCom), a unified framework to leverage cross-modal context information in generative semantic communications (GenSC). TokCom is a new paradigm, motivated by the recent success of generative foundation models and multimodal large language models (GFM/MLLMs), where the communication units are tokens, enabling efficient transformer-based token processing at the transmitter and receiver. In this paper, we introduce the potential opportunities and challenges of leveraging context in GenSC, explore how to integrate GFM/MLLMs-based token processing into semantic communication systems to leverage cross-modal context effectively, present the key principles for efficient TokCom at various layers in future wireless networks. We demonstrate the corresponding TokCom benefits in a GenSC setup for image, leveraging cross-modal context information, which increases the bandwidth efficiency by 70.8% with negligible loss of semantic/perceptual quality. Finally, the potential research directions are identified to facilitate adoption of TokCom in future wireless networks.

arxiv情報

著者 Li Qiao,Mahdi Boloursaz Mashhadi,Zhen Gao,Rahim Tafazolli,Mehdi Bennis,Dusit Niyato
発行日 2025-02-17 18:14:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IT, cs.MM, eess.SP, math.IT | Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications はコメントを受け付けていません