Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SciCap Challenge 2023

要約

SCICAPデータセットが2021年に開始されて以来、研究コミュニティは学術記事の科学者のキャプションを生成することに大きな進歩を遂げてきました。
2023年、最初のSCICAPチャレンジが行われ、グローバルチームが拡張されたSCICAPデータセットを使用して、さまざまな学術分野で多様なフィギュアタイプをキャプションするためのモデルを開発するよう招待しました。
同時に、テキスト生成モデルは迅速に進歩し、さまざまなビジョンと言語のタスクで印象的な機能を示した多くの強力な事前訓練を受けた大規模マルチモーダルモデル(LMM)が出現しました。
このペーパーでは、最初のScicap Challengeの概要を示し、データ上のさまざまなモデルのパフォーマンスを詳細に説明し、Fields Stateのスナップショットをキャプチャします。
プロの編集者は、他のすべてのモデルや著者が書いた元のキャプションよりもGPT-4Vによって生成されたフィギュアキャプションを圧倒的に好むことがわかりました。
この重要な発見に続いて、この質問に答えるために詳細な分析を実施しました。高度なLMMSは、科学者のキャプションを生成するタスクを解決しましたか?

要約(オリジナル)

Since the SciCap datasets launch in 2021, the research community has made significant progress in generating captions for scientific figures in scholarly articles. In 2023, the first SciCap Challenge took place, inviting global teams to use an expanded SciCap dataset to develop models for captioning diverse figure types across various academic fields. At the same time, text generation models advanced quickly, with many powerful pre-trained large multimodal models (LMMs) emerging that showed impressive capabilities in various vision-and-language tasks. This paper presents an overview of the first SciCap Challenge and details the performance of various models on its data, capturing a snapshot of the fields state. We found that professional editors overwhelmingly preferred figure captions generated by GPT-4V over those from all other models and even the original captions written by authors. Following this key finding, we conducted detailed analyses to answer this question: Have advanced LMMs solved the task of generating captions for scientific figures?

arxiv情報

著者 Ting-Yao E. Hsu,Yi-Li Hsu,Shaurya Rohatgi,Chieh-Yang Huang,Ho Yin Sam Ng,Ryan Rossi,Sungchul Kim,Tong Yu,Lun-Wei Ku,C. Lee Giles,Ting-Hao K. Huang
発行日 2025-02-18 18:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SciCap Challenge 2023 はコメントを受け付けていません

A formal implementation of Behavior Trees to act in robotics

要約

行動ツリー(BT)は、自律的なロボットシステムの作用コンポーネントとして非常に人気があります。
これらのBTが実行される間にランタイム検証と同様に、BTで書かれたプログラムの検証を実行できるようにする正式な言語にそれらを変換することにより、BTに正式なセマンティクスを定義することを提案します。
これにより、BTプログラマーが正式な言語を習得することを要求することなく、モジュール性、柔軟性、および再利用性などの最も貴重な機能を侵害することなく、BT正確性を正式に検証できます。
使用する正式なフレームワークを紹介します。
Tina、そのモデルチェックツールとHippo、ランタイム検証エンジン。
次に、BTからFiacreへの翻訳が自動的にどのように行われるか、オフラインで確認できる正式なLTLおよびCTLプロパティのタイプ、および通常のBTエンジンの代わりにオンラインで正式なモデルを実行する方法を示します。
2つのRoboticsアプリケーションでアプローチを説明し、FAIARの正式なフレームワーク(状態変数、時間など)で利用可能な他の機能にBTがどのように利益をもたらすことができるかを示します。

要約(オリジナル)

Behavior Trees (BT) are becoming quite popular as an Acting component of autonomous robotic systems. We propose to define a formal semantics to BT by translating them to a formal language which enables us to perform verification of programs written with BT, as well as runtime verification while these BT execute. This allows us to formally verify BT correctness without requiring BT programmers to master formal language and without compromising BT most valuable features: modularity, flexibility and reusability. We present the formal framework we use: Fiacre, its langage and the produced TTS model; Tina, its model checking tools and Hippo, its runtime verification engine. We then show how the translation from BT to Fiacre is automatically done, the type of formal LTL and CTL properties we can check offline and how to execute the formal model online in place of a regular BT engine. We illustrate our approach on two robotics applications, and show how BT could benefit of other features available in the Fiacre formal framework (state variables, time, etc).

arxiv情報

著者 Felix Ingrand
発行日 2025-02-18 07:12:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A formal implementation of Behavior Trees to act in robotics はコメントを受け付けていません

MagicArticulate: Make Your 3D Models Articulation-Ready

要約

3Dコンテンツ作成の爆発的な成長により、静的3Dモデルを自動的に現実的なアニメーションをサポートするARTICULATION-READYバージョンに変換するという需要が増加しています。
従来のアプローチは、時間がかかり、労働集約的な手動注釈に大きく依存しています。
さらに、大規模なベンチマークの欠如は、学習ベースのソリューションの開発を妨げています。
この作業では、静的3Dモデルをアーティキュレーション対応資産に自動的に変換する効果的なフレームワークであるMagicArticulateを提示します。
私たちの重要な貢献は3つあります。
まず、Objaverse-XLから慎重にキュレーションされた高品質のアーティキュレーション注釈を備えた33Kを超える3Dモデルを含む大規模なベンチマークであるArticulation-XLを紹介します。
第二に、タスクをシーケンスモデリングの問題として定式化する新しいスケルトン生成方法を提案し、自動回帰トランスを活用して、スケルトン内のさまざまな数の骨またはジョイントと、異なる3Dモデルにわたって固有の依存関係を自然に処理します。
第三に、頂点とジョイントの間に体積測地線距離前の距離を組み込んだ機能的拡散プロセスを使用して、スキニングウェイトを予測します。
広範な実験は、Magicarticulationが多様なオブジェクトカテゴリ全体で既存の方法を大幅に上回ることを示しており、現実的なアニメーションを可能にする高品質の明確化を実現しています。
プロジェクトページ:https://chaoyuesong.github.io/magicarticulate。

要約(オリジナル)

With the explosive growth of 3D content creation, there is an increasing demand for automatically converting static 3D models into articulation-ready versions that support realistic animation. Traditional approaches rely heavily on manual annotation, which is both time-consuming and labor-intensive. Moreover, the lack of large-scale benchmarks has hindered the development of learning-based solutions. In this work, we present MagicArticulate, an effective framework that automatically transforms static 3D models into articulation-ready assets. Our key contributions are threefold. First, we introduce Articulation-XL, a large-scale benchmark containing over 33k 3D models with high-quality articulation annotations, carefully curated from Objaverse-XL. Second, we propose a novel skeleton generation method that formulates the task as a sequence modeling problem, leveraging an auto-regressive transformer to naturally handle varying numbers of bones or joints within skeletons and their inherent dependencies across different 3D models. Third, we predict skinning weights using a functional diffusion process that incorporates volumetric geodesic distance priors between vertices and joints. Extensive experiments demonstrate that MagicArticulate significantly outperforms existing methods across diverse object categories, achieving high-quality articulation that enables realistic animation. Project page: https://chaoyuesong.github.io/MagicArticulate.

arxiv情報

著者 Chaoyue Song,Jianfeng Zhang,Xiu Li,Fan Yang,Yiwen Chen,Zhongcong Xu,Jun Hao Liew,Xiaoyang Guo,Fayao Liu,Jiashi Feng,Guosheng Lin
発行日 2025-02-18 05:21:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | MagicArticulate: Make Your 3D Models Articulation-Ready はコメントを受け付けていません

Manifold Learning with Sparse Regularised Optimal Transport

要約

マニホールド学習は、現代の統計とデータサイエンスの中心的なタスクです。
多くのデータセット(セル、ドキュメント、画像、分子)は、高次元の周囲空間に埋め込まれた点雲として表すことができますが、データに固有の自由度は通常、周囲の寸法の数よりもはるかに少ないです。
データが埋め込まれている潜在的マニホールドを検出するタスクは、下流の分析の幅広いファミリの前提条件です。
実際のデータセットは騒々しい観察とサンプリングの対象となるため、基礎となるマニホールドに関する蒸留情報が大きな課題です。
私たちは、二星の核の正規化の一般化として解釈できる、まばらで適応的な親和性マトリックスを構築する二次正則化を使用して、最適な輸送の対称バージョンを利用する方法を提案します。
結果のカーネルが連続制限のラプラス型演算子と一致していることを証明し、ヘテロスケダスティックノイズに対する堅牢性を確立し、これらの結果を数値実験で示します。
離散データに対してこの最適な輸送を計算するための非常に効率的な計算スキームを特定し、一連の例で競合する方法よりも優れていることを示します。

要約(オリジナル)

Manifold learning is a central task in modern statistics and data science. Many datasets (cells, documents, images, molecules) can be represented as point clouds embedded in a high dimensional ambient space, however the degrees of freedom intrinsic to the data are usually far fewer than the number of ambient dimensions. The task of detecting a latent manifold along which the data are embedded is a prerequisite for a wide family of downstream analyses. Real-world datasets are subject to noisy observations and sampling, so that distilling information about the underlying manifold is a major challenge. We propose a method for manifold learning that utilises a symmetric version of optimal transport with a quadratic regularisation that constructs a sparse and adaptive affinity matrix, that can be interpreted as a generalisation of the bistochastic kernel normalisation. We prove that the resulting kernel is consistent with a Laplace-type operator in the continuous limit, establish robustness to heteroskedastic noise and exhibit these results in numerical experiments. We identify a highly efficient computational scheme for computing this optimal transport for discrete data and demonstrate that it outperforms competing methods in a set of examples.

arxiv情報

著者 Stephen Zhang,Gilles Mordant,Tetsuya Matsumoto,Geoffrey Schiebinger
発行日 2025-02-17 16:24:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62R30, 68T01, cs.LG, math.ST, stat.ML, stat.TH | Manifold Learning with Sparse Regularised Optimal Transport はコメントを受け付けていません

Metalearning Continual Learning Algorithms

要約

汎用学習システムは、絶えず変化する環境で、オープンエンドの方法で自分自身を改善する必要があります。
ただし、ニューラルネットワークの従来の学習アルゴリズムは、壊滅的な忘却(CF)に苦しんでいます。つまり、新しいタスクが学習されたときに以前に獲得したスキルは忘れられます。
CFを避けるための新しいアルゴリズムを手作りする代わりに、自己参照ニューラルネットワークをトレーニングするための自動化された継続的な学習(ACL)を提案します。
ACLは、継続的な学習(CL)Desiderata(古いタスクと新しいタスクの両方で優れたパフォーマンス)をメタレーニングの目標にエンコードします。
私たちの実験は、ACLが「コンテスト内の壊滅的な忘却」を効果的に解決することを示しています。
ACL学習アルゴリズムは、リプレイのない設定でのスプリットマニストベンチマークで、手作りの学習アルゴリズムと一般的なメタ通過学習方法の両方を上回り、複数の標準画像分類データセットで構成される多様なタスクの継続的な学習を可能にします。
また、ACLと事前訓練を受けたモデルを活用する最先端のCLメソッドと比較することにより、コンテキスト内CLの現在の制限についても説明します。
全体として、CLの長年の問題にいくつかの新しい視点をもたらします。

要約(オリジナル)

General-purpose learning systems should improve themselves in open-ended fashion in ever-changing environments. Conventional learning algorithms for neural networks, however, suffer from catastrophic forgetting (CF), i.e., previously acquired skills are forgotten when a new task is learned. Instead of hand-crafting new algorithms for avoiding CF, we propose Automated Continual Learning (ACL) to train self-referential neural networks to metalearn their own in-context continual (meta)learning algorithms. ACL encodes continual learning (CL) desiderata — good performance on both old and new tasks — into its metalearning objectives. Our experiments demonstrate that ACL effectively resolves ‘in-context catastrophic forgetting,’ a problem that naive in-context learning algorithms suffer from; ACL-learned algorithms outperform both hand-crafted learning algorithms and popular meta-continual learning methods on the Split-MNIST benchmark in the replay-free setting, and enables continual learning of diverse tasks consisting of multiple standard image classification datasets. We also discuss the current limitations of in-context CL by comparing ACL with state-of-the-art CL methods that leverage pre-trained models. Overall, we bring several novel perspectives into the long-standing problem of CL.

arxiv情報

著者 Kazuki Irie,Róbert Csordás,Jürgen Schmidhuber
発行日 2025-02-17 18:06:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Metalearning Continual Learning Algorithms はコメントを受け付けていません

On Temperature Scaling and Conformal Prediction of Deep Classifiers

要約

多くの分類アプリケーションでは、ディープニューラルネットワーク(DNN)ベースの分類器の予測には、ある程度の信頼性表示を伴う必要があります。
その目的の2つの一般的なアプローチは次のとおりです。1)キャリブレーション:最大値が正確性の確率をより良く推定するように分類器のソフトマックス値を変更します。
2)Conformal Prediction(CP):ユーザー指定の確率で真のラベルを含む候補ラベルの予測セットを作成し、限界カバレッジを保証しますが、たとえばクラスごとのカバレッジを保証します。
実際には、両方のタイプの適応症が望ましいですが、これまでのところ、それらの間の相互作用は調査されていません。
ユビキタス温度スケーリング(TS)キャリブレーションに焦点を当て、この論文を開始し、顕著なCPメソッドに対するその効果の広範な経験的研究を開始します。
TSキャリブレーションは、適応型CPメソッドのクラス条件付きカバレッジを改善するが、驚くべきことに、予測セットのサイズに悪影響を与えることを示しています。
この動作に動機付けられて、CPに対するTSのキャリブレーションアプリケーションを超えた効果を調査し、予測セットのサイズと適応型CPメソッドの条件付きカバレッジを取引できる興味深い傾向を明らかにします。
次に、非モノトニックな傾向全体を説明する数学的理論を確立します。
最後に、実験と理論に基づいて、適応型CPとキャリブレーションを効果的に組み合わせるための実務家向けの簡単なガイドラインを提供します。

要約(オリジナル)

In many classification applications, the prediction of a deep neural network (DNN) based classifier needs to be accompanied by some confidence indication. Two popular approaches for that aim are: 1) Calibration: modifies the classifier’s softmax values such that the maximal value better estimates the correctness probability; and 2) Conformal Prediction (CP): produces a prediction set of candidate labels that contains the true label with a user-specified probability, guaranteeing marginal coverage but not, e.g., per class coverage. In practice, both types of indications are desirable, yet, so far the interplay between them has not been investigated. Focusing on the ubiquitous Temperature Scaling (TS) calibration, we start this paper with an extensive empirical study of its effect on prominent CP methods. We show that while TS calibration improves the class-conditional coverage of adaptive CP methods, surprisingly, it negatively affects their prediction set sizes. Motivated by this behavior, we explore the effect of TS on CP beyond its calibration application and reveal an intriguing trend under which it allows to trade prediction set size and conditional coverage of adaptive CP methods. Then, we establish a mathematical theory that explains the entire non-monotonic trend. Finally, based on our experiments and theory, we offer simple guidelines for practitioners to effectively combine adaptive CP with calibration.

arxiv情報

著者 Lahav Dabah,Tom Tirer
発行日 2025-02-17 18:45:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | On Temperature Scaling and Conformal Prediction of Deep Classifiers はコメントを受け付けていません

Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs

要約

人間の判断は本質的に主観的であり、性別や民族などの個人的な特性によって積極的に影響を受けます。
大規模な言語モデル(LLM)は、多様なコンテキスト全体で人間の反応をシミュレートするために広く使用されていますが、主観的なタスクの人口統計上の違いを説明する能力は不明のままです。
この研究では、Popquornデータセットを活用して、2つの主観的な判断タスクの人口統計上の違いを理解する能力について、9つの一般的なLLMを評価します。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジア人や黒人の参加者よりも白人の参加者のラベルとより密接に整合しているが、女性を支持する小さな性別バイアスのみが礼儀正しさの課題に現れることがわかります。
さらに、社会人口学的プロンプトは一貫して改善せず、場合によっては、特定のサブポピュレーションから言語を知覚するLLMSの能力を悪化させます。
これらの調査結果は、主観的な判断タスクを実行する際のLLMの潜在的な人口統計学的バイアスを強調し、多元的な整合を達成するための戦略として社会人口統計促進の限界を強調しています。
コードとデータは、https://github.com/jiaxin-pei/llm-as-subjective-judgeで入手できます。

要約(オリジナル)

Human judgments are inherently subjective and are actively affected by personal traits such as gender and ethnicity. While Large Language Models (LLMs) are widely used to simulate human responses across diverse contexts, their ability to account for demographic differences in subjective tasks remains uncertain. In this study, leveraging the POPQUORN dataset, we evaluate nine popular LLMs on their ability to understand demographic differences in two subjective judgment tasks: politeness and offensiveness. We find that in zero-shot settings, most models’ predictions for both tasks align more closely with labels from White participants than those from Asian or Black participants, while only a minor gender bias favoring women appears in the politeness task. Furthermore, sociodemographic prompting does not consistently improve and, in some cases, worsens LLMs’ ability to perceive language from specific sub-populations. These findings highlight potential demographic biases in LLMs when performing subjective judgment tasks and underscore the limitations of sociodemographic prompting as a strategy to achieve pluralistic alignment. Code and data are available at: https://github.com/Jiaxin-Pei/LLM-as-Subjective-Judge.

arxiv情報

著者 Huaman Sun,Jiaxin Pei,Minje Choi,David Jurgens
発行日 2025-02-17 17:46:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG | Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs はコメントを受け付けていません

Attention as a Hypernetwork

要約

トランスは、状況によっては、トレーニング中に構成要素が遭遇したかもしれないが、組成物がない新しい問題インスタンスに一般化することができます。
組成の一般化のこの能力の根底にあるメカニズムは何ですか?
マルチヘッドの注意をハイパーネットワークとして再定式化することにより、構成可能で低次元の潜在コードがキークエリ固有の操作を指定することを明らかにします。
この潜在コードは、ネットワークが目に見えないタスク構成で実行するサブタスクを予測しており、トレーニング中に取得した潜在コードが目に見えない問題インスタンスを解決するために再利用されることを明らかにしていることがわかります。
マルチヘッド注意の本質的なハイパーネットワークが組成の一般化をサポートするという仮説をさらに調べるために、ハイパーネットワークで生成された線形値ネットワークを作ることが組成性を強化するかどうかを和らげます。
この変更により、抽象的な推論タスクに関する構成一般化が改善されることがわかります。
特に、レイヴンのプログレッシブマトリックスヒューマンインテリジェンステストの象徴的なバージョンを導入します。これにより、トレーニングと評価中に遭遇する問題組成を正確に制御できます。
このタスクで、モデルサイズとデータのスケーリングが変圧器の構成一般化を可能にし、機能的に構造化された潜在空間を生み出す方法を示します。

要約(オリジナル)

Transformers can under some circumstances generalize to novel problem instances whose constituent parts might have been encountered during training, but whose compositions have not. What mechanisms underlie this ability for compositional generalization? By reformulating multi-head attention as a hypernetwork, we reveal that a composable, low-dimensional latent code specifies key-query specific operations. We find empirically that this latent code is predictive of the subtasks the network performs on unseen task compositions, revealing that latent codes acquired during training are reused to solve unseen problem instances. To further examine the hypothesis that the intrinsic hypernetwork of multi-head attention supports compositional generalization, we ablate whether making the hypernetwork-generated linear value network nonlinear strengthens compositionality. We find that this modification improves compositional generalization on abstract reasoning tasks. In particular, we introduce a symbolic version of the Raven’s Progressive Matrices human intelligence test, which gives us precise control over the problem compositions encountered during training and evaluation. We demonstrate on this task how scaling model size and data enables compositional generalization in transformers and gives rise to a functionally structured latent space.

arxiv情報

著者 Simon Schug,Seijin Kobayashi,Yassir Akram,João Sacramento,Razvan Pascanu
発行日 2025-02-17 15:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Attention as a Hypernetwork はコメントを受け付けていません

Generating Text from Uniform Meaning Representation

要約

均一な意味表現(UMR)は、最近開発されたグラフベースのセマンティック表現であり、特にドキュメントレベルの情報と多言語の柔軟性を含めることにより、さまざまな方法で抽象的な意味表現(AMR)を拡張します。
下流タスクにUMRを効果的に採用および活用するには、UMR技術エコシステムの開発に向けて努力を払う必要があります。
これまでに限られた量のUMRアノテーションが生成されていますが、この作業では、多言語のUMRグラフからテキストを作成するための最初のアプローチを調査します。
(2)UMRデータを使用した大規模な言語モデルの微調整、および(3)UMRデータを使用して既存のAMRからテキストの生成モデルを微調整する。
私たちの最高のパフォーマンスモデルは、参照と比較した場合、英語で0.825、中国語で0.882の多言語Bertscoreを達成します。

要約(オリジナル)

Uniform Meaning Representation (UMR) is a recently developed graph-based semantic representation, which expands on Abstract Meaning Representation (AMR) in a number of ways, in particular through the inclusion of document-level information and multilingual flexibility. In order to effectively adopt and leverage UMR for downstream tasks, efforts must be placed toward developing a UMR technological ecosystem. Though still limited amounts of UMR annotations have been produced to date, in this work, we investigate the first approaches to producing text from multilingual UMR graphs: (1) a pipeline conversion of UMR to AMR, then using AMR-to-text generation models, (2) fine-tuning large language models with UMR data, and (3) fine-tuning existing AMR-to-text generation models with UMR data. Our best performing model achieves a multilingual BERTscore of 0.825 for English and 0.882 for Chinese when compared to the reference, which is a promising indication of the effectiveness of fine-tuning approaches for UMR-to-text generation with even limited amounts of UMR data.

arxiv情報

著者 Emma Markle,Reihaneh Iranmanesh,Shira Wein
発行日 2025-02-17 16:20:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Generating Text from Uniform Meaning Representation はコメントを受け付けていません

A MIMO Wireless Channel Foundation Model via CIR-CSI Consistency

要約

人工知能の分野では、自己科学者の学習は、事前トレーニングの大規模な非標識データセットを活用することにより、優れた一般化能力を実証しました。これは、ワイヤレス通信モデルがさまざまなシナリオに適応するために特に重要です。
このホワイトペーパーは、チャネル状態情報(CSI)とチャネルインパルス応答(CIR)を自然に整列させたマルチモーダルデータとして革新的に扱い、CSI-Clipという名前の最初のMIMOワイヤレスチャネルファンデーションモデルを提案しています。
CIRとCSIの両方の共同表現を効果的にキャプチャすることにより、CSI-Clipはシナリオ全体で顕著な適応性と堅牢な特徴抽出機能を示します。
実験結果は、位置決めタスクでは、CSIクリップが平均誤差距離を22%減らすことを示しています。
ビーム管理タスクでは、チャネル識別タスクだけでなく、従来の監視された方法と比較して、精度が1%増加します。
これらの改善は、センシングとコミュニケーションを統合する際のCSIクリップの潜在的と価値を強調するだけでなく、既存の手法よりも重要な利点を示しています。
さらに、CSIとCIRをマルチモーダルペアとして見て、ワイヤレスチャネルファンデーションモデルの対照学習をMIMOワイヤレス通信のドメインで新しい研究の方向性を開きます。

要約(オリジナル)

In the field of artificial intelligence, self-supervised learning has demonstrated superior generalization capabilities by leveraging large-scale unlabeled datasets for pretraining, which is especially critical for wireless communication models to adapt to a variety of scenarios. This paper innovatively treats Channel State Information (CSI) and Channel Impulse Response (CIR) as naturally aligned multi-modal data and proposes the first MIMO wireless channel foundation model, named CSI-CLIP. By effectively capturing the joint representations of both CIR and CSI, CSI-CLIP exhibits remarkable adaptability across scenarios and robust feature extraction capabilities. Experimental results show that in positioning task, CSI-CLIP reduces the mean error distance by 22%; in beam management task, it increases accuracy by 1% compared to traditional supervised methods, as well as in the channel identification task. These improvements not only highlight the potential and value of CSI-CLIP in integrating sensing and communication but also demonstrate its significant advantages over existing techniques. Moreover, viewing CSI and CIR as multi-modal pairs and contrastive learning for wireless channel foundation model open up new research directions in the domain of MIMO wireless communications.

arxiv情報

著者 Jun Jiang,Wenjun Yu,Yunfan Li,Yuan Gao,Shugong Xu
発行日 2025-02-17 16:13:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.SP | A MIMO Wireless Channel Foundation Model via CIR-CSI Consistency はコメントを受け付けていません