MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

要約

チェーンオブシュート(COT)で質問に答えることで、大規模な言語モデル(LLM)の推論能力が大幅に向上しましたが、大規模なマルチモーダルモデル(LMM)への影響には、体系的な評価と詳細な調査が依然として欠けています。
このペーパーでは、MME-COTを紹介します。MME-COTは、数学、科学、OCR、ロジック、時空、一般シーンの6つのドメインにまたがるLMMSのCOT推論パフォーマンスを評価する専門ベンチマークです。
この分野での最初の包括的な研究として、微粒レベルで推論の質、堅牢性、効率を評価する3つの新しいメトリックを組み込んだ徹底的な評価スイートを提案します。
キュレーションされた高品質のデータとユニークな評価戦略を活用して、最先端のLMMの詳細な分析を実施し、いくつかの重要な洞察を明らかにします:1)反射メカニズムを備えたモデルは、Kimi K1を使用して優れたCOT品質を示します。
5 GPT-4Oを上回り、最高品質の結果を実証します。
2)COTプロンプトは、しばしば知覚が多いタスクでLMMのパフォーマンスを低下させ、潜在的に有害な過剰考え方を示唆しています。
3)COTの品質は高いですが、反射を伴うLMMは、正常な応答段階と自己修正段階の両方で有意な非効率性を示します。
MME-COTがLMMでマルチモーダル推論を進めるための基盤として機能することを願っています。
プロジェクトページ:https://mmecot.github.io/

要約(オリジナル)

Answering questions with Chain-of-Thought (CoT) has significantly enhanced the reasoning capabilities of Large Language Models (LLMs), yet its impact on Large Multimodal Models (LMMs) still lacks a systematic assessment and in-depth investigation. In this paper, we introduce MME-CoT, a specialized benchmark evaluating the CoT reasoning performance of LMMs, spanning six domains: math, science, OCR, logic, space-time, and general scenes. As the first comprehensive study in this area, we propose a thorough evaluation suite incorporating three novel metrics that assess the reasoning quality, robustness, and efficiency at a fine-grained level. Leveraging curated high-quality data and a unique evaluation strategy, we conduct an in-depth analysis of state-of-the-art LMMs, uncovering several key insights: 1) Models with reflection mechanism demonstrate a superior CoT quality, with Kimi k1.5 outperforming GPT-4o and demonstrating the highest quality results; 2) CoT prompting often degrades LMM performance on perception-heavy tasks, suggesting a potentially harmful overthinking behavior; and 3) Although the CoT quality is high, LMMs with reflection exhibit significant inefficiency in both normal response and self-correction phases. We hope MME-CoT serves as a foundation for advancing multimodal reasoning in LMMs. Project Page: https://mmecot.github.io/

arxiv情報

著者 Dongzhi Jiang,Renrui Zhang,Ziyu Guo,Yanwei Li,Yu Qi,Xinyan Chen,Liuhui Wang,Jianhan Jin,Claire Guo,Shen Yan,Bo Zhang,Chaoyou Fu,Peng Gao,Hongsheng Li
発行日 2025-02-13 18:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency はコメントを受け付けていません

Embed Any NeRF: Graph Meta-Networks for Neural Tasks on Arbitrary NeRF Architectures

要約

ニューラル放射輝度フィールド(NERF)は、神経ネットワークの重みに形状と外観情報をエンコードすることにより、3Dオブジェクトとシーンを表すための画期的なパラダイムとして浮上しています。
最近の作品は、そのような重みを入力として使用して、それらを処理して深い学習タスクを解決するためにどのように使用できるかを示しています。
しかし、これらのフレームワークは、特定の事前定義されたアーキテクチャでNERFのみを処理できます。
この論文では、複数のアーキテクチャでnerfsを摂取し、トレーニング時に見られないアーキテクチャに関する推論を実行できる最初のフレームワークを紹介します。
私たちは、表現学習フレームワークでグラフメタネットワークをトレーニングすることにより、この目標を達成します。
さらに、コントラストの目的が、アーキテクチャに依存しない潜在空間を取得することをどのように助長するかを示します。
MLPベースとトリプラナーの両方のナーフの両方の実験では、単一のアーキテクチャに制約されている既存のフレームワークのそれに一致またはそれを超える分類および検索タスクの堅牢なパフォーマンスを示しているため、ナルフスでタスクを実行する最初のアーキテクチャと存在する方法が提供されます。
重みを処理することにより。

要約(オリジナル)

Neural Radiance Fields (NeRFs) have emerged as a groundbreaking paradigm for representing 3D objects and scenes by encoding shape and appearance information into the weights of a neural network. Recent works have shown how such weights can be used as input to frameworks processing them to solve deep learning tasks. Yet, these frameworks can only process NeRFs with a specific, predefined architecture. In this paper, we present the first framework that can ingest NeRFs with multiple architectures and perform inference on architectures unseen at training time. We achieve this goal by training a Graph Meta-Network in a representation learning framework. Moreover, we show how a contrastive objective is conducive to obtaining an architecture-agnostic latent space. In experiments on both MLP-based and tri-planar NeRFs, our approach demonstrates robust performance in classification and retrieval tasks that either matches or exceeds that of existing frameworks constrained to single architectures, thus providing the first architecture-agnostic method to perform tasks on NeRFs by processing their weights.

arxiv情報

著者 Francesco Ballerini,Pierluigi Zama Ramirez,Samuele Salti,Luigi Di Stefano
発行日 2025-02-13 18:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Embed Any NeRF: Graph Meta-Networks for Neural Tasks on Arbitrary NeRF Architectures はコメントを受け付けていません

Toward Universal Laws of Outlier Propagation

要約

アルゴリズム情報理論(AIT)は、いわゆるランダム性欠乏の観点から外れ値を定量化する原則的な方法を認めていると主張します。
因果ベイジアンネットワークによって生成される確率分布については、関節状態のランダム性欠乏が、メカニズムの原則の独立性を条件として、各因果メカニズムのランダム性欠陥に分解することを示します。
したがって、異常な関節観測は、それらの根本原因、つまり異常に動作するメカニズムに定量的に起因する可能性があります。
ランダム性保存のレビンの法則の延長として、メカニズムの独立性がもたらされると、弱い外れ値が強力なものを引き起こすことができないことを示しています。
これらの情報理論法が、既存のスコアに関して定義された外れ値の動作をよりよく理解する方法を示します。

要約(オリジナル)

We argue that Algorithmic Information Theory (AIT) admits a principled way to quantify outliers in terms of so-called randomness deficiency. For the probability distribution generated by a causal Bayesian network, we show that the randomness deficiency of the joint state decomposes into randomness deficiencies of each causal mechanism, subject to the Independence of Mechanisms Principle. Accordingly, anomalous joint observations can be quantitatively attributed to their root causes, i.e., the mechanisms that behaved anomalously. As an extension of Levin’s law of randomness conservation, we show that weak outliers cannot cause strong ones when Independence of Mechanisms holds. We show how these information theoretic laws provide a better understanding of the behaviour of outliers defined with respect to existing scores.

arxiv情報

著者 Aram Ebtekar,Yuhao Wang,Dominik Janzing
発行日 2025-02-13 18:24:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Toward Universal Laws of Outlier Propagation はコメントを受け付けていません

Salamandra Technical Report

要約

この作業では、3つの異なるサイズのオープンソースデコーダーのみの大型言語モデルのスイートであるSalamandraを紹介します:2、7、および400億パラメーター。
モデルは、35のヨーロッパの言語とコードのテキストを含む多言語の非常に多言語データでゼロからトレーニングされました。
当社の慎重にキュレーションされたコーパスは、多種多様なソースから編集されたオープンアクセスデータからのみ作られています。
ベースモデルに加えて、パブリックドメイン命令データで微調整された補足チェックポイントもチャットアプリケーション用にリリースされています。
さらに、マルチモダリティに関する予備的な実験も共有します。これは、サラマンドラファミリーの潜在的なアプリケーションを紹介するための概念実証として機能します。
多言語のベンチマークに関する当社の広範な評価は、サラマンドラには強力な機能があり、同様のサイズのオープンソースモデルと比較すると競争力のあるパフォーマンスを達成することが明らかになりました。
標準のダウンストリームタスクとバイアスと安全性に関連する重要な側面の両方で包括的な評価結果を提供します。この技術レポートを使用すると、設計の選択肢、データキュレーション戦略、評価方法論の背後にあるすべての詳細を共有することにより、オープンサイエンスを促進する予定です。
それに加えて、トレーニングと評価スクリプトを公開できるようにすることにより、通常の練習から逸脱しています。
将来の研究を促進し、商業利用を促進し、それによって大規模な言語モデルのオープンソースのエコシステムに貢献するために、容認できるApache 2.0ライセンスの下ですべてのモデルをリリースします。

要約(オリジナル)

This work introduces Salamandra, a suite of open-source decoder-only large language models available in three different sizes: 2, 7, and 40 billion parameters. The models were trained from scratch on highly multilingual data that comprises text in 35 European languages and code. Our carefully curated corpus is made exclusively from open-access data compiled from a wide variety of sources. Along with the base models, supplementary checkpoints that were fine-tuned on public-domain instruction data are also released for chat applications. Additionally, we also share our preliminary experiments on multimodality, which serve as proof-of-concept to showcase potential applications for the Salamandra family. Our extensive evaluations on multilingual benchmarks reveal that Salamandra has strong capabilities, achieving competitive performance when compared to similarly sized open-source models. We provide comprehensive evaluation results both on standard downstream tasks as well as key aspects related to bias and safety.With this technical report, we intend to promote open science by sharing all the details behind our design choices, data curation strategy and evaluation methodology. In addition to that, we deviate from the usual practice by making our training and evaluation scripts publicly accessible. We release all models under a permissive Apache 2.0 license in order to foster future research and facilitate commercial use, thereby contributing to the open-source ecosystem of large language models.

arxiv情報

著者 Aitor Gonzalez-Agirre,Marc Pàmies,Joan Llop,Irene Baucells,Severino Da Dalt,Daniel Tamayo,José Javier Saiz,Ferran Espuña,Jaume Prats,Javier Aula-Blasco,Mario Mina,Iñigo Pikabea,Adrián Rubio,Alexander Shvets,Anna Sallés,Iñaki Lacunza,Jorge Palomar,Júlia Falcão,Lucía Tormo,Luis Vasquez-Reina,Montserrat Marimon,Oriol Pareras,Valle Ruiz-Fernández,Marta Villegas
発行日 2025-02-13 17:33:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Salamandra Technical Report はコメントを受け付けていません

Faithful, Unfaithful or Ambiguous? Multi-Agent Debate with Initial Stance for Summary Evaluation

要約

大規模な言語モデル(LLM)に基づいた忠実さの評価者は、テキストの流encyさにだまされ、要約のエラーを特定することに苦労することがよくあります。
複数のLLMベースのエージェントが初期スタンス(彼らの信念が何であるかに関係なく)に割り当てられ、課せられた信念を正当化する理由を思い付くことを余儀なくされ、したがってマルチラウンドの議論に従事するという要約忠実な評価へのアプローチを提案します
合意に達する。
均一に分散された初期割り当てにより、より多くの多様なスタンスが発生します。
さらに、最近の忠実な評価データセットを分析することにより、当然のことながら、要約がソース文書に忠実であるかどうかは必ずしもそうではないことを観察します。
したがって、このような特別なケースを特定するために、新しい次元、曖昧さ、および詳細な分類法を紹介します。
実験は、私たちのアプローチが曖昧さを特定するのに役立つことを実証し、非曖昧な要約でパフォーマンスを強化することさえあります。

要約(オリジナル)

Faithfulness evaluators based on large language models (LLMs) are often fooled by the fluency of the text and struggle with identifying errors in the summaries. We propose an approach to summary faithfulness evaluation in which multiple LLM-based agents are assigned initial stances (regardless of what their belief might be) and forced to come up with a reason to justify the imposed belief, thus engaging in a multi-round debate to reach an agreement. The uniformly distributed initial assignments result in a greater diversity of stances leading to more meaningful debates and ultimately more errors identified. Furthermore, by analyzing the recent faithfulness evaluation datasets, we observe that naturally, it is not always the case for a summary to be either faithful to the source document or not. We therefore introduce a new dimension, ambiguity, and a detailed taxonomy to identify such special cases. Experiments demonstrate our approach can help identify ambiguities, and have even a stronger performance on non-ambiguous summaries.

arxiv情報

著者 Mahnaz Koupaee,Jake W. Vincent,Saab Mansour,Igor Shalyminov,Han He,Hwanjun Song,Raphael Shu,Jianfeng He,Yi Nian,Amy Wing-mei Wong,Kyu J. Han,Hang Su
発行日 2025-02-13 14:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Faithful, Unfaithful or Ambiguous? Multi-Agent Debate with Initial Stance for Summary Evaluation はコメントを受け付けていません

Better Embeddings with Coupled Adam

要約

それらの驚くべき能力にもかかわらず、LLMSは、異方性の望ましくないが理解されていない特徴を示す単語表現を学びます。
この論文では、アダムの2番目の瞬間は異方性埋め込みの原因であると主張し、問題を軽減するためにアダムと呼ばれる修正されたオプティマイザーを提案します。
私たちの実験は、結合されたアダムが埋め込みの品質を大幅に向上させ、同時に十分なデータセットで上流と下流のパフォーマンスを向上させることを示しています。

要約(オリジナル)

Despite their remarkable capabilities, LLMs learn word representations that exhibit the undesirable yet poorly understood feature of anisotropy. In this paper, we argue that the second moment in Adam is a cause of anisotropic embeddings, and suggest a modified optimizer called Coupled Adam to mitigate the problem. Our experiments demonstrate that Coupled Adam significantly improves the quality of embeddings, while also leading to better upstream and downstream performance on large enough datasets.

arxiv情報

著者 Felix Stollenwerk,Tobias Stollenwerk
発行日 2025-02-13 15:36:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Better Embeddings with Coupled Adam はコメントを受け付けていません

Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation

要約

注意ベースの方法は、従来の幾何学的深部学習(GDL)モデルを上回り、球状の皮質表面の長距離依存性をモデル化する際の例外的なパフォーマンスを実証しています。
ただし、それらの広範な推論時間と高いメモリは、限られたコンピューティングリソースを備えた大規模なデータセットへのアプリケーションの課題をもたらします。
コンピュータービジョンの状態空間モデルに触発されて、球状の表面に注意を払わないビジョンマンバ(VIM)を紹介し、球状マニホールドに関するデータを分析するためのドメインに依存しないアーキテクチャを提示します。
私たちの方法は、細分化されたicoSphereから導出された三角形のパッチのシーケンスとして球形データを表現することにより、表面のパッチを実現します。
提案された表面視力マンバ(SIM)は、新生児脳からの皮質表面指標を使用して、複数の神経発達表現型回帰タスクで評価されます。
実験結果は、SIMが注意とGDLベースの方法の両方を上回り、ICO-4グリッドパーティションの下での表面視力変圧器(SIT)と比較して、4.8倍の推論を4.8倍高速化し、91.7%のメモリ消費量を達成することを示しています。
感度分析は、SIMが微妙な認知発達パターンを特定する可能性をさらに強調しています。
このコードは、https://github.com/rongzhao-he/surface-vision-mambaで入手できます。

要約(オリジナル)

Attention-based methods have demonstrated exceptional performance in modelling long-range dependencies on spherical cortical surfaces, surpassing traditional Geometric Deep Learning (GDL) models. However, their extensive inference time and high memory demands pose challenges for application to large datasets with limited computing resources. Inspired by the state space model in computer vision, we introduce the attention-free Vision Mamba (Vim) to spherical surfaces, presenting a domain-agnostic architecture for analyzing data on spherical manifolds. Our method achieves surface patching by representing spherical data as a sequence of triangular patches derived from a subdivided icosphere. The proposed Surface Vision Mamba (SiM) is evaluated on multiple neurodevelopmental phenotype regression tasks using cortical surface metrics from neonatal brains. Experimental results demonstrate that SiM outperforms both attention- and GDL-based methods, delivering 4.8 times faster inference and achieving 91.7% lower memory consumption compared to the Surface Vision Transformer (SiT) under the Ico-4 grid partitioning. Sensitivity analysis further underscores the potential of SiM to identify subtle cognitive developmental patterns. The code is available at https://github.com/Rongzhao-He/surface-vision-mamba.

arxiv情報

著者 Rongzhao He,Weihao Zheng,Leilei Zhao,Ying Wang,Dalin Zhu,Dan Wu,Bin Hu
発行日 2025-02-13 16:29:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation はコメントを受け付けていません

Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval

要約

ビデオモーメント検索は、視覚言語モデルのパフォーマンスを評価するための一般的なタスクです。クエリセンテンスからのビデオの瞬間の開始時間と終了時間をローカリングすることが含まれます。
現在のタスクの定式化は、クエリのモーメントがビデオに存在することを前提としており、その結果、無関係なクエリ文が提供されると、偽陽性モーメントの予測が生じます。
このペーパーでは、否定的なビデオモーメント検索(NA-VMR)のタスクを提案します。これは、モーメントの検索精度と負のクエリ拒否の精度の両方を考慮します。
ドメイン内とドメイン外のネガティブクエリを区別し、2つの人気のあるビデオモーメント検索データセットの新しい評価ベンチマークを提供します:QVHighlightsとCharades-sta。
Na-VMRに取り組むように設計されたUNIVTGの適応であるUnivtg-NAを否定的なビデオモーメント検索に適応させるために、現在のSOTAビデオモーメント検索アプローチの能力を分析します。
Univtg-naは、$ 3.87 \%$ recall@1以内にモーメント検索スコアを保持しながら、高い負の拒絶反応精度(平均$ 98.4 \%$)スコアを達成します。
データセットの分割とコードは、https://github.com/keflanagan/momentofuntruthで入手できます

要約(オリジナル)

Video Moment Retrieval is a common task to evaluate the performance of visual-language models – it involves localising start and end times of moments in videos from query sentences. The current task formulation assumes that the queried moment is present in the video, resulting in false positive moment predictions when irrelevant query sentences are provided. In this paper we propose the task of Negative-Aware Video Moment Retrieval (NA-VMR), which considers both moment retrieval accuracy and negative query rejection accuracy. We make the distinction between In-Domain and Out-of-Domain negative queries and provide new evaluation benchmarks for two popular video moment retrieval datasets: QVHighlights and Charades-STA. We analyse the ability of current SOTA video moment retrieval approaches to adapt to Negative-Aware Video Moment Retrieval and propose UniVTG-NA, an adaptation of UniVTG designed to tackle NA-VMR. UniVTG-NA achieves high negative rejection accuracy (avg. $98.4\%$) scores while retaining moment retrieval scores to within $3.87\%$ Recall@1. Dataset splits and code are available at https://github.com/keflanagan/MomentofUntruth

arxiv情報

著者 Kevin Flanagan,Dima Damen,Michael Wray
発行日 2025-02-13 15:04:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval はコメントを受け付けていません

Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects

要約

さまざまなジオメトリと変形可能なオブジェクトを備えたオブジェクトを操作することは、ロボット工学の大きな課題です。
異なるオブジェクトや布吊り下げの挿入などのタスクには、正確な制御と複雑なダイナミクスの効果的なモデリングが必要です。
この作業では、この問題を、アクチュエーターやオブジェクトなどの小さなサブグラフを含む不均一なグラフのレンズを通して、相互作用を説明するさまざまなエッジタイプを伴います。
このグラフ表現は、剛性と変形可能なオブジェクトの両方のタスクの統一された構造として機能し、複数のアクチュエーターを含むタスクにさらに拡張できます。
このセットアップを評価するために、多様なオブジェクトの剛性挿入、複数のエンド効果によるロープと布の操作など、斬新で挑戦的な強化学習ベンチマークを提示します。
これらのタスクは、初期構成とターゲット構成の両方が3Dスペースで均一にサンプリングされるため、大きな検索スペースを提示します。
この問題に対処するために、幾何学的対称性を活用するための主要なバックボーンとして$ se(3)$ equivariantメッセージパスネットワークを利用して、不均一等量ポリシー(HEPI)と呼ばれる新しいグラフベースのポリシーモデルを提案します。
さらに、明示的な不均一性をモデル化することにより、HEPIは、平均リターン、サンプル効率、および目に見えないオブジェクトへの一般化に関して、変圧器ベースおよび非氷河の等縁ポリシーを上回ることができます。

要約(オリジナル)

Manipulating objects with varying geometries and deformable objects is a major challenge in robotics. Tasks such as insertion with different objects or cloth hanging require precise control and effective modelling of complex dynamics. In this work, we frame this problem through the lens of a heterogeneous graph that comprises smaller sub-graphs, such as actuators and objects, accompanied by different edge types describing their interactions. This graph representation serves as a unified structure for both rigid and deformable objects tasks, and can be extended further to tasks comprising multiple actuators. To evaluate this setup, we present a novel and challenging reinforcement learning benchmark, including rigid insertion of diverse objects, as well as rope and cloth manipulation with multiple end-effectors. These tasks present a large search space, as both the initial and target configurations are uniformly sampled in 3D space. To address this issue, we propose a novel graph-based policy model, dubbed Heterogeneous Equivariant Policy (HEPi), utilizing $SE(3)$ equivariant message passing networks as the main backbone to exploit the geometric symmetry. In addition, by modeling explicit heterogeneity, HEPi can outperform Transformer-based and non-heterogeneous equivariant policies in terms of average returns, sample efficiency, and generalization to unseen objects.

arxiv情報

著者 Tai Hoang,Huy Le,Philipp Becker,Vien Anh Ngo,Gerhard Neumann
発行日 2025-02-13 12:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects はコメントを受け付けていません

Rhythmic sharing: A bio-inspired paradigm for zero-shot adaptation and learning in neural networks

要約

脳は新しいコンテキストに迅速に適応し、限られたデータから学ぶことができます。これは、人工知能アルゴリズムが模倣に苦労しているという切望された特徴です。
神経細胞の機械的構造の振動リズムに触発され、リンク強度の振動に基づいた学習パラダイムを開発し、これらの振動の調整と学習することに関連しています。
このパラダイムは、人工ニューラルネットワークにおける迅速な適応と学習をもたらすことがわかります。
リンク振動は、調整を迅速に変化させ、ネットワークに微妙なコンテキストの変化を監視していない方法で感知する能力を与えます。
言い換えれば、ネットワークは、複数のコンテキストでダイナミクスを予測できるジェネラリストAIアーキテクチャとして実行するために必要な欠落しているコンテキストトークンを生成します。
また、振動により、ネットワークはダイナミクスを外挿して、これまでにないコンテキストに外挿することもできます。
これらの機能により、学習パラダイムは、学習と認知の新しいモデルの強力な出発点になります。
さらに、リンク調整による学習は、ニューラルネットワークアーキテクチャの詳細に対する不可知論者です。したがって、私たちの研究は、主要なAIモデルに迅速な適応と学習能力を導入するための扉を開きます。

要約(オリジナル)

The brain can rapidly adapt to new contexts and learn from limited data, a coveted characteristic that artificial intelligence algorithms have struggled to mimic. Inspired by oscillatory rhythms of the mechanical structures of neural cells, we developed a learning paradigm that is based on oscillations in link strengths and associates learning with the coordination of these oscillations. We find that this paradigm yields rapid adaptation and learning in artificial neural networks. Link oscillations can rapidly change coordination, endowing the network with the ability to sense subtle context changes in an unsupervised manner. In other words, the network generates the missing contextual tokens required to perform as a generalist AI architecture capable of predicting dynamics in multiple contexts. Oscillations also allow the network to extrapolate dynamics to never-seen-before contexts. These capabilities make our learning paradigm a powerful starting point for novel models of learning and cognition. Furthermore, learning through link coordination is agnostic to the specifics of the neural network architecture, hence our study opens the door for introducing rapid adaptation and learning capabilities into leading AI models.

arxiv情報

著者 Hoony Kang,Wolfgang Losert
発行日 2025-02-13 09:48:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.DS, nlin.AO, physics.bio-ph | Rhythmic sharing: A bio-inspired paradigm for zero-shot adaptation and learning in neural networks はコメントを受け付けていません