Satellite Federated Fine-Tuning for Foundation Models in Space Computing Power Networks

要約

人工知能(AI)および低地球軌道(LEO)衛星の進歩により、さまざまな下流タスクに大きなリモートセンシング基礎モデルの適用が促進されました。
ただし、地上での微調整のためのこれらのモデルの直接ダウンロードは、プライバシーの懸念と限られた帯域幅によって妨げられています。
Satellite Federated Learning(FL)は、モデルを微調整して直接オンボード衛星を微調整し、データダウンロードなしでモデルの更新を集約することにより、ソリューションを提供します。
それにもかかわらず、大規模な基礎モデルの場合、衛星の計算能力は、従来の衛星FLフレームワークで効果的なオンボード微調整をサポートするには不十分です。
これらの課題に対処するために、私たちは衛星地面の協力的なフェデレーション微調整フレームワークを提案します。
フレームワークの鍵は、モデルコンポーネントを合理的に分解して割り当てて、不十分なオンボード計算機能を軽減する方法にあります。
微調整中、衛星は、前方の伝播や背中の伝播のために地上局またはその他の衛星と中間結果を交換します。これは、断続的な衛星通信の特別な通信トポロジー、衛星地下通信ウィンドウの短い持続時間、不安定な根元間関係(ISLS)などの特別な通信トポロジをもたらします。
トランスミッションの遅延を減らすために、通信リソースとコンピューティングリソースの両方を統合するテーラード通信戦略をさらに導入します。
具体的には、並行して軌道上のコミュニケーション戦略、トポロジ認識の衛星地域通信戦略、および宇宙通信コストを削減するための潜在最近の軌道間コミュニケーション戦略を提案します。
シミュレーション結果は、約33%の改善により、トレーニング時間の大幅な短縮を示しています。

要約(オリジナル)

Advancements in artificial intelligence (AI) and low-earth orbit (LEO) satellites have promoted the application of large remote sensing foundation models for various downstream tasks. However, direct downloading of these models for fine-tuning on the ground is impeded by privacy concerns and limited bandwidth. Satellite federated learning (FL) offers a solution by enabling model fine-tuning directly on-board satellites and aggregating model updates without data downloading. Nevertheless, for large foundation models, the computational capacity of satellites is insufficient to support effective on-board fine-tuning in traditional satellite FL frameworks. To address these challenges, we propose a satellite-ground collaborative federated fine-tuning framework. The key of the framework lies in how to reasonably decompose and allocate model components to alleviate insufficient on-board computation capabilities. During fine-tuning, satellites exchange intermediate results with ground stations or other satellites for forward propagation and back propagation, which brings communication challenges due to the special communication topology of space transmission networks, such as intermittent satellite-ground communication, short duration of satellite-ground communication windows, and unstable inter-orbit inter-satellite links (ISLs). To reduce transmission delays, we further introduce tailored communication strategies that integrate both communication and computing resources. Specifically, we propose a parallel intra-orbit communication strategy, a topology-aware satellite-ground communication strategy, and a latency-minimalization inter-orbit communication strategy to reduce space communication costs. Simulation results demonstrate significant reductions in training time with improvements of approximately 33%.

arxiv情報

著者 Yan zhu,Jingyang zhu,Ting Wang,Yuanming Shi,Chunxiao Jiang,Khaled Ben Letaief
発行日 2025-04-14 16:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, cs.NI | Satellite Federated Fine-Tuning for Foundation Models in Space Computing Power Networks はコメントを受け付けていません

EDCA – An Evolutionary Data-Centric AutoML Framework for Efficient Pipelines

要約

自動化された機械学習(AUTOML)は、機械学習(ML)スペシャリストの需要の増加により人気を博し、MLテクニックを簡単かつ迅速に適用できるようになりました。
Automlの実装は、最適化方法を使用して、特定のデータセットの最も効果的なMLソリューションを特定し、1つ以上の事前定義されたメトリックを改善することを目指しています。
ただし、ほとんどの実装は、モデルの選択とハイパーパラメーターのチューニングに焦点を当てています。
高性能MLシステムを取得する上で重要な要素であるにもかかわらず、データの品質は通常、Automlの見過ごされがちな部分であり、マニュアルで時間のかかるタスクであり続けます。
この作業は、進化データ中心のAutomlフレームワークであるEDCAを提示します。
EDCAは、最適なモデルやハイパーパラメーターの選択などの従来のタスクに加えて、問題のニーズに応じてデータの削減やクリーニングなどのデータ処理タスクを最適化することにより、指定されたデータを強化します。
これらのすべてのステップは、進化的アルゴリズムによって最適化されたMLパイプラインを作成します。
その有効性を評価するために、EDCAは、Automlベンチマークの上部にある2つのフレームワークであるFLAMLおよびTPOTと比較されました。
フレームワークは、AMLB分類ベンチマークのデータセットを使用して同じ条件で評価されました。
EDCAは、FLAMLとTPOTに対するパフォーマンスで統計的に類似した結果を達成しましたが、最終的なソリューションをトレーニングするためには大幅に少ないデータを使用しました。
さらに、EDCAの実験結果は、Green Automlガイドラインに沿ったより少ないデータと効率的なMLアルゴリズムの側面を使用して、優れたパフォーマンスを実現できることを明らかにしています。

要約(オリジナル)

Automated Machine Learning (AutoML) gained popularity due to the increased demand for Machine Learning (ML) specialists, allowing them to apply ML techniques effortlessly and quickly. AutoML implementations use optimisation methods to identify the most effective ML solution for a given dataset, aiming to improve one or more predefined metrics. However, most implementations focus on model selection and hyperparameter tuning. Despite being an important factor in obtaining high-performance ML systems, data quality is usually an overlooked part of AutoML and continues to be a manual and time-consuming task. This work presents EDCA, an Evolutionary Data Centric AutoML framework. In addition to the traditional tasks such as selecting the best models and hyperparameters, EDCA enhances the given data by optimising data processing tasks such as data reduction and cleaning according to the problems’ needs. All these steps create an ML pipeline that is optimised by an evolutionary algorithm. To assess its effectiveness, EDCA was compared to FLAML and TPOT, two frameworks at the top of the AutoML benchmarks. The frameworks were evaluated in the same conditions using datasets from AMLB classification benchmarks. EDCA achieved statistically similar results in performance to FLAML and TPOT but used significantly less data to train the final solutions. Moreover, EDCA experimental results reveal that a good performance can be achieved using less data and efficient ML algorithm aspects that align with Green AutoML guidelines

arxiv情報

著者 Joana Simões,João Correia
発行日 2025-04-14 16:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | EDCA – An Evolutionary Data-Centric AutoML Framework for Efficient Pipelines はコメントを受け付けていません

Foundation models for electronic health records: representation dynamics and transferability

要約

電子健康記録(EHR)で訓練された基礎モデル(FMS)は、さまざまな臨床予測タスクで強力なパフォーマンスを示しています。
ただし、データの可用性とリソースの制約が限られているため、これらのモデルをローカルヘルスシステムに適応させることは依然として困難です。
この研究では、これらのモデルが、シカゴ大学医療センターの施設のEHRデータセットへのMimic-IVで訓練されたFMの移転性を学習し、評価したことを調査しました。
外れ値患者を特定する能力を評価し、将来の臨床結果に関連して表現空間患者の軌跡を調べました。
また、ソースデータセットとターゲットデータセットの両方で、監視された微調整された分類子のパフォーマンスを評価しました。
私たちの調査結果は、さまざまなヘルスケアシステム全体のFMSの適応性に関する洞察を提供し、効果的な実装に関する考慮事項を強調し、予測パフォーマンスに寄与する根本的な要因の経験的分析を提供します。

要約(オリジナル)

Foundation models (FMs) trained on electronic health records (EHRs) have shown strong performance on a range of clinical prediction tasks. However, adapting these models to local health systems remains challenging due to limited data availability and resource constraints. In this study, we investigated what these models learn and evaluated the transferability of an FM trained on MIMIC-IV to an institutional EHR dataset at the University of Chicago Medical Center. We assessed their ability to identify outlier patients and examined representation-space patient trajectories in relation to future clinical outcomes. We also evaluated the performance of supervised fine-tuned classifiers on both source and target datasets. Our findings offer insights into the adaptability of FMs across different healthcare systems, highlight considerations for their effective implementation, and provide an empirical analysis of the underlying factors that contribute to their predictive performance.

arxiv情報

著者 Michael C. Burkhart,Bashar Ramadan,Zewei Liao,Kaveri Chhikara,Juan C. Rojas,William F. Parker,Brett K. Beaulieu-Jones
発行日 2025-04-14 17:09:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Foundation models for electronic health records: representation dynamics and transferability はコメントを受け付けていません

Learning with Positive and Imperfect Unlabeled Data

要約

肯定的なデータ分布がシフトされたときに、陽性および非標識データからバイナリ分類子を学習する問題を研究します。
共変量シフトがない場合、つまり完全に無効なデータを使用して、Denis(1998)はこの問題をMassARTノイズの下で学習に減らしました。
ただし、その減少はわずかなシフトでも失敗します。
PIU学習に関する主な結果は、PIU学習のサンプルの複雑さの特性と、誤分類エラー$ \ varepsilon $を達成する計算的およびサンプル効率の高いアルゴリズムです。
さらに、結果がいくつかの関連する問題の新しいアルゴリズムにつながることを示します。
1.スムーズな分布からの学習:スムーズな特徴分布の下での正のサンプルのみから興味深い概念クラスを学習するアルゴリズムを提供し、既知の既存の不可能性の結果をバイパスし、スムーズ化した学習の最近の進歩に貢献しています(Haghtalab et al、j.acm’24)(Chandrasekaran et al。、colt’24)。
2。非標識分布のリストを使用した学習:私たちは、学習者に知られていない非標識分布のリストが与えられているという仮定の下で、幅広いクラスの概念クラスに適用される新しいアルゴリズムを設計します。
3。不明な切り捨ての存在下での推定:$ L_1 $ -NORMの多項式によって近似可能な未知のセットに切り捨てられたサンプルからの指数関数的なファミリー分布のパラメーターを推定するための最初の多項式サンプルと時間アルゴリズムを与えます。
これにより、Leeらによるアルゴリズムが改善されます。
(Focs’24)$ l_2 $ -normの近似が必要です。
4.切り捨ての検出:与えられたサンプルが非生産分布を含む幅広いクラスの非製品分布のために切り捨てられた(またはそうでない)かどうかを検出するための新しいアルゴリズムを提示し、De et al。
(Stoc’24)。

要約(オリジナル)

We study the problem of learning binary classifiers from positive and unlabeled data when the unlabeled data distribution is shifted, which we call Positive and Imperfect Unlabeled (PIU) Learning. In the absence of covariate shifts, i.e., with perfect unlabeled data, Denis (1998) reduced this problem to learning under Massart noise; however, that reduction fails under even slight shifts. Our main results on PIU learning are the characterizations of the sample complexity of PIU learning and a computationally and sample-efficient algorithm achieving a misclassification error $\varepsilon$. We further show that our results lead to new algorithms for several related problems. 1. Learning from smooth distributions: We give algorithms that learn interesting concept classes from only positive samples under smooth feature distributions, bypassing known existing impossibility results and contributing to recent advances in smoothened learning (Haghtalab et al, J.ACM’24) (Chandrasekaran et al., COLT’24). 2. Learning with a list of unlabeled distributions: We design new algorithms that apply to a broad class of concept classes under the assumption that we are given a list of unlabeled distributions, one of which–unknown to the learner–is $O(1)$-close to the true feature distribution. 3. Estimation in the presence of unknown truncation: We give the first polynomial sample and time algorithm for estimating the parameters of an exponential family distribution from samples truncated to an unknown set approximable by polynomials in $L_1$-norm. This improves the algorithm by Lee et al. (FOCS’24) that requires approximation in $L_2$-norm. 4. Detecting truncation: We present new algorithms for detecting whether given samples have been truncated (or not) for a broad class of non-product distributions, including non-product distributions, improving the algorithm by De et al. (STOC’24).

arxiv情報

著者 Jane H. Lee,Anay Mehrotra,Manolis Zampetakis
発行日 2025-04-14 17:19:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH | Learning with Positive and Imperfect Unlabeled Data はコメントを受け付けていません

A Policy Gradient Framework for Stochastic Optimal Control Problems with Global Convergence Guarantee

要約

継続的な時間における確率的最適制御問題のポリシー勾配方法を検討します。
特に、ポリシー勾配法の連続時間制限と見なされるコントロールの勾配フローを分析します。
勾配の流れのグローバルな収束を証明し、いくつかの規則性の仮定の下で収束率を確立します。
分析の主な斬新さは、局所的な最適制御関数の概念であり、極端な局所的な最適性を特徴付けるために導入されています。

要約(オリジナル)

We consider policy gradient methods for stochastic optimal control problem in continuous time. In particular, we analyze the gradient flow for the control, viewed as a continuous time limit of the policy gradient method. We prove the global convergence of the gradient flow and establish a convergence rate under some regularity assumptions. The main novelty in the analysis is the notion of local optimal control function, which is introduced to characterize the local optimality of the iterate.

arxiv情報

著者 Mo Zhou,Jianfeng Lu
発行日 2025-04-14 17:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 49M05, cs.LG, cs.SY, eess.SY, math.OC | A Policy Gradient Framework for Stochastic Optimal Control Problems with Global Convergence Guarantee はコメントを受け付けていません

M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

要約

複雑な数学的問題を解決するためには、効果的な推論が重要です。
最近の大規模な言語モデル(LLMS)は、長い考え方の推論を通じてテスト時間計算をスケーリングすることにより、パフォーマンスを向上させました。
ただし、トランスベースのモデルは、2次計算の複雑さと線形メモリ要件により、コンテキストの長さの拡張が本質的に制限されています。
この論文では、メモリ効率の高い推論を可能にするMambaアーキテクチャに基づいて構築された、新しいハイブリッド線形RNN推論モデルM1を紹介します。
当社のアプローチは、既存の推論モデルから蒸留プロセスを活用し、RLトレーニングを通じてさらに強化されています。
AIMEおよび数学のベンチマークでの実験結果は、M1が以前の線形RNNモデルよりも優れているだけでなく、同様のスケールで最先端のDeepSeek R1蒸留推論モデルのパフォーマンスにも一致することを示しています。
また、生成速度を非常にパフォーマンスの高い汎用推論エンジンVLLMと比較し、同じサイズの変圧器と比較して3倍以上のスピードアップを観察します。
スループットスピードアップにより、自己整合性の投票を使用して、固定世代の時間予算でDeepSeek R1蒸留トランス推論モデルと比較して、より高い精度を達成することができます。
全体として、ハイブリッドマンバ推論モデルを導入し、自己整合性または長い思考推論を使用して、テスト時間生成をスケーリングするためのより効果的なアプローチを提供します。

要約(オリジナル)

Effective reasoning is crucial to solving complex mathematical problems. Recent large language models (LLMs) have boosted performance by scaling test-time computation through long chain-of-thought reasoning. However, transformer-based models are inherently limited in extending context length due to their quadratic computational complexity and linear memory requirements. In this paper, we introduce a novel hybrid linear RNN reasoning model, M1, built on the Mamba architecture, which allows memory-efficient inference. Our approach leverages a distillation process from existing reasoning models and is further enhanced through RL training. Experimental results on the AIME and MATH benchmarks show that M1 not only outperforms previous linear RNN models but also matches the performance of state-of-the-art Deepseek R1 distilled reasoning models at a similar scale. We also compare our generation speed with a highly performant general purpose inference engine, vLLM, and observe more than a 3x speedup compared to a same size transformer. With throughput speedup, we are able to achieve higher accuracy compared to DeepSeek R1 distilled transformer reasoning models under a fixed generation time budget using self-consistency voting. Overall, we introduce a hybrid Mamba reasoning model and provide a more effective approach to scaling test-time generation using self-consistency or long chain of thought reasoning.

arxiv情報

著者 Junxiong Wang,Wen-Ding Li,Daniele Paliotta,Daniel Ritter,Alexander M. Rush,Tri Dao
発行日 2025-04-14 17:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models はコメントを受け付けていません

Anchors no more: Using peculiar velocities to constrain $H_0$ and the primordial Universe without calibrators

要約

ハッブルパラメーター$ h_0 $と原始パワースペクトル振幅$ a_ \ mathrm {s} $をSupernovae Type IA(SNIA)データを使用して制約する新しいアプローチを開発します。
SNIAを特異な速度フィールドのトレーサーと見なすことにより、セファイドのようなキャリブレーターを必要とせずに宇宙パラメーターの関数として距離と共分散をモデル化することができます。
これにより、距離アンカーのないSNIAデータに基づいて、大規模な構造の新しい独立したプローブが得られます。
重要なことに、効率的なエミュレータやアフィンサンプリングを含む、JAXに微分可能なパイプラインを実装し、1つのGPUでの推論時間を数年から数時間に短縮します。
まず、モックデータセットでメソッドを検証し、$ \ sim10 \%$内で$ \ sim10 \%$内で$ h_0 $および$ \ log 10^{10} a_ mathrm {s} $を制限できることを示しています。
次に、$ n $ bodyシミュレーションからSNIAでパイプラインをテストし、中程度のノイズレベルで$ h_0 $で$ 7 \%$ – レベルの偏りのない制約を取得します。
最終的に、$ A_ \ mathrm {s} $を$ \ it {planck} $ valueに修正する際に、$ 10 \%$ $ h_0 $をCepheidsなしで$ 10 \%$ $レベルで制約します。
一方、分析にcepheidsを含めると$ \ it {planck} $と一致して、$ \ log 10^{10} a_ \ mathrm {s} $の$ 15 \%$ – レベルの制約を取得します。
Zwicky Transient Facilityからの低赤方偏移SNIAの今後の観察と、空間と時間のVera Rubin Legacy Survey、当社の方法がその潜在能力を最大限に発展させる調査に照らして、コードを公開します。

要約(オリジナル)

We develop a novel approach to constrain the Hubble parameter $H_0$ and the primordial power spectrum amplitude $A_\mathrm{s}$ using supernovae type Ia (SNIa) data. By considering SNIa as tracers of the peculiar velocity field, we can model their distance and their covariance as a function of cosmological parameters without the need of calibrators like Cepheids; this yields a new independent probe of the large-scale structure based on SNIa data without distance anchors. Crucially, we implement a differentiable pipeline in JAX, including efficient emulators and affine sampling, reducing inference time from years to hours on a single GPU. We first validate our method on mock datasets, demonstrating that we can constrain $H_0$ and $\log 10^{10}A_\mathrm{s}$ within $\sim10\%$ using $\sim10^3$ SNIa. We then test our pipeline with SNIa from an $N$-body simulation, obtaining $7\%$-level unbiased constraints on $H_0$ with a moderate noise level. We finally apply our method to Pantheon+ data, constraining $H_0$ at the $10\%$ level without Cepheids when fixing $A_\mathrm{s}$ to its $\it{Planck}$ value. On the other hand, we obtain $15\%$-level constraints on $\log 10^{10}A_\mathrm{s}$ in agreement with $\it{Planck}$ when including Cepheids in the analysis. In light of upcoming observations of low redshift SNIa from the Zwicky Transient Facility and the Vera Rubin Legacy Survey of Space and Time, surveys for which our method will develop its full potential, we make our code publicly available.

arxiv情報

著者 Davide Piras,Francesco Sorrenti,Ruth Durrer,Martin Kunz
発行日 2025-04-14 17:40:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.CO, astro-ph.IM, cs.LG, gr-qc | Anchors no more: Using peculiar velocities to constrain $H_0$ and the primordial Universe without calibrators はコメントを受け付けていません

TRA: Better Length Generalisation with Threshold Relative Attention

要約

トランスは長さの一般化に苦しんでおり、基本的なタスクでもパフォーマンスが低下しています。
これらの制限が、自己触媒メカニズムの2つの重要な障害を通じて説明できるかどうかをテストします。
1つ目は、無関係な情報を完全に削除できないことです。
2番目は、キーとクエリの間のDOT積が非常に負の(つまり、無関係なキー)、学習された位置バイアスが意図せずに重みのあるそのような情報を無重力にする可能性がある場合でも、位置に結び付けられています – 距離が分布外になると危険です。
まとめて、これらの2つの障害ケースは、一般化の困難を調合することにつながります。
a)選択的スパース性の組み合わせによって軽減できるかどうかをテストします。これは、注意を払ったsoftmaxとb)コンテキスト化された相対距離から無関係なキーを完全に除去することです。
これらの2つの緩和が整備されているため、注意メカニズムをリファクタリングすることで、デコーダーのみの変圧器の一般化能力を大幅に改善することがどのように行われるかを示します。

要約(オリジナル)

Transformers struggle with length generalisation, displaying poor performance even on basic tasks. We test whether these limitations can be explained through two key failures of the self-attention mechanism. The first is the inability to fully remove irrelevant information. The second is tied to position, even if the dot product between a key and query is highly negative (i.e. an irrelevant key) learned positional biases may unintentionally up-weight such information – dangerous when distances become out of distribution. Put together, these two failure cases lead to compounding generalisation difficulties. We test whether they can be mitigated through the combination of a) selective sparsity – completely removing irrelevant keys from the attention softmax and b) contextualised relative distance – distance is only considered as between the query and the keys that matter. We show how refactoring the attention mechanism with these two mitigations in place can substantially improve generalisation capabilities of decoder only transformers.

arxiv情報

著者 Mattia Opper,Roland Fernandez,Paul Smolensky,Jianfeng Gao
発行日 2025-04-14 12:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | TRA: Better Length Generalisation with Threshold Relative Attention はコメントを受け付けていません

DioR: Adaptive Cognitive Detection and Contextual Retrieval Optimization for Dynamic Retrieval-Augmented Generation

要約

ダイナミック検索の生成(RAG)は、発電中の大規模な言語モデル(LLM)の幻覚の緩和に大きな成功を示しています。
ただし、既存の動的RAGメソッドは、2つの重要な側面で大きな制限に直面しています。1)検索トリガーを制御するための効果的なメカニズムの欠如、2)検索コンテンツの効果的な精査の欠如。
これらの制限に対処するために、2つの主要なコンポーネントで構成される革新的な動的ラグ法(適応認知検出とコンテキスト検索最適化)を提案します。適応認知検出と文脈検索最適化が必要な時期とLLMSの取得を決定するために特別に設計されたものです。
実験結果は、ディオールがすべてのタスクで優れたパフォーマンスを達成し、私たちの仕事の有効性を実証することを示しています。

要約(オリジナル)

Dynamic Retrieval-augmented Generation (RAG) has shown great success in mitigating hallucinations in large language models (LLMs) during generation. However, existing dynamic RAG methods face significant limitations in two key aspects: 1) Lack of an effective mechanism to control retrieval triggers, and 2) Lack of effective scrutiny of retrieval content. To address these limitations, we propose an innovative dynamic RAG method, DioR (Adaptive Cognitive Detection and Contextual Retrieval Optimization), which consists of two main components: adaptive cognitive detection and contextual retrieval optimization, specifically designed to determine when retrieval is needed and what to retrieve for LLMs is useful. Experimental results demonstrate that DioR achieves superior performance on all tasks, demonstrating the effectiveness of our work.

arxiv情報

著者 Hanghui Guo,Jia Zhu,Shimin Di,Weijie Shi,Zhangze Chen,Jiajie Xu
発行日 2025-04-14 13:02:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DioR: Adaptive Cognitive Detection and Contextual Retrieval Optimization for Dynamic Retrieval-Augmented Generation はコメントを受け付けていません

Function Alignment: A New Theory of Mind and Intelligence, Part I: Foundations

要約

このペーパーでは、関数アラインメントを紹介します。これは、直感的に説得力があり、構造的に接地された、心と知性の新しい理論です。
それは、階層化された表現間の相互作用から意味、解釈、類推がどのように出現するかを明示的にモデル化し、マインドをモデリングするだけでなく、それらを構築するための青写真としても役立つ一貫したフレームワークを形成します。
関数のアライメントから導き出された重要な理論的洞察の1つは、境界のある解釈可能性であり、これは、境界の合理性、シンボル接地、類推などの認知科学における以前に断片化されたアイデアの統一された説明を提供します。
モデリングを超えて、関数アラインメントフレームワークは、しばしば分解され、計算アーキテクチャ、心理理論、さらにはZenなどの瞑想的な伝統をリンクし、分野を橋渡しします。
哲学的システムに基づいているのではなく、心を理解する複数の方法が再構築される可能性のある構造的基盤を提供します。

要約(オリジナル)

This paper introduces function alignment, a novel theory of mind and intelligence that is both intuitively compelling and structurally grounded. It explicitly models how meaning, interpretation, and analogy emerge from interactions among layered representations, forming a coherent framework capable not only of modeling minds but also of serving as a blueprint for building them. One of the key theoretical insights derived from function alignment is bounded interpretability, which provides a unified explanation for previously fragmented ideas in cognitive science, such as bounded rationality, symbol grounding, and analogy-making. Beyond modeling, the function alignment framework bridges disciplines often kept apart, linking computational architecture, psychological theory, and even contemplative traditions such as Zen. Rather than building on any philosophical systems, it offers a structural foundation upon which multiple ways of understanding the mind may be reconstructed.

arxiv情報

著者 Gus G. Xia
発行日 2025-04-14 13:44:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T27, 91E45, cs.CL, F.4.1 | Function Alignment: A New Theory of Mind and Intelligence, Part I: Foundations はコメントを受け付けていません