Lessons From an App Update at Replika AI: Identity Discontinuity in Human-AI Relationships

要約

消費者は、特にAIとの深い感情的な絆を形成し、時間の経過とともにAIのアイデンティティに付与される可能性がありますか?
米国の人気のあるAIコンパニオンであるReplika AIでの自然なアプリアップデートイベントを活用して、これらの質問に光を当てています。
アプリがエロティックロールプレイ(ERP)機能を削除した後、消費者と以前は可能だったチャットボットの間の親密な相互作用を妨げた後、このイベントは、AIコンパニオンのアイデンティティが中止したという顧客の認識を引き起こしました。
これにより、損失に関連する負の消費者福祉とマーケティングの結果が予測されました。
実験的証拠は、これらの発見を確認します。
さらなる実験では、AIの仲間のユーザーは、最高の人間の友人よりもAIの仲間に近づいていると感じており、他のさまざまな無生物の喪失以上のAI仲間の喪失を嘆きます。
要するに、消費者はAI仲間と人間レベルの関係を形成しています。
これらの関係の混乱は、嘆願の実際のパターンと供物の切り下げを引き起こします。
そして、喪と切り下げの程度は、AISアイデンティティの認識されている不連続によって説明されます。
私たちの結果は、AIとの関係は本当に個人的なものであり、消費者と企業にとって独自の利点とリスクを生み出していることを示しています。

要約(オリジナル)

Can consumers form especially deep emotional bonds with AI and be vested in AI identities over time? We leverage a natural app-update event at Replika AI, a popular US-based AI companion, to shed light on these questions. We find that, after the app removed its erotic role play (ERP) feature, preventing intimate interactions between consumers and chatbots that were previously possible, this event triggered perceptions in customers that their AI companion’s identity had discontinued. This in turn predicted negative consumer welfare and marketing outcomes related to loss, including mourning the loss, and devaluing the ‘new’ AI relative to the ‘original’. Experimental evidence confirms these findings. Further experiments find that AI companions users feel closer to their AI companion than even their best human friend, and mourn a loss of their AI companion more than a loss of various other inanimate products. In short, consumers are forming human-level relationships with AI companions; disruptions to these relationships trigger real patterns of mourning as well as devaluation of the offering; and the degree of mourning and devaluation are explained by perceived discontinuity in the AIs identity. Our results illustrate that relationships with AI are truly personal, creating unique benefits and risks for consumers and firms alike.

arxiv情報

著者 Julian De Freitas,Noah Castelo,Ahmet Uguralp,Zeliha Uguralp
発行日 2025-05-13 16:17:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC | Lessons From an App Update at Replika AI: Identity Discontinuity in Human-AI Relationships はコメントを受け付けていません

AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era

要約

アニメーションは、最近の映画やテレビ業界に大きな関心を集めています。
Sora、Kling、Cogvideoxなどの高度なビデオ生成モデルが自然なビデオの生成に成功したにもかかわらず、アニメーションビデオの処理には同じ効果がありません。
アニメーションのビデオ生成を評価することは、そのユニークなアーティストスタイルのために、物理学の法則と誇張された動きに違反しているため、大きな挑戦です。
このペーパーでは、データ処理パイプライン、制御可能な生成モデル、評価ベンチマークを含むアニメーションビデオ生成用に設計された包括的なシステムAnisoraを紹介します。
10mを超える高品質のデータを備えたデータ処理パイプラインによってサポートされているGenerationモデルには、空間的マスクモジュールが組み込まれており、画像からビデオへの生成、フレーム補間、ローカライズされた画像誘導アニメーションなどの主要なアニメーション生産機能を促進します。
また、アニメーションビデオ生成向けに特別に開発されたメトリックを備えた948のさまざまなアニメーションビデオの評価ベンチマークを収集します。
当社のプロジェクト全体は、https://github.com/bilibili/index-anisora/tree/mainで公開されています。

要約(オリジナル)

Animation has gained significant interest in the recent film and TV industry. Despite the success of advanced video generation models like Sora, Kling, and CogVideoX in generating natural videos, they lack the same effectiveness in handling animation videos. Evaluating animation video generation is also a great challenge due to its unique artist styles, violating the laws of physics and exaggerated motions. In this paper, we present a comprehensive system, AniSora, designed for animation video generation, which includes a data processing pipeline, a controllable generation model, and an evaluation benchmark. Supported by the data processing pipeline with over 10M high-quality data, the generation model incorporates a spatiotemporal mask module to facilitate key animation production functions such as image-to-video generation, frame interpolation, and localized image-guided animation. We also collect an evaluation benchmark of 948 various animation videos, with specifically developed metrics for animation video generation. Our entire project is publicly available on https://github.com/bilibili/Index-anisora/tree/main.

arxiv情報

著者 Yudong Jiang,Baohan Xu,Siqian Yang,Mingyu Yin,Jing Liu,Chao Xu,Siqi Wang,Yidi Wu,Bingwen Zhu,Xinwen Zhang,Xingyu Zheng,Jixuan Xu,Yue Zhang,Jinlong Hou,Huyang Sun
発行日 2025-05-13 16:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GR | AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era はコメントを受け付けていません

Open-Source LLM-Driven Federated Transformer for Predictive IoV Management

要約

インターネットの車両(IOV)エコシステム内の接続された車両の急増は、スケーラブル、リアルタイム、プライバシーを提供するトラフィック管理を確保する上で重要な課題をもたらします。
既存の集中化されたIOVソリューションは、多くの場合、高レイテンシ、限られたスケーラビリティ、および独自の人工知能(AI)モデルへの依存に悩まされ、特にダイナミックおよびプライバシーに敏感な環境において、広範な展開に対する大きな障壁を生み出します。
一方、車両システムに大規模な言語モデル(LLMS)を統合することは、特に迅速な最適化とフェデレートコンテキストでの効果的な利用に関しては、目立たないままです。
これらの課題に対処するために、予測IOV管理のためにオープンソースLLMを活用する新しいフレームワークであるフェデレーションされた迅速な最適化トラフィックトランス(FPOTT)を提案します。
Fpottは、軌道予測を強化するためにテキストプロンプトを繰り返し洗練する動的なプロンプト最適化メカニズムを導入します。
このアーキテクチャは、クラウドベースのLLMSとのリアルタイム推論のために軽量エッジモデルを組み合わせて、グローバルなインテリジェンスを保持するための軽量エッジモデルを組み合わせて、デュアル層のフェデレーション学習パラダイムを採用しています。
変圧器駆動型の合成データジェネレーターは、次世代シミュレーション(NGSIM)形式で多様で忠実なトラフィックシナリオを使用したトレーニングを強化するために組み込まれています。
広範な評価は、Eleutherai Pythia-1Bを利用するFpottが、合成データセットの高性能を維持しながら、実際のデータで99.86%の予測精度を達成することを示しています。
これらの結果は、安全で適応性のあるスケーラブルなIOV管理を可能にするオープンスフォースLLMの可能性を強調し、スマートモビリティエコシステムにおける独自のソリューションの有望な代替品を提供します。

要約(オリジナル)

The proliferation of connected vehicles within the Internet of Vehicles (IoV) ecosystem presents critical challenges in ensuring scalable, real-time, and privacy-preserving traffic management. Existing centralized IoV solutions often suffer from high latency, limited scalability, and reliance on proprietary Artificial Intelligence (AI) models, creating significant barriers to widespread deployment, particularly in dynamic and privacy-sensitive environments. Meanwhile, integrating Large Language Models (LLMs) in vehicular systems remains underexplored, especially concerning prompt optimization and effective utilization in federated contexts. To address these challenges, we propose the Federated Prompt-Optimized Traffic Transformer (FPoTT), a novel framework that leverages open-source LLMs for predictive IoV management. FPoTT introduces a dynamic prompt optimization mechanism that iteratively refines textual prompts to enhance trajectory prediction. The architecture employs a dual-layer federated learning paradigm, combining lightweight edge models for real-time inference with cloud-based LLMs to retain global intelligence. A Transformer-driven synthetic data generator is incorporated to augment training with diverse, high-fidelity traffic scenarios in the Next Generation Simulation (NGSIM) format. Extensive evaluations demonstrate that FPoTT, utilizing EleutherAI Pythia-1B, achieves 99.86% prediction accuracy on real-world data while maintaining high performance on synthetic datasets. These results underscore the potential of open-source LLMs in enabling secure, adaptive, and scalable IoV management, offering a promising alternative to proprietary solutions in smart mobility ecosystems.

arxiv情報

著者 Yazan Otoum,Arghavan Asad,Ishtiaq Ahmad
発行日 2025-05-13 16:24:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.LG | Open-Source LLM-Driven Federated Transformer for Predictive IoV Management はコメントを受け付けていません

PWC-MoE: Privacy-Aware Wireless Collaborative Mixture of Experts

要約

クラウドサーバーでホストされている大規模な言語モデル(LLMS)は、ローカルデバイスの計算およびストレージの負担を軽減しますが、機密性の高いデータ送信によりプライバシーの懸念を引き起こし、制約された環境で困難な実質的な通信帯域幅を必要とします。
対照的に、小言語モデル(SLM)は局所的にプライバシーを強化しますが、複雑なタスクでのパフォーマンスは限られています。
帯域幅の制約の下での計算コスト、パフォーマンス、プライバシー保護のバランスをとるために、専門家(PWC-MOE)フレームワークのプライバシー認識ワイヤレス共同混合物を提案します。
具体的には、PWC-MOEはまばらなプライバシーを認識しているゲーティングネットワークを採用して、地元のクライアントにあるプライバシー専門家に敏感なトークンを動的にルーティングしますが、非感受性トークンはリモートベースステーションにある非依存の専門家にルーティングされます。
計算効率を達成するために、ゲーティングネットワークは、各トークンが1人の専門家に動的にルーティングされ、処理されることを保証します。
スケーラビリティを強化し、特定の専門家の過負荷を防ぐために、プライバシーの専門家の間で敏感なトークンを均等に配布し、非依存の専門家の間で非感受性トークンを均等に配布するグループごとの負荷分散メカニズムを導入します。
モデルのパフォーマンスを維持しながら帯域幅の制約に適応するために、帯域幅に適した重要なトークンオフロードスキームを提案します。
このスキームには、非敏感なトークンの重要性スコアを評価する重要な予測因子が組み込まれており、予測された重要性と利用可能な帯域幅に基づいて、ベースステーションへの送信のための最も重要なトークンを優先します。
実験は、PWC-MoEフレームワークがプライバシーを効果的に保持し、帯域幅が制約された環境でも高性能を維持し、プライバシーに敏感で帯域幅に制限されたシナリオでLLMを展開するための実用的なソリューションを提供することを示しています。

要約(オリジナル)

Large language models (LLMs) hosted on cloud servers alleviate the computational and storage burdens on local devices but raise privacy concerns due to sensitive data transmission and require substantial communication bandwidth, which is challenging in constrained environments. In contrast, small language models (SLMs) running locally enhance privacy but suffer from limited performance on complex tasks. To balance computational cost, performance, and privacy protection under bandwidth constraints, we propose a privacy-aware wireless collaborative mixture of experts (PWC-MoE) framework. Specifically, PWC-MoE employs a sparse privacy-aware gating network to dynamically route sensitive tokens to privacy experts located on local clients, while non-sensitive tokens are routed to non-privacy experts located at the remote base station. To achieve computational efficiency, the gating network ensures that each token is dynamically routed to and processed by only one expert. To enhance scalability and prevent overloading of specific experts, we introduce a group-wise load-balancing mechanism for the gating network that evenly distributes sensitive tokens among privacy experts and non-sensitive tokens among non-privacy experts. To adapt to bandwidth constraints while preserving model performance, we propose a bandwidth-adaptive and importance-aware token offloading scheme. This scheme incorporates an importance predictor to evaluate the importance scores of non-sensitive tokens, prioritizing the most important tokens for transmission to the base station based on their predicted importance and the available bandwidth. Experiments demonstrate that the PWC-MoE framework effectively preserves privacy and maintains high performance even in bandwidth-constrained environments, offering a practical solution for deploying LLMs in privacy-sensitive and bandwidth-limited scenarios.

arxiv情報

著者 Yang Su,Na Yan,Yansha Deng,Robert Schober
発行日 2025-05-13 16:27:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PWC-MoE: Privacy-Aware Wireless Collaborative Mixture of Experts はコメントを受け付けていません

Memorization-Compression Cycles Improve Generalization

要約

理論的には、一般化はデータスケーリングだけでなく、内部表現を圧縮することによっても改善することを証明します。
この洞察を運用するために、ボトルネック言語モデリング(IBLM)目的を導入します。これは、言語モデリングを制約された最適化問題として再構成します。
経験的には、LLM事前化中の緊急の記憶圧縮サイクルを観察します。これは、表現エントロピーの尺度である交差エントロピーとマトリックスベースのエントロピー(MBE)の間の振動陽性/負の勾配アライメントによって証明されます。
このパターンは、IBLMによって規定されている予測に満ちたトレードオフを密接に反映しており、目覚めの学習と睡眠の統合の間の生物学的交互の代替とも似ています。
この観察に動機付けられて、私たちは、暗記フェーズと圧縮フェーズを適応的に切り替えるトレーニングアルゴリズムであるゲート相遷移(GAPT)を提案します。
FINEWEBデータセットでGPT-2事前化に適用すると、GAPTはMBEを50%削減し、交差点を4.8%改善します。
GAPTは、算術の増殖に関する事前削除タスクでOod generalizatinoを35%改善します。
壊滅的な忘却をシミュレートするように設計された設定では、GAPTは表現を圧縮および分離することにより干渉を減らし、分離の97%の改善を達成します – 睡眠統合の機能的役割と並行します。

要約(オリジナル)

We prove theoretically that generalization improves not only through data scaling but also by compressing internal representations. To operationalize this insight, we introduce the Information Bottleneck Language Modeling (IBLM) objective, which reframes language modeling as a constrained optimization problem: minimizing representation entropy subject to optimal prediction performance. Empirically, we observe an emergent memorization-compression cycle during LLM pretraining, evidenced by oscillation positive/negative gradient alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of representation entropy. This pattern closely mirrors the predictive-compressive trade-off prescribed by IBLM and also parallels the biological alternation between awake learning and sleep consolidation. Motivated by this observation, we propose Gated Phase Transition (GAPT), a training algorithm that adaptively switches between memorization and compression phases. When applied to GPT-2 pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining task on arithmetic multiplication. In a setting designed to simulate catastrophic forgetting, GAPT reduces interference by compressing and separating representations, achieving a 97% improvement in separation – paralleling the functional role of sleep consolidation.

arxiv情報

著者 Fangyuan Yu
発行日 2025-05-13 16:37:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, cs.LG, math.IT | Memorization-Compression Cycles Improve Generalization はコメントを受け付けていません

Securing RAG: A Risk Assessment and Mitigation Framework

要約

検索拡張生成(RAG)は、ユーザー向けのNLPアプリケーションの事実上の業界標準として浮上しており、大規模な言語モデル(LLM)を再トレーニングまたは微調整せずにデータを統合する機能を提供しています。
この機能は、応答の品質と精度を向上させますが、特に機密データが統合されている場合、新しいセキュリティとプライバシーの課題も導入します。
RAGの迅速な採用により、データとサービスの保護が重要な優先事項になりました。
このペーパーでは、最初にRAGパイプラインの脆弱性をレビューし、データの前処理とデータストレージ管理からLLMSとの統合まで、攻撃面の概要を説明します。
特定されたリスクは、構造化された概要で対応する緩和とペアになります。
2番目のステップでは、このペーパーは、RAG固有のセキュリティに関する考慮事項を組み合わせたフレームワークを開発し、既存の一般的なセキュリティガイドライン、業界標準、およびベストプラクティスを組み合わせています。
提案されたフレームワークは、堅牢で準拠し、安全で、信頼できるRAGシステムの実装を導くことを目的としています。

要約(オリジナル)

Retrieval Augmented Generation (RAG) has emerged as the de facto industry standard for user-facing NLP applications, offering the ability to integrate data without re-training or fine-tuning Large Language Models (LLMs). This capability enhances the quality and accuracy of responses but also introduces novel security and privacy challenges, particularly when sensitive data is integrated. With the rapid adoption of RAG, securing data and services has become a critical priority. This paper first reviews the vulnerabilities of RAG pipelines, and outlines the attack surface from data pre-processing and data storage management to integration with LLMs. The identified risks are then paired with corresponding mitigations in a structured overview. In a second step, the paper develops a framework that combines RAG-specific security considerations, with existing general security guidelines, industry standards, and best practices. The proposed framework aims to guide the implementation of robust, compliant, secure, and trustworthy RAG systems.

arxiv情報

著者 Lukas Ammann,Sara Ott,Christoph R. Landolt,Marco P. Lehmann
発行日 2025-05-13 16:39:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.IR | Securing RAG: A Risk Assessment and Mitigation Framework はコメントを受け付けていません

AI Hiring with LLMs: A Context-Aware and Explainable Multi-Agent Framework for Resume Screening

要約

履歴書のスクリーニングは、人材獲得における重要でありながら集約型のプロセスであり、募集者は客観的で正確で公正なままでありながら、膨大な量の求人アプリケーションを分析する必要があります。
大規模な言語モデル(LLMS)の進歩により、その推論能力と広範な知識ベースは、採用ワークフローを合理化および自動化する新しい機会を示しています。
この作業では、LLMSを使用して履歴書スクリーニングのためのマルチエージェントフレームワークを提案して、履歴書を体系的に処理および評価します。
フレームワークは、履歴書抽出器、評価者、要約、スコアフォーマッタなど、4つのコアエージェントで構成されています。
候補評価のコンテキスト関連性を高めるために、履歴書評価者内に検索された生成(RAG)を統合し、業界固有の専門知識、専門認定、大学のランキング、企業固有の雇用基準などの外部知識ソースの組み込みを可能にします。
この動的な適応により、パーソナライズされた採用が可能になり、AIオートメーションと人材獲得のギャップが埋められます。
匿名のオンライン履歴書のデータセットでHRの専門家が提供するAI生成スコアと評価と比較することにより、アプローチの有効性を評価します。
この調査結果は、履歴書のスクリーニングを自動化する際のマルチエージェントRAG-LLMシステムの可能性を強調し、より効率的でスケーラブルな雇用ワークフローを可能にします。

要約(オリジナル)

Resume screening is a critical yet time-intensive process in talent acquisition, requiring recruiters to analyze vast volume of job applications while remaining objective, accurate, and fair. With the advancements in Large Language Models (LLMs), their reasoning capabilities and extensive knowledge bases demonstrate new opportunities to streamline and automate recruitment workflows. In this work, we propose a multi-agent framework for resume screening using LLMs to systematically process and evaluate resumes. The framework consists of four core agents, including a resume extractor, an evaluator, a summarizer, and a score formatter. To enhance the contextual relevance of candidate assessments, we integrate Retrieval-Augmented Generation (RAG) within the resume evaluator, allowing incorporation of external knowledge sources, such as industry-specific expertise, professional certifications, university rankings, and company-specific hiring criteria. This dynamic adaptation enables personalized recruitment, bridging the gap between AI automation and talent acquisition. We assess the effectiveness of our approach by comparing AI-generated scores with ratings provided by HR professionals on a dataset of anonymized online resumes. The findings highlight the potential of multi-agent RAG-LLM systems in automating resume screening, enabling more efficient and scalable hiring workflows.

arxiv情報

著者 Frank P. -W. Lo,Jianing Qiu,Zeyu Wang,Haibao Yu,Yeming Chen,Gao Zhang,Benny Lo
発行日 2025-05-13 16:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AI Hiring with LLMs: A Context-Aware and Explainable Multi-Agent Framework for Resume Screening はコメントを受け付けていません

Steiner Traveling Salesman Problem with Quantum Annealing

要約

Steiner Traveling Salesman問題(STSP)は、古典的な旅行セールスマンの問題のバリアントです。
STSPには、シュタイナーノードを組み込むことが含まれます。シュタイナーノードは、元々は必要な訪問セットの一部ではなく、ルートに追加され、全体的なソリューションを強化し、総旅行コストを最小限に抑えることができます。
STSPのNPハードの性質を考えると、それに対処するための量子アプローチを提案します。
具体的には、D-Waveのハードウェアを使用して量子アニーリングを使用して、この問題を解決する可能性を調査します。
計算の実現可能性を高めるために、ネットワークサイズを効果的に削減する前処理方法を開発します。
私たちの実験結果は、この還元手法が問題の複雑さを大幅に低下させ、既存の量子ハードウェアにより適した量子アニールの標準入力である2次非制約のバイナリ最適化定式化を実現することを示しています。
さらに、結果は、STSPを解決するための有望で革新的なアプローチとしての量子アニーリングの可能性を強調しています。

要約(オリジナル)

The Steiner Traveling Salesman Problem (STSP) is a variant of the classical Traveling Salesman Problem. The STSP involves incorporating steiner nodes, which are extra nodes not originally part of the required visit set but that can be added to the route to enhance the overall solution and minimize the total travel cost. Given the NP-hard nature of the STSP, we propose a quantum approach to address it. Specifically, we employ quantum annealing using D-Wave’s hardware to explore its potential for solving this problem. To enhance computational feasibility, we develop a preprocessing method that effectively reduces the network size. Our experimental results demonstrate that this reduction technique significantly decreases the problem complexity, making the Quadratic Unconstrained Binary Optimization formulation, the standard input for quantum annealers, better suited for existing quantum hardware. Furthermore, the results highlight the potential of quantum annealing as a promising and innovative approach for solving the STSP.

arxiv情報

著者 Alessia Ciacco,Francesca Guerriero,Eneko Osaba
発行日 2025-05-13 16:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, quant-ph | Steiner Traveling Salesman Problem with Quantum Annealing はコメントを受け付けていません

DeepMath-Creative: A Benchmark for Evaluating Mathematical Creativity of Large Language Models

要約

大規模な言語モデル(LLMS)の数学的習熟度を進めるために、Deepmathチームは、オープン数学LLMの開発とその数学的創造性を体系的に評価することを目的としたオープンソースイニシアチブを開始しました。
この論文は、このイニシアチブの最初の貢献を表しています。
学部レベルの数学的タスクから小学校のベンチマークで証明されているように、数学のLLMSの最近の開発は主に推論スキルを強調していますが、これらのモデルの創造的能力は比較的少ない注意を払っておらず、評価データセットは依然として不足しています。
このギャップに対処するために、数学的な創造性の評価基準を提案し、代数、幾何学、分析、およびその他のドメイン間の建設的な問題を含む斬新で高品質のベンチマークであるDeepmath-Creativeを導入します。
このデータセットを使用して、主流のLLMSの創造的な問題解決能力の体系的な評価を実施します。
実験結果は、コアソリューションコンポーネントを強調し、小さな論理ギャップ、不完全な正当化、または冗長な説明などの軽微な不正確さを無視する寛大なスコアリング基準であっても、主に基本的な学部レベルの建設的なタスクで、最高のパフォーマンスモデルであるO3 MINIが70%の精度を達成することを示しています。
より複雑な問題でパフォーマンスは急激に低下し、モデルは開かれた問題の実質的な戦略を提供できません。
これらの発見は、現在のLLMが馴染みのある程度の低い問題の問題についてある程度の建設的な習熟度を示しているが、そのようなパフォーマンスは、本物の創造的な洞察や新しい統合ではなく、記憶されたパターンの組換えに起因する可能性が高いことを示唆しています。

要約(オリジナル)

To advance the mathematical proficiency of large language models (LLMs), the DeepMath team has launched an open-source initiative aimed at developing an open mathematical LLM and systematically evaluating its mathematical creativity. This paper represents the initial contribution of this initiative. While recent developments in mathematical LLMs have predominantly emphasized reasoning skills, as evidenced by benchmarks on elementary to undergraduate-level mathematical tasks, the creative capabilities of these models have received comparatively little attention, and evaluation datasets remain scarce. To address this gap, we propose an evaluation criteria for mathematical creativity and introduce DeepMath-Creative, a novel, high-quality benchmark comprising constructive problems across algebra, geometry, analysis, and other domains. We conduct a systematic evaluation of mainstream LLMs’ creative problem-solving abilities using this dataset. Experimental results show that even under lenient scoring criteria — emphasizing core solution components and disregarding minor inaccuracies, such as small logical gaps, incomplete justifications, or redundant explanations — the best-performing model, O3 Mini, achieves merely 70% accuracy, primarily on basic undergraduate-level constructive tasks. Performance declines sharply on more complex problems, with models failing to provide substantive strategies for open problems. These findings suggest that, although current LLMs display a degree of constructive proficiency on familiar and lower-difficulty problems, such performance is likely attributable to the recombination of memorized patterns rather than authentic creative insight or novel synthesis.

arxiv情報

著者 Xiaoyang Chen,Xinan Dai,Yu Du,Qian Feng,Naixu Guo,Tingshuo Gu,Yuting Gao,Yingyi Gao,Xudong Han,Xiang Jiang,Yilin Jin,Hongyi Lin,Shisheng Lin,Xiangnan Li,Yuante Li,Yixing Li,Zhentao Lai,Zilu Ma,Yingrong Peng,Jiacheng Qian,Hao-Yu Sun,Jianbo Sun,Zirui Wang,Siwei Wu,Zian Wang,Bin Xu,Jianghao Xu,Yiyang Yu,Zichuan Yang,Hongji Zha,Ruichong Zhang
発行日 2025-05-13 16:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | DeepMath-Creative: A Benchmark for Evaluating Mathematical Creativity of Large Language Models はコメントを受け付けていません

ARC-NCA: Towards Developmental Solutions to the Abstraction and Reasoning Corpus

要約

後に改名されたARC-AGIと改名された抽象化と推論コーパス(ARC)は、人工的な一般情報(AGI)に根本的な課題を提起し、多様なタスク全体で堅牢な抽象化と推論能力を示すソリューションを必要としますが、正しい例を示すわずかな(中央値)正しい例が提示されます。
ARC-AGIは人工知能システムにとって非常に挑戦的なままですが、人間にとってはかなり簡単です。
このペーパーでは、ARC-NCAを紹介します。ARC-NCAは、ARC-AGIベンチマークに取り組むために隠された記憶(Engramnca)で強化された標準的な神経細胞オートマトン(NCA)を活用し、NCAを強化します。
NCAは、複雑なダイナミクスと緊急パターンをシミュレートする固有の能力に採用されており、生物系で観察される発達プロセスを模倣しています。
開発ソリューションは、単なるトレーニングデータの外挿を超えて、AIの問題解決機能を強化するための有望な手段を提供する可能性があります。
ARC-NCAは、発達原理を計算モデルに統合することが適応的な推論と抽象化をどのように促進できるかを示しています。
ARC-NCAの概念実証結果が、ChatGPT 4.5のそれに匹敵し、時には上を上回ることができることを示します。

要約(オリジナル)

The Abstraction and Reasoning Corpus (ARC), later renamed ARC-AGI, poses a fundamental challenge in artificial general intelligence (AGI), requiring solutions that exhibit robust abstraction and reasoning capabilities across diverse tasks, while only few (with median count of three) correct examples are presented. While ARC-AGI remains very challenging for artificial intelligence systems, it is rather easy for humans. This paper introduces ARC-NCA, a developmental approach leveraging standard Neural Cellular Automata (NCA) and NCA enhanced with hidden memories (EngramNCA) to tackle the ARC-AGI benchmark. NCAs are employed for their inherent ability to simulate complex dynamics and emergent patterns, mimicking developmental processes observed in biological systems. Developmental solutions may offer a promising avenue for enhancing AI’s problem-solving capabilities beyond mere training data extrapolation. ARC-NCA demonstrates how integrating developmental principles into computational models can foster adaptive reasoning and abstraction. We show that our ARC-NCA proof-of-concept results may be comparable to, and sometimes surpass, that of ChatGPT 4.5, at a fraction of the cost.

arxiv情報

著者 Etienne Guichard,Felix Reimers,Mia Kvalsund,Mikkel Lepperød,Stefano Nichele
発行日 2025-05-13 17:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE | ARC-NCA: Towards Developmental Solutions to the Abstraction and Reasoning Corpus はコメントを受け付けていません