A Comparative Study of Human Activity Recognition: Motion, Tactile, and multi-modal Approaches

要約

人間の活動認識(HAR)は、効果的な人間ロボットコラボレーション(HRC)に不可欠であり、ロボットが人間の行動を解釈して対応できるようにします。
この研究では、ビジョンベースの触覚センサーが15のアクティビティを分類し、そのパフォーマンスをIMUベースのデータグローブと比較する能力を評価します。
さらに、触覚データとモーションデータを組み合わせたマルチモーダルフレームワークを提案して、補完的な強さを活用します。
3つのアプローチを検討しました:IMUデータを使用したモーションベースの分類(MBC)、単一またはデュアルビデオストリームを使用した触覚ベースの分類(TBC)、および両方を統合するマルチモーダル分類(MMC)。
セグメント化されたデータセットのオフライン検証では、制御された条件下での各構成の精度を評価し、継続的なアクションシーケンスのオンライン検証でオンラインパフォーマンスをテストしました。
結果は、マルチモーダルアプローチが一貫してパフォーマンスのある単一モダリティ方法を上回り、触覚とモーションセンシングを統合して共同ロボット工学のHARシステムを強化する可能性を強調しました。

要約(オリジナル)

Human activity recognition (HAR) is essential for effective Human-Robot Collaboration (HRC), enabling robots to interpret and respond to human actions. This study evaluates the ability of a vision-based tactile sensor to classify 15 activities, comparing its performance to an IMU-based data glove. Additionally, we propose a multi-modal framework combining tactile and motion data to leverage their complementary strengths. We examined three approaches: motion-based classification (MBC) using IMU data, tactile-based classification (TBC) with single or dual video streams, and multi-modal classification (MMC) integrating both. Offline validation on segmented datasets assessed each configuration’s accuracy under controlled conditions, while online validation on continuous action sequences tested online performance. Results showed the multi-modal approach consistently outperformed single-modality methods, highlighting the potential of integrating tactile and motion sensing to enhance HAR systems for collaborative robotics.

arxiv情報

著者 Valerio Belcamino,Nhat Minh Dinh Le,Quan Khanh Luu,Alessandro Carfì,Van Anh Ho,Fulvio Mastrogiovanni
発行日 2025-05-13 15:20:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | A Comparative Study of Human Activity Recognition: Motion, Tactile, and multi-modal Approaches はコメントを受け付けていません

A Social Robot with Inner Speech for Dietary Guidance

要約

私たちは、食事のアドバイスのためにソーシャルロボットの透明性と信頼を高めるメカニズムとしての内部スピーチの使用を探求します。
人間では、内部の音声構造で思考プロセスと意思決定。
ロボット工学では、推論を明示的にすることで説明可能性を向上させます。
これは、ロボットアシスタントへの信頼が正確な推奨事項と人間のような対話の両方に依存しているヘルスケアシナリオでは重要です。
これに基づいて、食事のアドバイスを提供するソーシャルロボットを開発し、ユーザーの入力を検証し、推論を改善し、明確な正当化を生成するための内部音声機能をアーキテクチャに提供しました。
このシステムは、自然言語理解のための大規模な言語モデルと構造化された食事情報の知識グラフを統合します。
意思決定をより透明にすることにより、私たちのアプローチは信頼を強化し、ヘルスケアにおける人間とロボットの相互作用を改善します。
アーキテクチャの計算効率を測定し、小さなユーザー調査を実施することでこれを検証しました。これにより、ロボットの動作を説明する際の内部スピーチの信頼性が評価されました。

要約(オリジナル)

We explore the use of inner speech as a mechanism to enhance transparency and trust in social robots for dietary advice. In humans, inner speech structures thought processes and decision-making; in robotics, it improves explainability by making reasoning explicit. This is crucial in healthcare scenarios, where trust in robotic assistants depends on both accurate recommendations and human-like dialogue, which make interactions more natural and engaging. Building on this, we developed a social robot that provides dietary advice, and we provided the architecture with inner speech capabilities to validate user input, refine reasoning, and generate clear justifications. The system integrates large language models for natural language understanding and a knowledge graph for structured dietary information. By making decisions more transparent, our approach strengthens trust and improves human-robot interaction in healthcare. We validated this by measuring the computational efficiency of our architecture and conducting a small user study, which assessed the reliability of inner speech in explaining the robot’s behavior.

arxiv情報

著者 Valerio Belcamino,Alessandro Carfì,Valeria Seidita,Fulvio Mastrogiovanni,Antonio Chella
発行日 2025-05-13 15:26:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | A Social Robot with Inner Speech for Dietary Guidance はコメントを受け付けていません

A Study of Data-driven Methods for Inventory Optimization

要約

このペーパーでは、3つのインベントリモデル(失われた販売、デュアルソーシング、マルチチェロン在庫モデル)への3つのアルゴリズム(時系列、ランダムフォレスト(RF)およびディープ補強学習)の包括的な分析を示しています。
これらの方法論は、スーパーマーケットのコンテキストで適用されます。
主な目的は、データ駆動型の効率的な方法を分析することです。
このレポートでは、それらの可能性、潜在的、現在の課題が考慮されています。
各モデルの結果を比較することにより、各アルゴリズムの有効性は、予測の精度、市場の変化への適応性、在庫コストと顧客満足度への全体的な影響など、いくつかの主要なパフォーマンスインジケーターに基づいて評価されます。
データ視覚化ツールと統計的メトリックは、比較の指標であり、在庫管理における意思決定を導くことができるいくつかの明らかな傾向とパターンを示します。
これらのツールにより、マネージャーは異なるアルゴリズムのパフォーマンスをリアルタイムで追跡するだけでなく、特定のデータポイントにドリルダウンして、在庫変動の根本的な原因を理解することもできます。
このレベルの詳細は、サプライチェーン内の改善のための非効率性と分野を特定するために重要です。

要約(オリジナル)

This paper shows a comprehensive analysis of three algorithms (Time Series, Random Forest (RF) and Deep Reinforcement Learning) into three inventory models (the Lost Sales, Dual-Sourcing and Multi-Echelon Inventory Model). These methodologies are applied in the supermarket context. The main purpose is to analyse efficient methods for the data-driven. Their possibility, potential and current challenges are taken into consideration in this report. By comparing the results in each model, the effectiveness of each algorithm is evaluated based on several key performance indicators, including forecast accuracy, adaptability to market changes, and overall impact on inventory costs and customer satisfaction levels. The data visualization tools and statistical metrics are the indicators for the comparisons and show some obvious trends and patterns that can guide decision-making in inventory management. These tools enable managers to not only track the performance of different algorithms in real-time but also to drill down into specific data points to understand the underlying causes of inventory fluctuations. This level of detail is crucial for pinpointing inefficiencies and areas for improvement within the supply chain.

arxiv情報

著者 Lee Yeung Ping,Patrick Wong,Tan Cheng Han
発行日 2025-05-13 15:35:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A Study of Data-driven Methods for Inventory Optimization はコメントを受け付けていません

A Mamba-based Network for Semi-supervised Singing Melody Extraction Using Confidence Binary Regularization

要約

Singing Melody Extraction(SME)は、音楽情報検索の分野で重要なタスクです。
ただし、既存の方法はいくつかの制限に直面しています。第一に、以前のモデルは変圧器を使用してコンテキスト依存関係をキャプチャします。これにより、推論段階での効率が低い場合の2次計算が必要です。
第二に、以前の作品は通常、周波数拡散方法に依存して基本的な頻度(F0)を推定します。これは、音楽のパフォーマンスが実際にメモに基づいていることを無視します。
第三に、トランスは通常、最適なパフォーマンスを実現するために大量のラベル付きデータを必要としますが、SMEタスクには十分な注釈付きデータがありません。
これらの問題に対処するために、このホワイトペーパーでは、自信のバイナリ正規化を使用した半学者の歌唱メロディー抽出のために、Spectmambaと呼ばれるMambaベースのネットワークを提案します。
特に、計算線形の複雑さを実現するためにVision Mambaを導入することから始めます。
次に、モデルが音楽パフォーマンスをよりよく模倣できるようにする新しいNote-F0デコーダーを提案します。
さらに、ラベル付けされたデータの希少性を軽減するために、正しいクラスの確率を最大化することにより、自信のあるバイナリ正規化(CBR)モジュールを導入して、ラベルのないデータを活用します。
提案された方法はいくつかの公開データセットで評価され、実施された実験は提案された方法の有効性を示しています。

要約(オリジナル)

Singing melody extraction (SME) is a key task in the field of music information retrieval. However, existing methods are facing several limitations: firstly, prior models use transformers to capture the contextual dependencies, which requires quadratic computation resulting in low efficiency in the inference stage. Secondly, prior works typically rely on frequencysupervised methods to estimate the fundamental frequency (f0), which ignores that the musical performance is actually based on notes. Thirdly, transformers typically require large amounts of labeled data to achieve optimal performances, but the SME task lacks of sufficient annotated data. To address these issues, in this paper, we propose a mamba-based network, called SpectMamba, for semi-supervised singing melody extraction using confidence binary regularization. In particular, we begin by introducing vision mamba to achieve computational linear complexity. Then, we propose a novel note-f0 decoder that allows the model to better mimic the musical performance. Further, to alleviate the scarcity of the labeled data, we introduce a confidence binary regularization (CBR) module to leverage the unlabeled data by maximizing the probability of the correct classes. The proposed method is evaluated on several public datasets and the conducted experiments demonstrate the effectiveness of our proposed method.

arxiv情報

著者 Xiaoliang He,Kangjie Dong,Jingkai Cao,Shuai Yu,Wei Li,Yi Yu
発行日 2025-05-13 15:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | A Mamba-based Network for Semi-supervised Singing Melody Extraction Using Confidence Binary Regularization はコメントを受け付けていません

AC-PKAN: Attention-Enhanced and Chebyshev Polynomial-Based Physics-Informed Kolmogorov-Arnold Networks

要約

Kolmogorov-Arnold Networks(Kans)は最近、部分微分方程式(PDE)を解くことを約束しています。
しかし、それらの元の定式化は計算上および記憶集中的であり、Chebyshev Type-IベースのKans(Chebyshev1kans)の導入を動機付けています。
Chebyshev1kansはVanilla Kansの建築よりも優れていましたが、私たちの厳密な理論分析は、彼らが依然としてランクの崩壊に苦しんでおり、最終的には表現力のある能力を制限していることを明らかにしています。
これらの制限を克服するために、ウェーブレット活性化MLPを学習可能なパラメーターと内部注意メカニズムと統合することにより、Chebyshev1kansを強化します。
この設計はフルランクのヤコビアンを保持しており、任意の順序のPDEにソリューションを近似できることを証明しています。
さらに、Chebyshev多項式の基礎によって導入された損失の不安定性と不均衡を軽減するために、勾配の規範と残留規範に応じて個々の損失項を動的に再重視する残留勾配の注意(RGA)メカニズムを外部的に組み込みます。
内部および外部の注意を共同で活用することにより、AC-PKANを提示します。AC-PKANは、弱く監視されている物理学に基づいたニューラルネットワーク(PINN)の強化を構成する新しいアーキテクチャを提示し、KANの表現力を拡張します。
3つのドメインにわたる9つのベンチマークタスクからの実験結果は、AC-PKANがPinnsformerなどの最新モデルを常に上回ったり一致させたり、ゼロダタまたはデータスパーリジームの複雑な現実世界のエンジニアリング問題を解決するための非常に効果的なツールとして確立することを示しています。
コードは、受け入れられると公開されます。

要約(オリジナル)

Kolmogorov-Arnold Networks (KANs) have recently shown promise for solving partial differential equations (PDEs). Yet their original formulation is computationally and memory intensive, motivating the introduction of Chebyshev Type-I-based KANs (Chebyshev1KANs). Although Chebyshev1KANs have outperformed the vanilla KANs architecture, our rigorous theoretical analysis reveals that they still suffer from rank collapse, ultimately limiting their expressive capacity. To overcome these limitations, we enhance Chebyshev1KANs by integrating wavelet-activated MLPs with learnable parameters and an internal attention mechanism. We prove that this design preserves a full-rank Jacobian and is capable of approximating solutions to PDEs of arbitrary order. Furthermore, to alleviate the loss instability and imbalance introduced by the Chebyshev polynomial basis, we externally incorporate a Residual Gradient Attention (RGA) mechanism that dynamically re-weights individual loss terms according to their gradient norms and residual magnitudes. By jointly leveraging internal and external attention, we present AC-PKAN, a novel architecture that constitutes an enhancement to weakly supervised Physics-Informed Neural Networks (PINNs) and extends the expressive power of KANs. Experimental results from nine benchmark tasks across three domains show that AC-PKAN consistently outperforms or matches state-of-the-art models such as PINNsFormer, establishing it as a highly effective tool for solving complex real-world engineering problems in zero-data or data-sparse regimes. The code will be made publicly available upon acceptance.

arxiv情報

著者 Hangwei Zhang,Zhimu Huang,Yan Wang
発行日 2025-05-13 15:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | AC-PKAN: Attention-Enhanced and Chebyshev Polynomial-Based Physics-Informed Kolmogorov-Arnold Networks はコメントを受け付けていません

VizCV: AI-assisted visualization of researchers’ publications tracks

要約

科学者と研究グループの出版記録が長年にわたってどのように進化してきたかを分析することは、キャリア計画と評価を支援することで学術環境の管理をサポートできるため、専門知識を評価するために重要です。
研究者の科学的軌跡のインタラクティブな調査を可能にする、新しいWebベースのエンドツーエンドの視覚分析フレームワークであるVizCVを紹介します。
AIアシスト分析が組み込まれ、キャリアの進化の自動レポートがサポートされています。
私たちのシステムは、3つの重要な側面を介してキャリアの進歩をモデル化することを目的としています。a)時間の経過に伴う学術的焦点の変化を検出および視覚化する研究トピックの進化、b)出版物の記録と対応する影響、c)研究者の共著ネットワークの成長と変換を描いたコラボレーションダイナミクス。
AI駆動型の洞察は、キャリアの移行の自動化された説明を提供し、研究方向、衝撃サージ、またはコラボレーションの拡大の大幅な変化を検出します。
このシステムは、研究者間の比較分析もサポートし、ユーザーがトピックの軌跡を比較し、成長に影響を与えることができます。
インタラクティブでマルチタブおよびマルチビューシステムにより、最もインパクトのある記事、新しい研究テーマ、サブフィールドでの研究者の貢献の詳細な分析を取得するなど、さまざまな視点でのキャリアマイルストーンの探索的分析が可能になります。
重要な貢献には、AI/MLテクニックのテクニックが含まれます。a)トピック分析、b)パターンとトレンドを視覚化するための次元削減、c)構成可能な迅速な生成と大規模な言語モデルを介したデータのファセットのテキストのテキスト記述の作成は、個人またはグループのキャリア開発を理解するのに役立つ重要な指標を含む。

要約(オリジナル)

Analyzing how the publication records of scientists and research groups have evolved over the years is crucial for assessing their expertise since it can support the management of academic environments by assisting with career planning and evaluation. We introduce VizCV, a novel web-based end-to-end visual analytics framework that enables the interactive exploration of researchers’ scientific trajectories. It incorporates AI-assisted analysis and supports automated reporting of career evolution. Our system aims to model career progression through three key dimensions: a) research topic evolution to detect and visualize shifts in scholarly focus over time, b) publication record and the corresponding impact, c) collaboration dynamics depicting the growth and transformation of a researcher’s co-authorship network. AI-driven insights provide automated explanations of career transitions, detecting significant shifts in research direction, impact surges, or collaboration expansions. The system also supports comparative analysis between researchers, allowing users to compare topic trajectories and impact growth. Our interactive, multi-tab and multiview system allows for the exploratory analysis of career milestones under different perspectives, such as the most impactful articles, emerging research themes, or obtaining a detailed analysis of the contribution of the researcher in a subfield. The key contributions include AI/ML techniques for: a) topic analysis, b) dimensionality reduction for visualizing patterns and trends, c) the interactive creation of textual descriptions of facets of data through configurable prompt generation and large language models, that include key indicators, to help understanding the career development of individuals or groups.

arxiv情報

著者 Vladimír Lazárik,Marco Agus,Barbora Kozlíková,Pere-Pau Vázquez
発行日 2025-05-13 15:47:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | VizCV: AI-assisted visualization of researchers’ publications tracks はコメントを受け付けていません

A Survey of Deep Learning for Complex Speech Spectrograms

要約

深い学習の最近の進歩は、特に複雑なスペクトログラムの分析と操作において、音声信号処理の分野に大きな影響を与えました。
この調査では、マグニチュード情報と位相情報の両方をカプセル化する複雑なスペクトログラムを処理するための深いニューラルネットワークを活用する最先端の手法の包括的な概要を提供します。
まず、複雑なスペクトログラムと、さまざまな音声処理タスクに関連する機能を導入することから始めます。
次に、複雑なデータを処理するように特別に設計され、複雑なスペクトログラム処理に適用されている複雑なニューラルネットワークの主要なコンポーネントとアーキテクチャを探ります。
次に、複雑なスペクトログラムを処理およびモデル化するためのニューラルネットワークをトレーニングするために調整されたさまざまなトレーニング戦略と損失関数について説明します。
この調査では、フェーズの検索、音声の強化、音声分離などの主要なアプリケーションをさらに調べます。このアプリケーションでは、複雑なスペクトログラムまたは派生した特徴表現を活用することにより、深い学習が大きな進歩を遂げました。
さらに、複雑なスペクトログラムと生成モデルの交点を調べます。
この調査の目的は、音声信号処理と複雑な価値のニューラルネットワークの分野における研究者と実践者にとって貴重なリソースとして機能することを目的としています。

要約(オリジナル)

Recent advancements in deep learning have significantly impacted the field of speech signal processing, particularly in the analysis and manipulation of complex spectrograms. This survey provides a comprehensive overview of the state-of-the-art techniques leveraging deep neural networks for processing complex spectrograms, which encapsulate both magnitude and phase information. We begin by introducing complex spectrograms and their associated features for various speech processing tasks. Next, we explore the key components and architectures of complex-valued neural networks, which are specifically designed to handle complex-valued data and have been applied for complex spectrogram processing. We then discuss various training strategies and loss functions tailored for training neural networks to process and model complex spectrograms. The survey further examines key applications, including phase retrieval, speech enhancement, and speech separation, where deep learning has achieved significant progress by leveraging complex spectrograms or their derived feature representations. Additionally, we examine the intersection of complex spectrograms with generative models. This survey aims to serve as a valuable resource for researchers and practitioners in the field of speech signal processing and complex-valued neural networks.

arxiv情報

著者 Yuying Xie,Zheng-Hua Tan
発行日 2025-05-13 15:53:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.AS | A Survey of Deep Learning for Complex Speech Spectrograms はコメントを受け付けていません

The Impact of Large Language Models on Open-source Innovation: Evidence from GitHub Copilot

要約

大規模な言語モデル(LLM)は、ガイド付き設定での個々の生産性を向上させることが示されています。
LLMは、共同作業設定でイノベーションプロセスを変換する可能性が高いのに対し、この変換がどのような軌道に続くかは不明です。
これらのコンテキストでのイノベーションには、プロジェクトで新しい能力を獲得することにより、新しい可能性を探る能力イノベーションと、確立された能力を高め、プロジェクトの品質を向上させることで既存の財団を活用する反復的なイノベーションの両方を網羅しています。
LLMSは、共同作業のこれら2つの側面に影響を与えるかどうか、およびオープンな経験的質問はどの程度までに影響します。
オープンソース開発は、貢献の自発的でオープン/協力的な性質が技術的増強の最大の機会を提供するため、これらのイノベーションタイプに対するLLMの影響を調べるための理想的な設定を提供します。
2021年10月にGitHub Copilot(プログラミング中心のLLM)の選択的ロールアウトを中心に自然な実験を活用することにより、Githubのオープンソースプロジェクトに焦点を当てています。GithubCopilotは、RやHaskellではなくPythonや錆などのプログラミング言語を選択的にサポートしています。
全体的な貢献の大幅なジャンプを観察し、LLMSがガイド付きの環境での共同イノベーションを効果的に強化することを示唆しています。
興味深いことに、Copilotの発売により、コード開発または機能導入コミットを通じて能力イノベーションよりも、メンテナンス関連または機能反復の貢献に焦点を当てた反復的なイノベーションが増加しました。
この格差は、2022年6月のモデルアップグレード後により顕著であり、広範なコーディングアクティビティを備えたアクティブなプロジェクトで明らかになり、LLM機能と利用可能なコンテキスト情報の両方が改善されると、能力と反復イノベーションのギャップが拡大する可能性があることを示唆しています。
高価値の革新的なソリューションを奨励するための実用的および政策的意味合いについて説明します。

要約(オリジナル)

Large Language Models (LLMs) have been shown to enhance individual productivity in guided settings. Whereas LLMs are likely to also transform innovation processes in a collaborative work setting, it is unclear what trajectory this transformation will follow. Innovation in these contexts encompasses both capability innovation that explores new possibilities by acquiring new competencies in a project and iterative innovation that exploits existing foundations by enhancing established competencies and improving project quality. Whether LLMs affect these two aspects of collaborative work and to what extent is an open empirical question. Open-source development provides an ideal setting to examine LLM impacts on these innovation types, as its voluntary and open/collaborative nature of contributions provides the greatest opportunity for technological augmentation. We focus on open-source projects on GitHub by leveraging a natural experiment around the selective rollout of GitHub Copilot (a programming-focused LLM) in October 2021, where GitHub Copilot selectively supported programming languages like Python or Rust, but not R or Haskell. We observe a significant jump in overall contributions, suggesting that LLMs effectively augment collaborative innovation in an unguided setting. Interestingly, Copilot’s launch increased iterative innovation focused on maintenance-related or feature-refining contributions significantly more than it did capability innovation through code-development or feature-introducing commits. This disparity was more pronounced after the model upgrade in June 2022 and was evident in active projects with extensive coding activity, suggesting that as both LLM capabilities and/or available contextual information improve, the gap between capability and iterative innovation may widen. We discuss practical and policy implications to incentivize high-value innovative solutions.

arxiv情報

著者 Doron Yeverechyahu,Raveesh Mayya,Gal Oestreicher-Singer
発行日 2025-05-13 16:08:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE, D.2.7, econ.GN, q-fin.EC | The Impact of Large Language Models on Open-source Innovation: Evidence from GitHub Copilot はコメントを受け付けていません

LLM-based Prompt Ensemble for Reliable Medical Entity Recognition from EHRs

要約

電子健康記録(EHRS)は、患者情報のデジタル記録であり、多くの場合、構造化されていない臨床テキストを含んでいます。
名前付きエンティティ認識(NER)は、下流の臨床アプリケーションをサポートするために問題、テスト、治療などの主要な医療エンティティを抽出するためにEHRで不可欠です。
このホワイトペーパーでは、ゼロショット、少数のショット、アンサンブルアプローチなど、さまざまな迅速なエンジニアリング技術に導かれた、大規模な言語モデル(LLMS)、特にGPT-4OおよびDeepSeek-R1を使用した迅速な医療エンティティ認識を調査します。
すべての戦略の中で、プロンプトアンサンブルを備えたGPT-4Oは、F1スコア0.95と0.98のリコールで最高の分類パフォーマンスを達成し、タスクでDeepSeek-R1を上回りました。
アンサンブル法は、埋め込みベースの類似性と多数決を通じて出力を集約することにより、信頼性を向上させました。

要約(オリジナル)

Electronic Health Records (EHRs) are digital records of patient information, often containing unstructured clinical text. Named Entity Recognition (NER) is essential in EHRs for extracting key medical entities like problems, tests, and treatments to support downstream clinical applications. This paper explores prompt-based medical entity recognition using large language models (LLMs), specifically GPT-4o and DeepSeek-R1, guided by various prompt engineering techniques, including zero-shot, few-shot, and an ensemble approach. Among all strategies, GPT-4o with prompt ensemble achieved the highest classification performance with an F1-score of 0.95 and recall of 0.98, outperforming DeepSeek-R1 on the task. The ensemble method improved reliability by aggregating outputs through embedding-based similarity and majority voting.

arxiv情報

著者 K M Sajjadul Islam,Ayesha Siddika Nipu,Jiawei Wu,Praveen Madiraju
発行日 2025-05-13 16:11:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LLM-based Prompt Ensemble for Reliable Medical Entity Recognition from EHRs はコメントを受け付けていません

Big Data and the Computational Social Science of Entrepreneurship and Innovation

要約

大規模な社会データが爆発し、機械学習方法が進化するにつれて、起業家精神と革新の学者は新しい研究の機会に直面しているだけでなく、ユニークな課題にも直面しています。
この章では、大規模なデータを活用して技術的および商業的な斬新さを特定し、新しいベンチャーの起源を文書化し、新しいテクノロジーと商業形式の間の競争を予測することの難しさについて説明します。
学者が新しいテキスト、ネットワーク、画像、オーディオ、ビデオデータを2つの異なる方法でどのように活用して、イノベーションと起業家精神の研究を進めることができるかを示唆しています。
第一に、マシンラーニングモデルは、大規模なデータと組み合わせて、人間社会全体のイノベーションと起業家精神のシステムレベルの天文台として機能する精密測定の構築を可能にします。
第二に、ビッグデータに燃料を供給された新しい人工知能モデルは、テクノロジーとビジネスの「デジタルダブル」を生成し、イノベーションと起業家精神プロセスとポリシーに関する仮想実験のために研究所を形成します。
この章では、ビッグデータを大きなモデルと結合することにより、起業家精神と革新における理論開発とテストの進歩について主張しています。

要約(オリジナル)

As large-scale social data explode and machine-learning methods evolve, scholars of entrepreneurship and innovation face new research opportunities but also unique challenges. This chapter discusses the difficulties of leveraging large-scale data to identify technological and commercial novelty, document new venture origins, and forecast competition between new technologies and commercial forms. It suggests how scholars can take advantage of new text, network, image, audio, and video data in two distinct ways that advance innovation and entrepreneurship research. First, machine-learning models, combined with large-scale data, enable the construction of precision measurements that function as system-level observatories of innovation and entrepreneurship across human societies. Second, new artificial intelligence models fueled by big data generate ‘digital doubles’ of technology and business, forming laboratories for virtual experimentation about innovation and entrepreneurship processes and policies. The chapter argues for the advancement of theory development and testing in entrepreneurship and innovation by coupling big data with big models.

arxiv情報

著者 Ningzi Li,Shiyang Lai,James Evans
発行日 2025-05-13 16:13:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.SI, econ.GN, q-fin.EC, stat.AP | Big Data and the Computational Social Science of Entrepreneurship and Innovation はコメントを受け付けていません