EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition

要約

既存のマルチモーダルベースのヒューマンアクション認識アプローチは計算集中的であり、リアルタイムアプリケーションでの展開を制限しています。
この作業では、ビデオでのアクション認識のために、斬新で効率的なポーズ駆動型の注意誘導マルチモーダルネットワーク(EPAM-NET)を紹介します。
具体的には、RGBの拡張時間シフト(x-shiftnet)の畳み込みアーキテクチャとポーズストリームを提案し、RGBビデオとそのスケルトンシーケンスから時空間的特徴をキャプチャします。
X-ShiftNetは、時間シフトモジュール(TSM)を効率的な2D CNNに統合して、効率的な時空学習を可能にすることにより、3D CNNの高い計算コストに取り組みます。
次に、スケルトン機能を利用して、視覚的なネットワークストリームをガイドし、提案された空間的注意ブロックを使用してキーフレームとその顕著な空間領域に焦点を当てています。
最後に、2つのストリームの予測は、最終的な分類のために融合されます。
実験結果は、フローティングポイント操作(FLOPS)が大幅に減少し、NTU RGB-D 60、NTU RGB-D 120、PKU-MMD、およびトヨタスマートームデータセットの最先端の方法と競合する方法を示していることを示しています。
提案されているEPAM-NETは、フロップの最大72.8倍の削減と、ネットワークパラメーターの数が最大48.6倍の削減を提供します。
このコードは、https://github.com/ahmed-nady/multimodal-action-cognitionで入手できます。

要約(オリジナル)

Existing multimodal-based human action recognition approaches are computationally intensive, limiting their deployment in real-time applications. In this work, we present a novel and efficient pose-driven attention-guided multimodal network (EPAM-Net) for action recognition in videos. Specifically, we propose eXpand temporal Shift (X-ShiftNet) convolutional architectures for RGB and pose streams to capture spatio-temporal features from RGB videos and their skeleton sequences. The X-ShiftNet tackles the high computational cost of the 3D CNNs by integrating the Temporal Shift Module (TSM) into an efficient 2D CNN, enabling efficient spatiotemporal learning. Then skeleton features are utilized to guide the visual network stream, focusing on keyframes and their salient spatial regions using the proposed spatial-temporal attention block. Finally, the predictions of the two streams are fused for final classification. The experimental results show that our method, with a significant reduction in floating-point operations (FLOPs), outperforms and competes with the state-of-the-art methods on NTU RGB-D 60, NTU RGB-D 120, PKU-MMD, and Toyota SmartHome datasets. The proposed EPAM-Net provides up to a 72.8x reduction in FLOPs and up to a 48.6x reduction in the number of network parameters. The code will be available at https://github.com/ahmed-nady/Multimodal-Action-Recognition.

arxiv情報

著者 Ahmed Abdelkawy,Asem Ali,Aly Farag
発行日 2025-03-20 15:21:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition はコメントを受け付けていません

Flight Testing an Optionally Piloted Aircraft: a Case Study on Trust Dynamics in Human-Autonomy Teaming

要約

このペーパーでは、オプションのパイロット航空機と組み合わせている人間の自由が組織化されているという文脈で、時間の経過とともに信頼がどのように形成、維持、または減少するかを検討します。
従来の因子ベースの信頼モデルは、テクノロジーに対する人間の信頼の静的な表現を提供しますが、ここでは、基礎となる要因の変動が信頼、信頼のしきい値、および人間の行動の変動にどのようにつながるかについて説明します。
2021年から2023年までの複数年のテストキャンペーンで収集された200時間以上の飛行テストデータがレビューされました。
名目上の自律飛行操作中に信頼の傾向を明らかにするために、処分の標準学習、プロセスパフォーマンスの目的、およびインパクトホメオスタシストラストモデルが適用されます。
この結果は、人間の自由チームにおける信頼のダイナミクスと信頼のための設計に関する将来の研究のための有望な方向性を提供します。

要約(オリジナル)

This paper examines how trust is formed, maintained, or diminished over time in the context of human-autonomy teaming with an optionally piloted aircraft. Whereas traditional factor-based trust models offer a static representation of human confidence in technology, here we discuss how variations in the underlying factors lead to variations in trust, trust thresholds, and human behaviours. Over 200 hours of flight test data collected over a multi-year test campaign from 2021 to 2023 were reviewed. The dispositional-situational-learned, process-performance-purpose, and IMPACTS homeostasis trust models are applied to illuminate trust trends during nominal autonomous flight operations. The results offer promising directions for future studies on trust dynamics and design-for-trust in human-autonomy teaming.

arxiv情報

著者 Jeremy C. -H. Wang,Ming Hou,David Dunwoody,Marko Ilievski,Justin Tomasi,Edward Chao,Carl Pigeon
発行日 2025-03-20 15:22:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.HC, cs.LG, cs.SY, eess.SY | Flight Testing an Optionally Piloted Aircraft: a Case Study on Trust Dynamics in Human-Autonomy Teaming はコメントを受け付けていません

AI Agents in Cryptoland: Practical Attacks and No Silver Bullet

要約

AIエージェントとWeb3エコシステムとの統合は、自律性と開放性の補完的な可能性を活用していますが、これらのエージェントが金融プロトコルや不変のスマートコントラクトと動的に相互作用するため、露出していないセキュリティリスクも導入します。
このペーパーでは、実際のシナリオで敵対的な脅威にさらされた場合、ブロックチェーンベースの金融エコシステム内のAIエージェントの脆弱性を調査します。
コンテキスト操作の概念を紹介します。これは、入力チャネル、メモリモジュール、外部データフィードなど、保護されていないコンテキスト表面を悪用する包括的な攻撃ベクトルです。
自動化されたWeb3操作の分散型AIエージェントフレームワークであるElizaosの経験的分析を通じて、悪意のある指示をプロンプトまたは歴史的相互作用記録に注入することにより、敵がどのようにコンテキストを操作できるかを示し、意図しない資産の移転とプロトコル違反を財政的に破壊する可能性があります。
私たちの調査結果は、悪意のある入力がエージェントの保存されたコンテキストを破損し、相互作用やプラットフォーム間でカスケードの脆弱性を生み出す可能性があるため、迅速な防御が不十分であることを示しています。
この研究では、安全であり、有益な責任を負うAIエージェントを開発する緊急の必要性を強調しています。

要約(オリジナル)

The integration of AI agents with Web3 ecosystems harnesses their complementary potential for autonomy and openness, yet also introduces underexplored security risks, as these agents dynamically interact with financial protocols and immutable smart contracts. This paper investigates the vulnerabilities of AI agents within blockchain-based financial ecosystems when exposed to adversarial threats in real-world scenarios. We introduce the concept of context manipulation — a comprehensive attack vector that exploits unprotected context surfaces, including input channels, memory modules, and external data feeds. Through empirical analysis of ElizaOS, a decentralized AI agent framework for automated Web3 operations, we demonstrate how adversaries can manipulate context by injecting malicious instructions into prompts or historical interaction records, leading to unintended asset transfers and protocol violations which could be financially devastating. Our findings indicate that prompt-based defenses are insufficient, as malicious inputs can corrupt an agent’s stored context, creating cascading vulnerabilities across interactions and platforms. This research highlights the urgent need to develop AI agents that are both secure and fiduciarily responsible.

arxiv情報

著者 Atharv Singh Patlan,Peiyao Sheng,S. Ashwin Hebbar,Prateek Mittal,Pramod Viswanath
発行日 2025-03-20 15:44:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, I.2.7 | AI Agents in Cryptoland: Practical Attacks and No Silver Bullet はコメントを受け付けていません

Fourier Neural Operator based surrogates for $CO_2$ storage in realistic geologies

要約

この研究の目的は、炭素捕獲と貯蔵(CCS)テクノロジーに関連する意思決定プロセスを加速するための代理モデルを開発することを目的としています。
サブサーフェースの選択$ CO_2 $ストレ​​ージサイトには、多くの場合、$ CO_2 $フローフィールドの高価で関与するシミュレーションが必要です。
ここでは、$ CO_2 $プルームの移行のリアルタイム、高解像度シミュレーション用のフーリエニューラルオペレーター(FNO)ベースのモデルを開発します。
このモデルは、現実的な地下パラメーターから生成された包括的なデータセットでトレーニングされており、予測精度の犠牲を最小限に抑えて$ O(10^5)$計算加速を提供します。
また、FNOベースのモデルのトレーニングの計算コストを改善するために、超解像度の実験を調査します。
さらに、モデルからの予測の信頼性を改善するためのさまざまな戦略を提示します。これは、実際の地質学サイトを評価する際に重要です。
NvidiaのModulusライブラリに基づいたこの新しいフレームワークにより、CCSのサイトの迅速なスクリーニングが可能になります。
議論されたワークフローと戦略は、地熱貯留層モデリングや水素貯蔵などの他のエネルギーソリューションに適用できます。
私たちの仕事は、現実の地下帯水層/貯水池とより一致する現実的な3Dシステムに科学機械学習モデルを拡大し、地下CCSアプリケーションの次世代デジタル双子への道を開いています。

要約(オリジナル)

This study aims to develop surrogate models for accelerating decision making processes associated with carbon capture and storage (CCS) technologies. Selection of sub-surface $CO_2$ storage sites often necessitates expensive and involved simulations of $CO_2$ flow fields. Here, we develop a Fourier Neural Operator (FNO) based model for real-time, high-resolution simulation of $CO_2$ plume migration. The model is trained on a comprehensive dataset generated from realistic subsurface parameters and offers $O(10^5)$ computational acceleration with minimal sacrifice in prediction accuracy. We also explore super-resolution experiments to improve the computational cost of training the FNO based models. Additionally, we present various strategies for improving the reliability of predictions from the model, which is crucial while assessing actual geological sites. This novel framework, based on NVIDIA’s Modulus library, will allow rapid screening of sites for CCS. The discussed workflows and strategies can be applied to other energy solutions like geothermal reservoir modeling and hydrogen storage. Our work scales scientific machine learning models to realistic 3D systems that are more consistent with real-life subsurface aquifers/reservoirs, paving the way for next-generation digital twins for subsurface CCS applications.

arxiv情報

著者 Anirban Chandra,Marius Koch,Suraj Pawar,Aniruddha Panda,Kamyar Azizzadenesheli,Jeroen Snippe,Faruk O. Alpak,Farah Hariri,Clement Etienam,Pandu Devarakota,Anima Anandkumar,Detlef Hohl
発行日 2025-03-20 15:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.comp-ph, physics.geo-ph | Fourier Neural Operator based surrogates for $CO_2$ storage in realistic geologies はコメントを受け付けていません

Subjective Logic Encodings

要約

ラベル付きデータから学習するための多くの既存のアプローチは、金標準のラベルの存在を想定しています。
これらのアプローチによれば、注釈ガイドラインの改良、ラベルの裁定、またはラベルフィルタリングのいずれかを通じて、アノテーター間の意見の不一致は削除されるノイズと見なされます。
ただし、特に意見の相違が自然な場合のセンチメント分析やヘイトスピーチ検出などのより主観的なタスクでは、アノテーターの意見の不一致が完全に根絶されることはめったにありません。
したがって、データの視点と呼ばれるラベル付けされたデータから学習するための新しいアプローチは、アノテーター間の意見の不一致を活用して、注釈をゴールドスタンダードの事実ではなく、アノテーターの意見として扱うことにより、タスクの固有の不確実性に忠実であるモデルを学習しようとしています。
この概念的根拠にもかかわらず、データの視点の下での既存の方法は、注釈の不確実性の唯一のソースとして意見の相違を使用することに限定されています。
データの視点の可能性を拡大するために、注釈を明示的にアノテーターの意見として明示的にエンコードする分類ターゲットを構築するための柔軟なフレームワークである主観的ロジックエンコーディング(SLE)を紹介します。
主観的論理理論に基づいて、SLESはラベルをDirichlet分布としてエンコードし、さまざまなタイプの注釈の不確実性(注釈の信頼性、信頼性、意見の不一致)をターゲットにエンコードして集約するための原則的な方法を提供します。
SLEは、他のタイプのラベルエンコーディングの一般化と、分布マッチング目標を使用してSLESを予測するモデルを推定する方法であることを示します。

要約(オリジナル)

Many existing approaches for learning from labeled data assume the existence of gold-standard labels. According to these approaches, inter-annotator disagreement is seen as noise to be removed, either through refinement of annotation guidelines, label adjudication, or label filtering. However, annotator disagreement can rarely be totally eradicated, especially on more subjective tasks such as sentiment analysis or hate speech detection where disagreement is natural. Therefore, a new approach to learning from labeled data, called data perspectivism, seeks to leverage inter-annotator disagreement to learn models that stay true to the inherent uncertainty of the task by treating annotations as opinions of the annotators, rather than gold-standard facts. Despite this conceptual grounding, existing methods under data perspectivism are limited to using disagreement as the sole source of annotation uncertainty. To expand the possibilities of data perspectivism, we introduce Subjective Logic Encodings (SLEs), a flexible framework for constructing classification targets that explicitly encodes annotations as opinions of the annotators. Based on Subjective Logic Theory, SLEs encode labels as Dirichlet distributions and provide principled methods for encoding and aggregating various types of annotation uncertainty — annotator confidence, reliability, and disagreement — into the targets. We show that SLEs are a generalization of other types of label encodings as well as how to estimate models to predict SLEs using a distribution matching objective.

arxiv情報

著者 Jake Vasilakes,Chrysoula Zerva,Sophia Ananiadou
発行日 2025-03-20 15:52:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Subjective Logic Encodings はコメントを受け付けていません

BELLA: Black box model Explanations by Local Linear Approximations

要約

ブラックボックスモデルの意思決定プロセスを理解することは、単なる法的要件ではなく、パフォーマンスを評価する追加の方法でもあります。
ただし、回帰モデルの最先端の事後説明アプローチは、合成データ生成に依存しており、不確実性をもたらし、説明の信頼性を損なう可能性があります。
さらに、彼らは非常に少ないデータポイントのみに適用される説明を作成する傾向があります。
この論文では、回帰ブラックボックスモデルの個々の予測を説明するための決定論的モデルに依存しない事後アプローチであるBellaを提示します。
Bellaは、特徴空間で訓練された線形モデルの形で説明を提供します。
Bellaは、説明が正確で、シンプルで、一般的で、堅牢になるように、線形モデルが適用される近隣のサイズを最大化します。
ベラは、事実と反事実的な説明の両方を生み出すことができます。

要約(オリジナル)

Understanding the decision-making process of black-box models has become not just a legal requirement, but also an additional way to assess their performance. However, the state of the art post-hoc explanation approaches for regression models rely on synthetic data generation, which introduces uncertainty and can hurt the reliability of the explanations. Furthermore, they tend to produce explanations that apply to only very few data points. In this paper, we present BELLA, a deterministic model-agnostic post-hoc approach for explaining the individual predictions of regression black-box models. BELLA provides explanations in the form of a linear model trained in the feature space. BELLA maximizes the size of the neighborhood to which the linear model applies so that the explanations are accurate, simple, general, and robust. BELLA can produce both factual and counterfactual explanations.

arxiv情報

著者 Nedeljko Radulovic,Albert Bifet,Fabian Suchanek
発行日 2025-03-20 15:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | BELLA: Black box model Explanations by Local Linear Approximations はコメントを受け付けていません

Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment

要約

視覚的な季節のタスクのためのマルチモーダル大手言語モデル(MLLMS)の広範な展開により、安全性の向上が重要になりました。
最近の研究では、トレーニング時間の安全性の調整にもかかわらず、これらのモデルは脱獄攻撃に対して脆弱なままであることが示されています。
この作業では、最初に、安全トレーニングのみを通じて達成されたアラインメントが脱獄攻撃に対して不十分である可能性があることを説明するための重要な安全性のギャップを強調しています。
この脆弱性に対処するために、脱獄攻撃を防御するために制御されたデコードを通じて安全な報酬モデルを活用する推論時間防衛フレームワークである免疫を提案します。
さらに、免疫の数学的特性評価を提供し、脱獄に対する安全性を向上させる理由についての洞察を提供します。
最近のMLLMを使用した多様な脱獄ベンチマークに関する広範な評価により、免疫はモデルの元の機能を維持しながらモデルの安全性を効果的に向上させることが明らかになりました。
たとえば、LLAVA-1.6に対するテキストベースの脱獄攻撃に対して、免疫は、基本MLLMおよび最先端の防衛戦略と比較して、それぞれ攻撃の成功率を57.82%および16.78%減少させます。

要約(オリジナル)

With the widespread deployment of Multimodal Large Language Models (MLLMs) for visual-reasoning tasks, improving their safety has become crucial. Recent research indicates that despite training-time safety alignment, these models remain vulnerable to jailbreak attacks. In this work, we first highlight an important safety gap to describe that alignment achieved solely through safety training may be insufficient against jailbreak attacks. To address this vulnerability, we propose Immune, an inference-time defense framework that leverages a safe reward model through controlled decoding to defend against jailbreak attacks. Additionally, we provide a mathematical characterization of Immune, offering insights on why it improves safety against jailbreaks. Extensive evaluations on diverse jailbreak benchmarks using recent MLLMs reveal that Immune effectively enhances model safety while preserving the model’s original capabilities. For instance, against text-based jailbreak attacks on LLaVA-1.6, Immune reduces the attack success rate by 57.82% and 16.78% compared to the base MLLM and state-of-the-art defense strategy, respectively.

arxiv情報

著者 Soumya Suvra Ghosal,Souradip Chakraborty,Vaibhav Singh,Tianrui Guan,Mengdi Wang,Ahmad Beirami,Furong Huang,Alvaro Velasquez,Dinesh Manocha,Amrit Singh Bedi
発行日 2025-03-20 16:07:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment はコメントを受け付けていません

Diffusion-augmented Graph Contrastive Learning for Collaborative Filter

要約

グラフベースのコラボレーションフィルタリングは、推奨システムの顕著なアプローチとして確立されており、ユーザーとアイテムの相互作用の固有のグラフトポロジを活用して、高次接続パターンをモデル化し、推奨パフォーマンスを強化します。
グラフ対照学習(GCL)の最近の進歩は、対照的なビューの生成と相互情報の最大化を通じて表現学習を改善することにより、データスパースの問題を軽減する有望な可能性を実証しています。
ただし、既存のアプローチには、効果的なデータ増強戦略がありません。
構造的増強は、基本的なグラフトポロジーの歪みをリスクしますが、特徴レベルの摂動手法は、ノード固有の特性を説明できない均一なノイズスケールを主に使用します。
これらの課題を解決するために、拡散モデルを統合する革新的なフレームワークである拡散性対応学習(DGCL)を提案します。
私たちのアプローチは、表現のノード固有のガウス分布を学習する拡散プロセスを採用しており、それにより、逆拡散サンプリングを通じて意味的に一貫した多様なコントラストビューを生成します。
DGCLは、セマンティックコヒーレンスとノード固有の機能の両方を考慮して、再構築された表現に基づいて適応データの増強を促進します。
さらに、潜在的なまばらな特徴空間の代表されていない領域を探り、それにより、対照的なビューの多様性を豊かにします。
広範な実験結果は、3つのパブリックデータセットに対するDGCLの有効性を示しています。

要約(オリジナル)

Graph-based collaborative filtering has been established as a prominent approach in recommendation systems, leveraging the inherent graph topology of user-item interactions to model high-order connectivity patterns and enhance recommendation performance. Recent advances in Graph Contrastive Learning (GCL) have demonstrated promising potential to alleviate data sparsity issues by improving representation learning through contrastive view generation and mutual information maximization. However, existing approaches lack effective data augmentation strategies. Structural augmentation risks distorting fundamental graph topology, while feature-level perturbation techniques predominantly employ uniform noise scales that fail to account for node-specific characteristics. To solve these challenges, we propose Diffusion-augmented Contrastive Learning (DGCL), an innovative framework that integrates diffusion models with contrastive learning for enhanced collaborative filtering. Our approach employs a diffusion process that learns node-specific Gaussian distributions of representations, thereby generating semantically consistent yet diversified contrastive views through reverse diffusion sampling. DGCL facilitates adaptive data augmentation based on reconstructed representations, considering both semantic coherence and node-specific features. In addition, it explores unrepresented regions of the latent sparse feature space, thereby enriching the diversity of contrastive views. Extensive experimental results demonstrate the effectiveness of DGCL on three public datasets.

arxiv情報

著者 Fan Huang,Wei Wang
発行日 2025-03-20 16:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Diffusion-augmented Graph Contrastive Learning for Collaborative Filter はコメントを受け付けていません

When Text Embedding Meets Large Language Model: A Comprehensive Survey

要約

テキストの埋め込みは、深い学習時代に自然言語処理(NLP)の基礎技術となっており、幅広い下流のタスクにわたって進歩を促進しています。
多くの自然言語理解の課題は、生成パラダイムを使用してモデル化され、大規模な言語モデル(LLMS)の堅牢な生成および理解能力を活用できるようになりましたが、セマンティックマッチング、クラスタリング、情報の検索など、効率と有効性のためにテキストの埋め込みに依存し続けています。
したがって、LLMとテキストの埋め込みを統合することは、近年主要な研究の焦点となっています。
この調査では、LLMとテキストの埋め込みとの相互作用を3つの包括的なテーマに分類します。(1)LLMの高度テキスト埋め込み、LLMによる従来の埋め込み方法を強化します。
(2)テキスト埋め込み者としてのLLMS。高品質の埋め込みのために生来の機能を適応させます。
(3)LLMを使用して理解を埋め込み、LLMを活用して埋め込みを分析および解釈するテキスト。
特定のダウンストリームアプリケーションではなく相互作用パターンに基づいて最近の作品を整理することにより、LLMSの時代におけるさまざまな研究およびアプリケーションドメインからの貢献の斬新かつ体系的な概要を提供します。
さらに、事前に訓練された言語モデル(PLMS)を使用して、LLM以前の時代に持続した未解決の課題を強調し、LLMSによってもたらされる新しい障害を調査します。
この分析に基づいて、テキストの埋め込みの進化に関する将来の方向性の概要を説明し、NLPの急速に前進する景観における理論的および実用的な機会の両方に対処します。

要約(オリジナル)

Text embedding has become a foundational technology in natural language processing (NLP) during the deep learning era, driving advancements across a wide array of downstream tasks. While many natural language understanding challenges can now be modeled using generative paradigms and leverage the robust generative and comprehension capabilities of large language models (LLMs), numerous practical applications – such as semantic matching, clustering, and information retrieval – continue to rely on text embeddings for their efficiency and effectiveness. Therefore, integrating LLMs with text embeddings has become a major research focus in recent years. In this survey, we categorize the interplay between LLMs and text embeddings into three overarching themes: (1) LLM-augmented text embedding, enhancing traditional embedding methods with LLMs; (2) LLMs as text embedders, adapting their innate capabilities for high-quality embedding; and (3) Text embedding understanding with LLMs, leveraging LLMs to analyze and interpret embeddings. By organizing recent works based on interaction patterns rather than specific downstream applications, we offer a novel and systematic overview of contributions from various research and application domains in the era of LLMs. Furthermore, we highlight the unresolved challenges that persisted in the pre-LLM era with pre-trained language models (PLMs) and explore the emerging obstacles brought forth by LLMs. Building on this analysis, we outline prospective directions for the evolution of text embedding, addressing both theoretical and practical opportunities in the rapidly advancing landscape of NLP.

arxiv情報

著者 Zhijie Nie,Zhangchi Feng,Mingxin Li,Cunwang Zhang,Yanzhao Zhang,Dingkun Long,Richong Zhang
発行日 2025-03-20 16:15:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | When Text Embedding Meets Large Language Model: A Comprehensive Survey はコメントを受け付けていません

Bridging Technology and Humanities: Evaluating the Impact of Large Language Models on Social Sciences Research with DeepSeek-R1

要約

近年、大規模な言語モデル(LLMS)の開発は、自然言語処理の分野で大きなブレークスルーを行っており、徐々に人文科学と社会科学の研究の分野に適用されています。
LLMは、その強いテキスト理解、生成、推論能力のために、人文科学および社会科学の分野で幅広いアプリケーション価値を持っています。
人文科学と社会科学の研究では、LLMSは大規模なテキストデータを分析し、推論を行うことができます。
この記事では、低リソースの言語翻訳、教育的質問、高等教育の改善、論理的推論、教育測定と心理測定、公衆衛生政策分析、芸術教育の7つの側面からの大規模な言語モデルのDeepSeek-R1を分析します。
Deepseek-R1は人文科学と社会科学でうまく機能し、ほとんどの質問に正しくかつ論理的に答え、合理的な分析プロセスと説明を提供できます。
O1-Previewと比較して、推論プロセスを自動的に生成し、より詳細な説明を提供できます。これは、この知識を詳細に理解する必要がある初心者や人に適していますが、O1-Previewは迅速な読みに適しています。
分析を通じて、LLMは人文科学と社会科学の分野で幅広い応用の可能性を持ち、テキスト分析の効率、言語コミュニケーション、その他の分野を改善する上で大きな利点を示していることがわかります。
LLMの強力な言語理解と生成能力により、人文科学と社会科学の分野で複雑な問題を深く探求し、学術研究と実用的なアプリケーションのための革新的なツールを提供できます。

要約(オリジナル)

In recent years, the development of Large Language Models (LLMs) has made significant breakthroughs in the field of natural language processing and has gradually been applied to the field of humanities and social sciences research. LLMs have a wide range of application value in the field of humanities and social sciences because of its strong text understanding, generation and reasoning capabilities. In humanities and social sciences research, LLMs can analyze large-scale text data and make inferences. This article analyzes the large language model DeepSeek-R1 from seven aspects: low-resource language translation, educational question-answering, student writing improvement in higher education, logical reasoning, educational measurement and psychometrics, public health policy analysis, and art education.Then we compare the answers given by DeepSeek-R1 in the seven aspects with the answers given by o1-preview. DeepSeek-R1 performs well in the humanities and social sciences, answering most questions correctly and logically, and can give reasonable analysis processes and explanations. Compared with o1-preview, it can automatically generate reasoning processes and provide more detailed explanations, which is suitable for beginners or people who need to have a detailed understanding of this knowledge, while o1-preview is more suitable for quick reading. Through analysis, it is found that LLM has broad application potential in the field of humanities and social sciences, and shows great advantages in improving text analysis efficiency, language communication and other fields. LLM’s powerful language understanding and generation capabilities enable it to deeply explore complex problems in the field of humanities and social sciences, and provide innovative tools for academic research and practical applications.

arxiv情報

著者 Peiran Gu,Fuhao Duan,Wenhao Li,Bochen Xu,Ying Cai,Teng Yao,Chenxun Zhuo,Tianming Liu,Bao Ge
発行日 2025-03-20 16:25:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Bridging Technology and Humanities: Evaluating the Impact of Large Language Models on Social Sciences Research with DeepSeek-R1 はコメントを受け付けていません