On the Completeness of Invariant Geometric Deep Learning Models

要約

幾何学的な深い学習モデルの重要なクラスの1つの不変モデルは、ポイントクラウドで有益な幾何学的特徴を活用することにより、意味のある幾何学的表現を生成することができます。
これらのモデルは、それらのシンプルさ、優れた実験結果、計算効率によって特徴付けられます。
しかし、それらの理論的表現力はまだ不明のままであり、そのようなモデルの可能性についてのより深い理解を制限しています。
この作業では、完全に接続された条件下で広範囲の不変モデルの理論的表現性を特徴付けることに集中します。
最初に、最も古典的な不変モデルの表現力を厳密に特徴づけ、距離(disgnn)を組み込んだメッセージ通過ニューラルネットワークを特徴付け、その識別不可能なケースを高度に対称的な点雲のみに制限します。
次に、最も単純なサブグラフグラフニューラルネットワークの1つである幾何学的な対応物であるGeongnnが、これらのコーナーケースの対称性を効果的に破壊し、したがってE(3)補体を達成できることを証明します。
Geongnnを理論的ツールとして活用することにより、次のことをさらに証明します。1)従来のグラフ学習で開発されたほとんどのサブグラフGNNは、E(3) – 複合性を備えた幾何学的シナリオにシームレスに拡張できます。
2)dimenet、gement、およびspherenet、3つの確立された不変モデルも、すべてE(3) – 複製性を達成することができます。
私たちの理論的結果は、不変モデルの表現力のある力のギャップを埋め、それらの能力の厳密かつ包括的な理解に貢献しています。

要約(オリジナル)

Invariant models, one important class of geometric deep learning models, are capable of generating meaningful geometric representations by leveraging informative geometric features in point clouds. These models are characterized by their simplicity, good experimental results and computational efficiency. However, their theoretical expressive power still remains unclear, restricting a deeper understanding of the potential of such models. In this work, we concentrate on characterizing the theoretical expressiveness of a wide range of invariant models under fully-connected conditions. We first rigorously characterize the expressiveness of the most classic invariant model, message-passing neural networks incorporating distance (DisGNN), restricting its unidentifiable cases to be only highly symmetric point clouds. We then prove that GeoNGNN, the geometric counterpart of one of the simplest subgraph graph neural networks, can effectively break these corner cases’ symmetry and thus achieve E(3)-completeness. By leveraging GeoNGNN as a theoretical tool, we further prove that: 1) most subgraph GNNs developed in traditional graph learning can be seamlessly extended to geometric scenarios with E(3)-completeness; 2) DimeNet, GemNet and SphereNet, three well-established invariant models, are also all capable of achieving E(3)-completeness. Our theoretical results fill the gap in the expressive power of invariant models, contributing to a rigorous and comprehensive understanding of their capabilities.

arxiv情報

著者 Zian Li,Xiyuan Wang,Shijia Kang,Muhan Zhang
発行日 2025-03-07 15:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | On the Completeness of Invariant Geometric Deep Learning Models はコメントを受け付けていません

Impoola: The Power of Average Pooling for Image-Based Deep Reinforcement Learning

要約

画像ベースのディープ強化学習がより挑戦的なタスクに取り組むにつれて、モデルサイズの増加がパフォーマンスを改善する重要な要素になりました。
最近の研究では、通常、15層のResNetにインスパイアされたネットワークであるImpala-CNNを画像エンコーダとして使用して、スケーリングされたネットワークのパラメーター効率に焦点を当てることでこれを達成しました。
ただし、Impala-CNNは明らかに古いCNNアーキテクチャよりも優れていますが、深い補強学習固有の画像エンコーダーのためのネットワーク設計の潜在的な進歩はほとんど未開拓のままです。
Impala-CNNの出力機能マップの平坦化をグローバルな平均プーリングに置き換えると、顕著なパフォーマンスが向上することがわかります。
このアプローチは、特に一般化の観点から、Procgenベンチマーク内のより大きく複雑なモデルよりも優れています。
提案されているエンコーダーモデルImpoola-CNNを呼び出します。
エージェント中心の観察なしでゲームの最も重要な利益を観察するため、ネットワークの翻訳感度の低下は、この改善の中心になる可能性があります。
私たちの結果は、ネットワークスケーリングがモデルサイズの増加だけではないことを示しています。効率的なネットワーク設計も重要な要素です。

要約(オリジナル)

As image-based deep reinforcement learning tackles more challenging tasks, increasing model size has become an important factor in improving performance. Recent studies achieved this by focusing on the parameter efficiency of scaled networks, typically using Impala-CNN, a 15-layer ResNet-inspired network, as the image encoder. However, while Impala-CNN evidently outperforms older CNN architectures, potential advancements in network design for deep reinforcement learning-specific image encoders remain largely unexplored. We find that replacing the flattening of output feature maps in Impala-CNN with global average pooling leads to a notable performance improvement. This approach outperforms larger and more complex models in the Procgen Benchmark, particularly in terms of generalization. We call our proposed encoder model Impoola-CNN. A decrease in the network’s translation sensitivity may be central to this improvement, as we observe the most significant gains in games without agent-centered observations. Our results demonstrate that network scaling is not just about increasing model size – efficient network design is also an essential factor.

arxiv情報

著者 Raphael Trumpp,Ansgar Schäfftlein,Mirco Theile,Marco Caccamo
発行日 2025-03-07 16:19:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Impoola: The Power of Average Pooling for Image-Based Deep Reinforcement Learning はコメントを受け付けていません

The interplay between domain specialization and model size

要約

言語モデルのスケーリング法則は、多くの場合、ゼロからトレーニングのために最適なモデルサイズとトークンカウントを見つけることに焦点を合わせています。
ただし、この最適なバランスを達成するには、ランダムに開始された重みからモデルをトレーニングする場合、大規模なデータ需要が原因で、重要な計算リソースが必要です。
継続的な事前トレーニングは、費用対効果の高い代替品を提供し、事前に守られたモデルからの計算投資を活用して、広範な新しいデータを必要とせずに新しい知識を組み込んでいます。
最近の調査結果は、データの品質がスケーリング法の定数に影響し、それによって最適なパラメータートークン割り当て比を変更することを示唆しています。
この洞察に基づいて、計算されたシナリオの下での継続的な事前販売中のドメインの専門化とモデルサイズの相互作用を調査します。
私たちの目標は、このシナリオの最適なトレーニング体制を特定し、さまざまなモデルサイズとドメインで一般化できるこの相互作用のパターンを検出することです。
一般的なトレーニングと専門的なトレーニングを比較するために、Webベースのデータセットをフィルタリングして、法的、医療、会計の3つのドメインからデータを抽出しました。
フィルター処理されていないデータセットとフィルター処理されたデータセットの両方で、1.5B、3B、7B、および14Bパラメーターを備えたモデルを事前に処理し、ドメイン固有の試験でパフォーマンスを評価しました。
結果は、モデルサイズが増加すると、専門モデルが一般的なモデルよりも優れていることを示しています。
さらに、彼らの計算効率の増大は、以前に学んだ知識の忘れを減らすことにつながります。

要約(オリジナル)

Scaling laws for language models have often focused on finding the optimal model size and token count for training from scratch. However, achieving this optimal balance requires significant compute resources due to the extensive data demands when training models from randomly-initialized weights. Continued pretraining offers a cost-effective alternative, leveraging the compute investment from pretrained models to incorporate new knowledge without requiring extensive new data. Recent findings suggest that data quality influences constants in scaling laws, thereby altering the optimal parameter-token allocation ratio. Building on this insight, we investigate the interplay between domain specialization and model size during continued pretraining under compute-constrained scenarios. Our goal is to identify an optimal training regime for this scenario and detect patterns in this interplay that can be generalized across different model sizes and domains. To compare general and specialized training, we filtered a web-based dataset to extract data from three domains: legal, medical, and accounting. We pretrained models with 1.5B, 3B, 7B, and 14B parameters on both the unfiltered and filtered datasets, then evaluated their performance on domain-specific exams. Results show that as model size increases, specialized models outperform general models while requiring less training compute. Additionally, their growing compute efficiency leads to reduced forgetting of previously learned knowledge.

arxiv情報

著者 Roseval Malaquias Junior,Ramon Pires,Thales Sales Almeida,Kenzo Sakiyama,Roseli A. F. Romero,Rodrigo Nogueira
発行日 2025-03-07 16:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | The interplay between domain specialization and model size はコメントを受け付けていません

Compliance of AI Systems

要約

さまざまな分野での人工知能(AI)システムの統合の増加には、今後の法律への順守を確保するために確固たる概念が必要です。
このペーパーでは、EUのAI法とデータセットのコンプライアンスに焦点を当てた、関連する法律を備えたAIシステムのコンプライアンスを体系的に調べます。
分析では、AIアプリケーションをデータソースに近づけるためにますます使用されているエッジデバイスに関連する多くの課題が強調されています。
このようなデバイスは、分散型の性質と洗練されたコンプライアンスメカニズムを実装するための限られたコンピューティングリソースのために、ユニークな問題に直面することがよくあります。
AIの実装を分析することにより、この論文は課題を特定し、AIの開発、展開、および実行時に法的コンプライアンスの最初のベストプラクティスを提案します。
データセットコンプライアンスの重要性は、AIシステムの信頼性、透明性、および説明可能性を確保するための基礎として強調されています。これは、AI法などの規制枠組みに定められた倫理基準と一致する必要があります。
得られた洞察は、組み込みAIシステムの責任ある開発と展開に関する継続的な談話に貢献する必要があります。

要約(オリジナル)

The increasing integration of artificial intelligence (AI) systems in various fields requires solid concepts to ensure compliance with upcoming legislation. This paper systematically examines the compliance of AI systems with relevant legislation, focusing on the EU’s AI Act and the compliance of data sets. The analysis highlighted many challenges associated with edge devices, which are increasingly being used to deploy AI applications closer and closer to the data sources. Such devices often face unique issues due to their decentralized nature and limited computing resources for implementing sophisticated compliance mechanisms. By analyzing AI implementations, the paper identifies challenges and proposes the first best practices for legal compliance when developing, deploying, and running AI. The importance of data set compliance is highlighted as a cornerstone for ensuring the trustworthiness, transparency, and explainability of AI systems, which must be aligned with ethical standards set forth in regulatory frameworks such as the AI Act. The insights gained should contribute to the ongoing discourse on the responsible development and deployment of embedded AI systems.

arxiv情報

著者 Julius Schöning,Niklas Kruse
発行日 2025-03-07 16:53:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.ET, H.4.0 | Compliance of AI Systems はコメントを受け付けていません

InDRiVE: Intrinsic Disagreement based Reinforcement for Vehicle Exploration through Curiosity Driven Generalized World Model

要約

モデルベースの強化学習(MBRL)は、データの効率と堅牢性が重要な自律運転の有望なパラダイムとして浮上しています。
しかし、既存のソリューションは、多くの場合、慎重に作成されたタスク固有の外因性報酬に依存しており、一般化を新しいタスクや環境に制限しています。
この論文では、ドリーマーベースのMBRLフレームワーク内で純粋に固有の不一致に基づいた報酬を活用する方法である、インドリブ(車両探査のための固有の不一致に基づく強化)を提案します。
世界モデルのアンサンブルをトレーニングすることにより、エージェントは、タスク固有のフィードバックなしに環境の高い不確実性領域を積極的に調査します。
このアプローチは、タスクの不可知論の潜在的な表現をもたらし、速いゼロショットまたはレーンのフォローや衝突回避などの下流の運転タスクでの微調整が少ないことを可能にします。
見られた環境と目に見えない環境の両方での実験結果は、インドリブがより少ないトレーニングステップを使用しているにもかかわらず、dreamerv2およびdreamerv3ベースラインと比較して、より高い成功率と違反を達成することを示しています。
私たちの調査結果は、堅牢な車両制御行動を学習するための純粋に固有の探索の有効性を強調し、よりスケーラブルで適応性のある自律運転システムへの道を開いています。

要約(オリジナル)

Model-based Reinforcement Learning (MBRL) has emerged as a promising paradigm for autonomous driving, where data efficiency and robustness are critical. Yet, existing solutions often rely on carefully crafted, task specific extrinsic rewards, limiting generalization to new tasks or environments. In this paper, we propose InDRiVE (Intrinsic Disagreement based Reinforcement for Vehicle Exploration), a method that leverages purely intrinsic, disagreement based rewards within a Dreamer based MBRL framework. By training an ensemble of world models, the agent actively explores high uncertainty regions of environments without any task specific feedback. This approach yields a task agnostic latent representation, allowing for rapid zero shot or few shot fine tuning on downstream driving tasks such as lane following and collision avoidance. Experimental results in both seen and unseen environments demonstrate that InDRiVE achieves higher success rates and fewer infractions compared to DreamerV2 and DreamerV3 baselines despite using significantly fewer training steps. Our findings highlight the effectiveness of purely intrinsic exploration for learning robust vehicle control behaviors, paving the way for more scalable and adaptable autonomous driving systems.

arxiv情報

著者 Feeza Khan Khanzada,Jaerock Kwon
発行日 2025-03-07 16:56:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.LG, cs.NE, cs.RO | InDRiVE: Intrinsic Disagreement based Reinforcement for Vehicle Exploration through Curiosity Driven Generalized World Model はコメントを受け付けていません

AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models

要約

大規模な言語モデル(LLM)は、しばしば誤った知識または時代遅れの知識のために幻覚を示します。
したがって、ターゲットを絞った知識の更新を可能にするために、モデル編集方法が登場しました。
これを達成するために、一般的なパラダイムは、最初に影響力のあるパラメーターを見つけてから、摂動を導入してそれらを編集する場所である編集アプローチです。
効果的ですが、現在の研究により、この摂動は、特に連続した編集シナリオで、LLM内の元々保存されていた知識を必然的に混乱させることが実証されています。
これに対処するために、パラメーターに適用する前に、保存された知識のヌル空間に摂動を投影する新しいソリューションであるAlphaeditを紹介します。
この投影により、編集後のLLMの出力が保存された知識について照会された場合、混乱の問題を軽減すると、変更されたLLMの出力が変更されないことを理論的に証明します。
LLAMA3、GPT2-XL、GPT-Jを含むさまざまなLLMに関する広範な実験は、Alphaeditが投影のみの追加コードを1行で追加コードで、最も位置付けた編集方法のパフォーマンスを平均36.4%増加させることを示しています。
私たちのコードは、https://github.com/jianghoucheng/alphaeditで入手できます。

要約(オリジナル)

Large language models (LLMs) often exhibit hallucinations due to incorrect or outdated knowledge. Hence, model editing methods have emerged to enable targeted knowledge updates. To achieve this, a prevailing paradigm is the locating-then-editing approach, which first locates influential parameters and then edits them by introducing a perturbation. While effective, current studies have demonstrated that this perturbation inevitably disrupt the originally preserved knowledge within LLMs, especially in sequential editing scenarios. To address this, we introduce AlphaEdit, a novel solution that projects perturbation onto the null space of the preserved knowledge before applying it to the parameters. We theoretically prove that this projection ensures the output of post-edited LLMs remains unchanged when queried about the preserved knowledge, thereby mitigating the issue of disruption. Extensive experiments on various LLMs, including LLaMA3, GPT2-XL, and GPT-J, show that AlphaEdit boosts the performance of most locating-then-editing methods by an average of 36.4% with a single line of additional code for projection solely. Our code is available at: https://github.com/jianghoucheng/AlphaEdit.

arxiv情報

著者 Junfeng Fang,Houcheng Jiang,Kun Wang,Yunshan Ma,Shi Jie,Xiang Wang,Xiangnan He,Tat-seng Chua
発行日 2025-03-07 17:06:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models はコメントを受け付けていません

SynSUM — Synthetic Benchmark with Structured and Unstructured Medical Records

要約

構造化されたバックグラウンド変数に非構造化された臨床ノートをリンクする合成データセットであるSynsumベンチマークを提示します。
データセットは、表形式変数(症状、診断、根本的な条件など)を含む10,000の人工患者記録と、呼吸器疾患の領域での架空の患者の出会いを説明する関連メモで構成されています。
データの表形式部分は、変数と条件付き確率の間の因果構造の両方が、ドメインの知識に基づく専門家によって提案されているベイジアンネットワークを介して生成されます。
次に、大規模な言語モデル(GPT-4O)に促し、この患者の遭遇に関連する臨床メモを生成し、患者の症状と追加の文脈を説明します。
生成されたノートの品質を評価するために専門家の評価研究の両方を実施し、データセットの表形式とテキストの両方の部分でいくつかの単純な予測モデルを実行し、さらなる研究のためのベースラインを形成します。
Synsum Datasetは、主に、表形式のバックグラウンド変数の存在下での臨床情報抽出に関する研究を促進するように設計されています。これは、ドメインの知識を通じて、テキストから抽出される関心のある概念にリンクできます – 症状はSynsumの場合です。
二次的な使用には、表形式のデータとテキストの両方に対する臨床推論の自動化に関する研究、表形式および/またはテキスト交絡因子の存在下での因果効果の推定、およびマルチモーダル合成データ生成が含まれます。

要約(オリジナル)

We present the SynSUM benchmark, a synthetic dataset linking unstructured clinical notes to structured background variables. The dataset consists of 10,000 artificial patient records containing tabular variables (like symptoms, diagnoses and underlying conditions) and related notes describing the fictional patient encounter in the domain of respiratory diseases. The tabular portion of the data is generated through a Bayesian network, where both the causal structure between the variables and the conditional probabilities are proposed by an expert based on domain knowledge. We then prompt a large language model (GPT-4o) to generate a clinical note related to this patient encounter, describing the patient symptoms and additional context. We conduct both an expert evaluation study to assess the quality of the generated notes, as well as running some simple predictor models on both the tabular and text portions of the dataset, forming a baseline for further research. The SynSUM dataset is primarily designed to facilitate research on clinical information extraction in the presence of tabular background variables, which can be linked through domain knowledge to concepts of interest to be extracted from the text – the symptoms, in the case of SynSUM. Secondary uses include research on the automation of clinical reasoning over both tabular data and text, causal effect estimation in the presence of tabular and/or textual confounders, and multi-modal synthetic data generation.

arxiv情報

著者 Paloma Rabaey,Henri Arno,Stefan Heytens,Thomas Demeester
発行日 2025-03-07 17:09:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SynSUM — Synthetic Benchmark with Structured and Unstructured Medical Records はコメントを受け付けていません

Quantifying the Robustness of Retrieval-Augmented Language Models Against Spurious Features in Grounding Data

要約

堅牢性は、実際のアプリケーションでRAGシステムを展開するための重要な属性となっています。
既存の研究は、明示的なノイズ(ドキュメントセマンティクスなど)に対する堅牢性に焦点を当てていますが、偽の特徴(別名暗黙のノイズ)を見落としています。
以前の作品はLLMSの偽の機能を調査していましたが、それらは特定の機能(形式など)と狭いシナリオ(ICLなど)に限定されています。
この作業では、ragパラダイムにおける偽の特徴の存在を統計的に確認します。これは、セマンティックに依存しない特徴に対するLLMの感度によって引き起こされる堅牢性の問題です。
さらに、偽の特徴の包括的な分類法を提供し、制御された実験を通じてその影響を経験的に定量化します。
さらなる分析により、すべての偽の機能が有害ではなく、時には有益であることさえあることが明らかになります。
複数のLLMにわたる広範な評価結果は、スプリアス機能がRAGの分野で広く困難で挑戦的な問題であることを示唆しています。
コードとデータセットは、将来の研究を促進するためにリリースされます。
すべてのコードとデータを$ \\\ href {https://github.com/maybenotime/rag-spuriousfeatures} {https://github.com/maybenotime/rag-spuriousfeatures} $でリリースします。

要約(オリジナル)

Robustness has become a critical attribute for the deployment of RAG systems in real-world applications. Existing research focuses on robustness to explicit noise (e.g., document semantics) but overlooks spurious features (a.k.a. implicit noise). While previous works have explored spurious features in LLMs, they are limited to specific features (e.g., formats) and narrow scenarios (e.g., ICL). In this work, we statistically confirm the presence of spurious features in the RAG paradigm, a robustness problem caused by the sensitivity of LLMs to semantic-agnostic features. Moreover, we provide a comprehensive taxonomy of spurious features and empirically quantify their impact through controlled experiments. Further analysis reveals that not all spurious features are harmful and they can even be beneficial sometimes. Extensive evaluation results across multiple LLMs suggest that spurious features are a widespread and challenging problem in the field of RAG. The code and dataset will be released to facilitate future research. We release all codes and data at: $\\\href{https://github.com/maybenotime/RAG-SpuriousFeatures}{https://github.com/maybenotime/RAG-SpuriousFeatures}$.

arxiv情報

著者 Shiping Yang,Jie Wu,Wenbiao Ding,Ning Wu,Shining Liang,Ming Gong,Hengyuan Zhang,Dongmei Zhang
発行日 2025-03-07 17:11:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Quantifying the Robustness of Retrieval-Augmented Language Models Against Spurious Features in Grounding Data はコメントを受け付けていません

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

要約

既存の大規模な推論モデル(LRMS)は、大規模な言語モデルの複雑な推論能力を強化する補強学習(RL)の可能性を示しています〜(LLMS)。
数学やコーディングなどの挑戦的なタスクで顕著なパフォーマンスを達成していますが、多くの場合、問題を解決するために内部の知識に依存しています。これは、時間に敏感または知識集約的な質問に不十分な場合があり、不正確さや幻覚につながります。
これに対処するために、LLMSの検索機能を強化するために設計された新しい2段階の結果ベースのRLアプローチである\ textBf {r1-searcher}を提案します。
この方法により、LLMSは外部検索システムを自律的に呼び出して、推論プロセス中に追加の知識にアクセスできます。
私たちのフレームワークは、コールドスタートのためにプロセスの報酬や蒸留を必要とせずに、RLのみに依存しています。
%ドメイン外データセットに効果的に一般化し、ベースモデルと指示モデルの両方をサポートします。
我々の実験は、閉鎖型GPT-4O-MINIと比較しても、私たちの方法が以前の強力なRAGメソッドを大幅に上回ることを示しています。

要約(オリジナル)

Existing Large Reasoning Models (LRMs) have shown the potential of reinforcement learning (RL) to enhance the complex reasoning capabilities of Large Language Models~(LLMs). While they achieve remarkable performance on challenging tasks such as mathematics and coding, they often rely on their internal knowledge to solve problems, which can be inadequate for time-sensitive or knowledge-intensive questions, leading to inaccuracies and hallucinations. To address this, we propose \textbf{R1-Searcher}, a novel two-stage outcome-based RL approach designed to enhance the search capabilities of LLMs. This method allows LLMs to autonomously invoke external search systems to access additional knowledge during the reasoning process. Our framework relies exclusively on RL, without requiring process rewards or distillation for a cold start. % effectively generalizing to out-of-domain datasets and supporting both Base and Instruct models. Our experiments demonstrate that our method significantly outperforms previous strong RAG methods, even when compared to the closed-source GPT-4o-mini.

arxiv情報

著者 Huatong Song,Jinhao Jiang,Yingqian Min,Jie Chen,Zhipeng Chen,Wayne Xin Zhao,Lei Fang,Ji-Rong Wen
発行日 2025-03-07 17:14:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning はコメントを受け付けていません

Demystifying Misconceptions in Social Bots Research

要約

ソーシャルボットに関する研究は、知識を前進させ、最も議論された形式のオンライン操作の1つに対する解決策を提供することを目的としています。
しかし、社会ボットの研究は、曖昧さ、非現実的な期待、一見矛盾しない発見の段階を設定する広範な偏見、誇大宣伝の結果、誤解に悩まされています。
このような問題を克服することは、信頼できる解決策を確保し、科学的方法の妥当性を再確認することに貢献しています。
この貢献では、ソーシャルボットの研究で最近の結果をレビューし、事実上の誤りと方法論的および概念的なバイアスを強調し、改訂します。
さらに重要なことは、一般的な誤解を分かりやすく、社会的ボットの研究がどのように議論されているかについての基本的な点に取り組んでいることです。
私たちの分析は、厳密で公平で責任ある方法で、オンラインの偽情報と操作に関する研究を議論する必要性を表面化します。
この記事は、ソーシャルボット研究の支持者と反対者の両方が使用する一般的な誤った議論を特定し、反論することにより、そのような努力を強化し、この分野での将来の研究のための健全な方法論への方向性を提供します。

要約(オリジナル)

Research on social bots aims at advancing knowledge and providing solutions to one of the most debated forms of online manipulation. Yet, social bot research is plagued by widespread biases, hyped results, and misconceptions that set the stage for ambiguities, unrealistic expectations, and seemingly irreconcilable findings. Overcoming such issues is instrumental towards ensuring reliable solutions and reaffirming the validity of the scientific method. In this contribution, we review some recent results in social bots research, highlighting and revising factual errors as well as methodological and conceptual biases. More importantly, we demystify common misconceptions, addressing fundamental points on how social bots research is discussed. Our analysis surfaces the need to discuss research about online disinformation and manipulation in a rigorous, unbiased, and responsible way. This article bolsters such effort by identifying and refuting common fallacious arguments used by both proponents and opponents of social bots research, as well as providing directions toward sound methodologies for future research in the field.

arxiv情報

著者 Stefano Cresci,Kai-Cheng Yang,Angelo Spognardi,Roberto Di Pietro,Filippo Menczer,Marinella Petrocchi
発行日 2025-03-07 17:23:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, cs.SI | Demystifying Misconceptions in Social Bots Research はコメントを受け付けていません