Differentiating Emigration from Return Migration of Scholars Using Name-Based Nationality Detection Models

要約

ほとんどのWebおよびデジタルトレースデータには、プライバシーの懸念による個人の国籍に関する情報は含まれていません。
国籍に関するデータの欠如は、移民研究の課題を引き起こす可能性があります。
移民の出身国については不確かであるため、左検閲の問題につながる可能性があります。
移民イベントを観察したら、国籍を知っていれば、それを返品移行と区別することができます。
利用可能なデータ、つまりフルネームで国籍を検出する方法を提案します。
私たちは、研究者の移住を研究する際に一般的なアプローチである学問の国と比較して、検出された国籍を使用しています。
ウィキペディアから260万個のユニークな名前の国家ペアを収集し、トレーニングデータとして使用するために3つの粒度レベルのある国籍の家族に分類しました。
キャラクターベースの機械学習モデルを使用して、最も広い範囲で84%、最も粒状の国レベルの分類で67%の加重F1スコアを達成しました。
実証研究では、訓練されたテストされたモデルを使用して、国籍をScopusデータの800​​万人以上の学者のフルネームに割り当てました。
私たちの結果は、特に米国、オーストラリア、カナダなどのより多様な学術労働力を持つ国では、最初の出版物の国を国籍の代理として使用することで、リターンフローの規模が過小評価されていることが示されています。
アカデミックオリジンに基づいて33%とは対照的に、米国からの移民の約48%が復帰移民であることがわかりました。
最近の期間には、提携が米国から中国に一貫して変化し、移民と見なされている学者の79%が、中国語の学問的起源で41%とは対照的に中国語の名前を持っています。
左検閲の問題に対処するための提案された方法は、デジタルトレースデータを使用して移行を研究する他の研究にとって有益です。

要約(オリジナル)

Most web and digital trace data do not include information about an individual’s nationality due to privacy concerns. The lack of data on nationality can create challenges for migration research. It can lead to a left-censoring issue since we are uncertain about the migrant’s country of origin. Once we observe an emigration event, if we know the nationality, we can differentiate it from return migration. We propose methods to detect the nationality with the least available data, i.e., full names. We use the detected nationality in comparison with the country of academic origin, which is a common approach in studying the migration of researchers. We gathered 2.6 million unique name-nationality pairs from Wikipedia and categorized them into families of nationalities with three granularity levels to use as our training data. Using a character-based machine learning model, we achieved a weighted F1 score of 84% for the broadest and 67% for the most granular, country-level categorization. In our empirical study, we used the trained and tested model to assign nationality to 8+ million scholars’ full names in Scopus data. Our results show that using the country of first publication as a proxy for nationality underestimates the size of return flows, especially for countries with a more diverse academic workforce, such as the USA, Australia, and Canada. We found that around 48% of emigration from the USA was return migration once we used the country of name origin, in contrast to 33% based on academic origin. In the most recent period, 79% of scholars whose affiliation has consistently changed from the USA to China, and are considered emigrants, have Chinese names in contrast to 41% with a Chinese academic origin. Our proposed methods for addressing left-censoring issues are beneficial for other research that uses digital trace data to study migration.

arxiv情報

著者 Faeze Ghorbanpour,Thiago Zordan Malaguth,Aliakbar Akbaritabar
発行日 2025-05-09 15:03:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL, cs.MM | Differentiating Emigration from Return Migration of Scholars Using Name-Based Nationality Detection Models はコメントを受け付けていません

Large Language Models Are Struggle to Cope with Unreasonability in Math Problems

要約

最近の研究では、数学と推論におけるLLMSの印象的なパフォーマンスが実証されています。
ただし、内部の矛盾や欠陥のある仮定など、型破りな条件下で数学の問題に対処するLLMの能力は、ほとんど未踏のままです。
この論文では、数学の問題における不当性を認識して対応するLLMの能力を評価するために設計された新しいベンチマーク不合理数学問題(UMP)を提案します。
ベンチマークは、多様なタイプにわたる不合理な数学の質問の慎重にキュレーションされたコレクションで構成されています。
19 LLMをカバーする広範な実験に基づいて、GPT-4oなどの最先端のモデルでさえ、UMPで0.6のパフォーマンスが限られているのに対し、DeepSeek-R1などの推論モデルは考え直しや不安定であることがわかります。
さらに、不合理な入力の認識を改善し、この挑戦​​的な環境でのLLMの可能性と制限の両方に光を当てるための戦略を探求します。

要約(オリジナル)

Recent research have demonstrated LLMs’ impressive performance in math and reasoning. However, the capacity of LLMs to address math problems under unconventional conditions, such as internal inconsistencies and flawed assumptions, remains largely unexplored. In this paper, we propose a novel benchmark Unreasonable Math Problem (UMP) designed to assess LLMs’ ability to recognize and respond to unreasonability in math problem. The benchmark consists of a carefully curated collection of unreasonable math questions across diverse types. Based on extensive experiments covering 19 LLMs, we observe that even state-of-the-art models such as GPT-4o achieve only limited performance of 0.6 in UMP, while reasoning models such as DeepSeek-R1 are prone to overthinking and unstable. We further explore strategies for improving the recognition of unreasonable inputs, shedding light on both the possibility and limitations of LLMs in this challenging setting.

arxiv情報

著者 Jingyuan Ma,Damai Dai,Zihang Yuan,Rui li,Weilin Luo,Bin Wang,Qun Liu,Lei Sha,Zhifang Sui
発行日 2025-05-09 15:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models Are Struggle to Cope with Unreasonability in Math Problems はコメントを受け付けていません

LLMs Get Lost In Multi-Turn Conversation

要約

大規模な言語モデル(LLMS)は会話型インターフェイスです。
そのため、LLMは、ユーザーが目前のタスクを完全に指定できる場合だけでなく、マルチターンの会話交換を通じて必要なものを定義、探索、洗練するのに役立つ可能性があります。
LLMの会話ログの分析により、ユーザーの命令では頻繁に特化が頻繁に発生することが確認されていますが、LLM評価は主に単一ターン、完全に指定された命令設定に焦点を当てています。
この作業では、大規模なシミュレーション実験を実行して、シングルおよびマルチターン設定でLLMパフォーマンスを比較します。
私たちの実験では、テストされたすべてのトップオープンウェイトおよび閉じた重量LLMが、シングルターンよりもマルチターン会話でパフォーマンスが大幅に低く、6世代のタスクで平均39%の低下が示されていることを確認しています。
200,000以上のシミュレートされた会話の分析により、パフォーマンスの劣化が2つのコンポーネントに分解されます。適性のわずかな損失と信頼性の大幅な増加です。
LLMはしばしば早い段階で仮定をし、最終的なソリューションを生成しようとしていることがわかります。
簡単に言えば、 *LLMSが会話で間違った方向を進むと、迷子になり、回復しないことがわかります。

要約(オリジナル)

Large Language Models (LLMs) are conversational interfaces. As such, LLMs have the potential to assist their users not only when they can fully specify the task at hand, but also to help them define, explore, and refine what they need through multi-turn conversational exchange. Although analysis of LLM conversation logs has confirmed that underspecification occurs frequently in user instructions, LLM evaluation has predominantly focused on the single-turn, fully-specified instruction setting. In this work, we perform large-scale simulation experiments to compare LLM performance in single- and multi-turn settings. Our experiments confirm that all the top open- and closed-weight LLMs we test exhibit significantly lower performance in multi-turn conversations than single-turn, with an average drop of 39% across six generation tasks. Analysis of 200,000+ simulated conversations decomposes the performance degradation into two components: a minor loss in aptitude and a significant increase in unreliability. We find that LLMs often make assumptions in early turns and prematurely attempt to generate final solutions, on which they overly rely. In simpler terms, we discover that *when LLMs take a wrong turn in a conversation, they get lost and do not recover*.

arxiv情報

著者 Philippe Laban,Hiroaki Hayashi,Yingbo Zhou,Jennifer Neville
発行日 2025-05-09 15:21:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | LLMs Get Lost In Multi-Turn Conversation はコメントを受け付けていません

k-LLMmeans: Scalable, Stable, and Interpretable Text Clustering via LLM-based Centroids

要約

K-Llmmeansを紹介します。これは、LLMで生成された要約をクラスター重心として活用するテキストクラスタリング用のK-Meansアルゴリズムの新しい変更を紹介し、純粋に数値的な平均で見逃されたセマンティックなニュアンスをキャプチャします。
この設計により、セマンティックな解釈可能性を高め、最新のLLMベースのクラスタリングに典型的なスケーラビリティと不安定性の問題を回避しながら、K-meansのコア最適化特性を保持します。
既存の方法とは異なり、当社のアプローチは、データセットサイズのLLM使用量を増加させず、透明な中間出力を生成します。
さらに、ストリーミングテキストの効率的でリアルタイムのクラスタリングのために、ミニバッチバリアントで拡張します。
複数のデータセット、埋め込み、およびLLMにわたる広範な実験は、K-llmmeansが一貫してK-Meansやその他の従来のベースラインを上回り、LLMコールのほんの一部を使用して、最先端のLLMベースのクラスタリングに匹敵する結果を達成することを示しています。
最後に、シーケンシャルテキストストリームに関するケーススタディを提示し、stackexchangeから構築された新しいベンチマークデータセットを導入して、テキストストリームクラスタリング方法を評価します。

要約(オリジナル)

We introduce k-LLMmeans, a novel modification of the k-means algorithm for text clustering that leverages LLM-generated summaries as cluster centroids, capturing semantic nuances often missed by purely numerical averages. This design preserves the core optimization properties of k-means while enhancing semantic interpretability and avoiding the scalability and instability issues typical of modern LLM-based clustering. Unlike existing methods, our approach does not increase LLM usage with dataset size and produces transparent intermediate outputs. We further extend it with a mini-batch variant for efficient, real-time clustering of streaming text. Extensive experiments across multiple datasets, embeddings, and LLMs show that k-LLMmeans consistently outperforms k-means and other traditional baselines and achieves results comparable to state-of-the-art LLM-based clustering, with a fraction of the LLM calls. Finally, we present a case study on sequential text streams and introduce a new benchmark dataset constructed from StackExchange to evaluate text-stream clustering methods.

arxiv情報

著者 Jairo Diaz-Rodriguez
発行日 2025-05-09 15:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML | k-LLMmeans: Scalable, Stable, and Interpretable Text Clustering via LLM-based Centroids はコメントを受け付けていません

Towards Robust Few-Shot Text Classification Using Transformer Architectures and Dual Loss Strategies

要約

少ないショットテキスト分類には、低リソース環境で重要なアプリケーション値があります。
このペーパーでは、トランスベースのモデルの分類パフォーマンスを改善するために、適応微調整、対照学習、および正則化の最適化を組み合わせた戦略を提案します。
少ない2.0データセットでの実験は、T5-Small、Deberta-V3、およびRoberta-Baseが少ないショットタスク、特に5ショット設定でうまく機能することを示しています。
また、この実験では、異なる関係カテゴリの分類難易度に大きな違いがあることがわかりました。
一部のカテゴリには、ファジーセマンティック境界または複雑な特徴分布があるため、標準のクロスエントロピー損失がカテゴリを区別するために必要な識別情報を学習することが困難です。
対照的な損失と正則化の損失を導入することにより、モデルの一般化能力が強化され、少ないショット環境で過剰適合の問題を効果的に軽減します。
さらに、研究結果は、より強力な自己触媒メカニズムを備えたトランスモデルまたは生成アーキテクチャを使用することで、少数のショット分類の安定性と精度を改善するのに役立つことを示しています。

要約(オリジナル)

Few-shot text classification has important application value in low-resource environments. This paper proposes a strategy that combines adaptive fine-tuning, contrastive learning, and regularization optimization to improve the classification performance of Transformer-based models. Experiments on the FewRel 2.0 dataset show that T5-small, DeBERTa-v3, and RoBERTa-base perform well in few-shot tasks, especially in the 5-shot setting, which can more effectively capture text features and improve classification accuracy. The experiment also found that there are significant differences in the classification difficulty of different relationship categories. Some categories have fuzzy semantic boundaries or complex feature distributions, making it difficult for the standard cross entropy loss to learn the discriminative information required to distinguish categories. By introducing contrastive loss and regularization loss, the generalization ability of the model is enhanced, effectively alleviating the overfitting problem in few-shot environments. In addition, the research results show that the use of Transformer models or generative architectures with stronger self-attention mechanisms can help improve the stability and accuracy of few-shot classification.

arxiv情報

著者 Xu Han,Yumeng Sun,Weiqiang Huang,Hongye Zheng,Junliang Du
発行日 2025-05-09 15:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Towards Robust Few-Shot Text Classification Using Transformer Architectures and Dual Loss Strategies はコメントを受け付けていません

Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning

要約

閉ループ最適化を通じて推奨システムを備えた大規模な言語モデル(LLMS)をブリッジする一般的な強化学習フレームワークであるRec-R1を提案します。
プロンプトと監視付きの微調整(SFT)とは異なり、REC-R1は、GPT-4Oなどの独自モデルからの合成SFTデータに依存することなく、固定ブラックボックス推奨モデルからのフィードバックを使用してLLM生成を直接最適化します。
これにより、データの蒸留に必要なかなりのコストと努力が回避されます。
REC-R1の有効性を検証するために、製品検索と順次推奨という2つの代表的なタスクで評価します。
実験結果は、REC-R1が一貫してプロンプトベースの方法とSFTベースの方法を上回るだけでなく、BM25などの単純なレトリバーで使用する場合でも、強力な識別ベースラインよりも大きな利益を達成することを示しています。
さらに、REC-R1は、SFTとは異なり、LLMの汎用機能を保持します。
これらの発見は、壊滅的な忘却なしに継続的なタスク固有の適応の有望な基盤としてRec-R1を示唆しています。

要約(オリジナル)

We propose Rec-R1, a general reinforcement learning framework that bridges large language models (LLMs) with recommendation systems through closed-loop optimization. Unlike prompting and supervised fine-tuning (SFT), Rec-R1 directly optimizes LLM generation using feedback from a fixed black-box recommendation model, without relying on synthetic SFT data from proprietary models such as GPT-4o. This avoids the substantial cost and effort required for data distillation. To verify the effectiveness of Rec-R1, we evaluate it on two representative tasks: product search and sequential recommendation. Experimental results demonstrate that Rec-R1 not only consistently outperforms prompting- and SFT-based methods, but also achieves significant gains over strong discriminative baselines, even when used with simple retrievers such as BM25. Moreover, Rec-R1 preserves the general-purpose capabilities of the LLM, unlike SFT, which often impairs instruction-following and reasoning. These findings suggest Rec-R1 as a promising foundation for continual task-specific adaptation without catastrophic forgetting.

arxiv情報

著者 Jiacheng Lin,Tian Wang,Kun Qian
発行日 2025-05-09 15:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning はコメントを受け付けていません

Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study

要約

自動化されたヘイトスピーチ検出への関心が高まっているにもかかわらず、既存のアプローチのほとんどは、オンラインコンテンツの言語の多様性を見落としています。
Llama、Aya、Qwen、Bloomzなどの多言語チューニングされた大規模な言語モデルは、言語間で有望な機能を提供しますが、ゼロショットと少数のショットプロンプトを通じてヘイトスピーチを特定する上での有効性は露出度が低いままです。
この作業は、いくつかのプロンプトテクニックを利用して微調整されたエンコーダーモデルと比較して、8つの非英語言語でLLMプロンプトベースの検出を評価します。
ほとんどの現実世界の評価セットで微調整されたエンコーダーモデルの背後に遅れをとるゼロショットと数ショットのプロンプトが、ヘイトスピーチ検出のための機能テストのより良い一般化を達成することを示します。
また、私たちの研究は、迅速な設計が重要な役割を果たすことを明らかにしており、各言語はパフォーマンスを最大化するためにカスタマイズされたプロンプト技術を必要とすることがよくあります。

要約(オリジナル)

Despite growing interest in automated hate speech detection, most existing approaches overlook the linguistic diversity of online content. Multilingual instruction-tuned large language models such as LLaMA, Aya, Qwen, and BloomZ offer promising capabilities across languages, but their effectiveness in identifying hate speech through zero-shot and few-shot prompting remains underexplored. This work evaluates LLM prompting-based detection across eight non-English languages, utilizing several prompting techniques and comparing them to fine-tuned encoder models. We show that while zero-shot and few-shot prompting lag behind fine-tuned encoder models on most of the real-world evaluation sets, they achieve better generalization on functional tests for hate speech detection. Our study also reveals that prompt design plays a critical role, with each language often requiring customized prompting techniques to maximize performance.

arxiv情報

著者 Faeze Ghorbanpour,Daryna Dementieva,Alexander Fraser
発行日 2025-05-09 16:00:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.MM | Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study はコメントを受け付けていません

Estimating Quality in Therapeutic Conversations: A Multi-Dimensional Natural Language Processing Framework

要約

クライアントとセラピストの間の関与は、治療的成功の重要な決定要因です。
テキストの成績証明書に基づいたカウンセリングセッションのエンゲージメントの質を客観的に分類する多次元自然言語処理(NLP)フレームワークを提案します。
253の動機付けのインタビュートランスクリプト(150の高品質、103低品質)を使用して、4つのドメインに42の機能を抽出しました:会話ダイナミクス、トピックアライメントとしてのセマンティックな類似性、センチメント分類、および質問検出。
ランダムフォレスト(RF)、キャットブースト、サポートベクターマシン(SVM)を含む分類器を、層状の5倍の交差検証を使用してハイパーパラメーターを調整および訓練し、ホールドアウトテストセットで評価しました。
バランスの取れた(非能力)データでは、RFは最高の分類精度(76.7%)を達成し、SVMは最高のAUC(85.4%)を達成しました。
Smote-Tomekの増強後、パフォーマンスは大幅に向上しました。RFは最大88.9%の精度、90.0%F1スコア、94.6%AUCを達成し、SVMは81.1%の精度、83.1%F1スコア、および93.6%AUCに達しました。
拡張データの結果は、将来の大規模アプリケーションにおけるフレームワークの可能性を反映しています。
フィーチャーの貢献により、会話のダイナミクスとセマンティックな類似性がクライアントとセラピストの間のセマンティックな類似性が明らかになりました。
フレームワークは、元のデータセットと拡張データセット全体で堅牢であり、F1スコアとリコールの一貫した改善を実証しました。
現在、テキストベースでは、フレームワークは、より多くの全体的な評価のために、将来のマルチモーダル拡張機能(声のトーン、顔の影響など)をサポートしています。
この作業では、治療セッションのエンゲージメント品質を評価するためのスケーラブルなデータ駆動型の方法を紹介し、臨床医に仮想および対面の治療相互作用の品質を高めるためのリアルタイムフィードバックを提供します。

要約(オリジナル)

Engagement between client and therapist is a critical determinant of therapeutic success. We propose a multi-dimensional natural language processing (NLP) framework that objectively classifies engagement quality in counseling sessions based on textual transcripts. Using 253 motivational interviewing transcripts (150 high-quality, 103 low-quality), we extracted 42 features across four domains: conversational dynamics, semantic similarity as topic alignment, sentiment classification, and question detection. Classifiers, including Random Forest (RF), Cat-Boost, and Support Vector Machines (SVM), were hyperparameter tuned and trained using a stratified 5-fold cross-validation and evaluated on a holdout test set. On balanced (non-augmented) data, RF achieved the highest classification accuracy (76.7%), and SVM achieved the highest AUC (85.4%). After SMOTE-Tomek augmentation, performance improved significantly: RF achieved up to 88.9% accuracy, 90.0% F1-score, and 94.6% AUC, while SVM reached 81.1% accuracy, 83.1% F1-score, and 93.6% AUC. The augmented data results reflect the potential of the framework in future larger-scale applications. Feature contribution revealed conversational dynamics and semantic similarity between clients and therapists were among the top contributors, led by words uttered by the client (mean and standard deviation). The framework was robust across the original and augmented datasets and demonstrated consistent improvements in F1 scores and recall. While currently text-based, the framework supports future multimodal extensions (e.g., vocal tone, facial affect) for more holistic assessments. This work introduces a scalable, data-driven method for evaluating engagement quality of the therapy session, offering clinicians real-time feedback to enhance the quality of both virtual and in-person therapeutic interactions.

arxiv情報

著者 Alice Rueda,Argyrios Perivolaris,Niloy Roy,Dylan Weston,Sarmed Shaya,Zachary Cote,Martin Ivanov,Bazen G. Teferra,Yuqi Wu,Sirisha Rambhatla,Divya Sharma,Andrew Greenshaw,Rakesh Jetly,Yanbo Zhang,Bo Cao,Reza Samavi,Sridhar Krishnan,Venkat Bhat
発行日 2025-05-09 16:03:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Estimating Quality in Therapeutic Conversations: A Multi-Dimensional Natural Language Processing Framework はコメントを受け付けていません

Phonetic accommodation and inhibition in a dynamic neural field model

要約

短期の音声宿泊施設は、アクセントの変更の背後にある基本的なドライバーですが、別のスピーカーの音声からのリアルタイムの入力は、対話者の音声計画表現をどのように形成しますか?
私たちは、運動計画と記憶力学のための動的な神経フィールド方程式に基づいた、音声計画表現の変化の計算モデルを前進させます。
デュアル層の計画/メモリフィールドは、1つの試行でモデルトーカーへの収束が、よりゆっくりと進化するメモリフィールドでの抑制効果が遅れたため、その後の試験で発散を引き起こす可能性があると予測しています。
モデルの予測は、実験的なパイロット研究からの宿泊施設の経験的パターンと比較されます。
観察された経験的現象は、抑制性記憶力学の大きさの変動に対応している可能性があり、音韻および/または社会言語的圧力による調節に対する抵抗を反映する可能性があることを示しています。
短期の音声的調節と健全な変化との関係に対するこれらの結果の意味について説明します。

要約(オリジナル)

Short-term phonetic accommodation is a fundamental driver behind accent change, but how does real-time input from another speaker’s voice shape the speech planning representations of an interlocutor? We advance a computational model of change in speech planning representations during phonetic accommodation, grounded in dynamic neural field equations for movement planning and memory dynamics. A dual-layer planning/memory field predicts that convergence to a model talker on one trial can trigger divergence on subsequent trials, due to a delayed inhibitory effect in the more slowly evolving memory field. The model’s predictions are compared with empirical patterns of accommodation from an experimental pilot study. We show that observed empirical phenomena may correspond to variation in the magnitude of inhibitory memory dynamics, which could reflect resistance to accommodation due to phonological and/or sociolinguistic pressures. We discuss the implications of these results for the relations between short-term phonetic accommodation and sound change.

arxiv情報

著者 Sam Kirkham,Patrycja Strycharczuk,Rob Davies,Danielle Welburn
発行日 2025-05-09 16:15:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Phonetic accommodation and inhibition in a dynamic neural field model はコメントを受け付けていません

From Millions of Tweets to Actionable Insights: Leveraging LLMs for User Profiling

要約

コンテンツ分析によるソーシャルメディアのユーザープロファイリングは、誤った情報検出、エンゲージメント予測、ヘイトスピーチモニタリング、ユーザーの動作モデリングなどのタスクにとって重要です。
ただし、ツイートの要約、属性ベースのプロファイリング、潜在的な表現学習などの既存のプロファイリング手法は、大きな制限に直面しています。多くの場合、転送性がなく、解釈不可能な機能を生成する、大きなラベル付きデータセットを必要とするか、適応性を制限する剛性のある定義済みのカテゴリに依存します。
ドメインを定義するステートメントを活用する新しい大規模言語モデル(LLM)ベースのアプローチを導入します。これは、プロファイリングの基礎としてドメインの重要な柱を概説する重要な特性として機能します。
2段階の方法では、最初にドメイン固有のナレッジベースを使用した半監視フィルタリングを採用し、次に抽象的(合成された説明)と抽出(代表的なツイート選択)ユーザープロファイルの両方を生成します。
最小限の人間の検証でLLMSの固有の知識を活用することにより、私たちのアプローチはドメイン全体で適応可能になり、大きなラベル付きデータセットの必要性を減らします。
私たちの方法は、解釈可能な自然言語ユーザープロファイルを生成し、LLMSの推論と下流のソーシャルネットワークタスクの知識機能をロック解除するスケールに広範なユーザーデータを凝縮します。
ペルシャの政治Twitter(X)データセットと、人間の検証を備えたLLMベースの評価フレームワークを提供します。
実験結果は、私たちの方法が最先端のLLMベースおよび従来の方法を9.8%上回ることを示しており、柔軟で適応性のある解釈可能なユーザープロファイルの作成における有効性を示しています。

要約(オリジナル)

Social media user profiling through content analysis is crucial for tasks like misinformation detection, engagement prediction, hate speech monitoring, and user behavior modeling. However, existing profiling techniques, including tweet summarization, attribute-based profiling, and latent representation learning, face significant limitations: they often lack transferability, produce non-interpretable features, require large labeled datasets, or rely on rigid predefined categories that limit adaptability. We introduce a novel large language model (LLM)-based approach that leverages domain-defining statements, which serve as key characteristics outlining the important pillars of a domain as foundations for profiling. Our two-stage method first employs semi-supervised filtering with a domain-specific knowledge base, then generates both abstractive (synthesized descriptions) and extractive (representative tweet selections) user profiles. By harnessing LLMs’ inherent knowledge with minimal human validation, our approach is adaptable across domains while reducing the need for large labeled datasets. Our method generates interpretable natural language user profiles, condensing extensive user data into a scale that unlocks LLMs’ reasoning and knowledge capabilities for downstream social network tasks. We contribute a Persian political Twitter (X) dataset and an LLM-based evaluation framework with human validation. Experimental results show our method significantly outperforms state-of-the-art LLM-based and traditional methods by 9.8%, demonstrating its effectiveness in creating flexible, adaptable, and interpretable user profiles.

arxiv情報

著者 Vahid Rahimzadeh,Ali Hamzehpour,Azadeh Shakery,Masoud Asadpour
発行日 2025-05-09 16:51:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.SI, I.2.7 | From Millions of Tweets to Actionable Insights: Leveraging LLMs for User Profiling はコメントを受け付けていません