Characterizing and Classifying Developer Forum Posts with their Intentions

要約

開発者コミュニティの急速な成長に伴い、オンライン技術フォーラムへの投稿の量も急速に増加しており、ユーザーが有用な投稿をフィルタリングして重要な情報を見つけることが困難になっています。
タグは、ユーザーが興味のある投稿を見つけたり、検索エンジンがクエリに従って最も関連性の高い投稿をインデックスしたりするための簡潔な機能ディメンションを提供します。
ただし、ほとんどのタグは技術的な観点 (プログラム言語、プラットフォーム、ツールなど) のみに焦点を当てています。
ほとんどの場合、オンライン開発者コミュニティのフォーラム投稿は、問題を解決する、アドバイスを求める、情報を共有するなどの作成者の意図を明らかにします。投稿の意図をモデル化することで、現在のタグ分類に追加の次元を提供できます。
過去の研究を参照し、業界の観点から学ぶことで、技術フォーラムの投稿の意図に対する洗練された分類法を作成します。
オンライン フォーラムから抽出されたサンプル投稿データセットに対する手動のラベル付けと分析を通じて、投稿の構成 (コード、エラー メッセージ) とその意図との関連性を理解します。
さらに、手動研究からインスピレーションを得て、ポストの意図を自動的に予測する事前トレーニング済みのトランスフォーマーベースのモデルを設計します。
当社の意図予測フレームワークの最良のバージョンは、マイクロ F1 スコア 0.589、トップ 1 ~ 3 の精度 62.6% ~ 87.8%、平均 AUC 0.787 を達成しており、最先端のベースライン アプローチを上回っています。
フォーラム投稿の意図に関する当社の特徴付けと自動分類は、フォーラム管理者やサードパーティ ツール開発者が技術フォーラムでの投稿の整理と検索を改善するのに役立ちます。
注釈付きのデータセットとコードを補足資料パッケージでリリースしました。

要約(オリジナル)

With the rapid growth of the developer community, the amount of posts on online technical forums has been growing rapidly, which poses difficulties for users to filter useful posts and find important information. Tags provide a concise feature dimension for users to locate their interested posts and for search engines to index the most relevant posts according to the queries. However, most tags are only focused on the technical perspective (e.g., program language, platform, tool). In most cases, forum posts in online developer communities reveal the author’s intentions to solve a problem, ask for advice, share information, etc. The modeling of the intentions of posts can provide an extra dimension to the current tag taxonomy. By referencing previous studies and learning from industrial perspectives, we create a refined taxonomy for the intentions of technical forum posts. Through manual labeling and analysis on a sampled post dataset extracted from online forums, we understand the relevance between the constitution of posts (code, error messages) and their intentions. Furthermore, inspired by our manual study, we design a pre-trained transformer-based model to automatically predict post intentions. The best variant of our intention prediction framework, which achieves a Micro F1-score of 0.589, Top 1-3 accuracy of 62.6% to 87.8%, and an average AUC of 0.787, outperforms the state-of-the-art baseline approach. Our characterization and automated classification of forum posts regarding their intentions may help forum maintainers or third-party tool developers improve the organization and retrieval of posts on technical forums. We have released our annotated dataset and codes in our supplementary material package.

arxiv情報

著者 Xingfang Wu,Eric Laufer,Heng Li,Foutse Khomh,Santhosh Srinivasan,Jayden Luo
発行日 2023-12-21 20:17:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SE パーマリンク