Rastro-DM: data mining with a trail

要約

この論文では、データ マイニング (DM) プロジェクトを文書化する方法論である Rastro-DM (Trail Data Mining) を提案します。これは、生成されたモデルではなく、その構築の背後にあるプロセスに焦点を当て、証跡 (Rastro) を残すためのものです。
ポルトガル語で)計画された行動、完了した訓練、得られた結果、得られた教訓のこと。
提案された実践は、DM プロセスの方法論的およびパラダイム的な枠組みを確立する CRISP-DM などの DM の構造化方法論を補完するものです。
ベスト プラクティスの適用とその利点は、ブラジル連邦公庫への損害調査プロセスに関連する PDF 文書の分類のために作成された「Cladop」と呼ばれるプロジェクトで説明されています。
プロジェクトのコンテキストで Rastro-DM キットを構築することは、企業全体でトレイルを共有および使用することによって達成される組織的飛躍につながる可能性がある小さなステップです。

要約(オリジナル)

This paper proposes a methodology for documenting data mining (DM) projects, Rastro-DM (Trail Data Mining), with a focus not on the model that is generated, but on the processes behind its construction, in order to leave a trail (Rastro in Portuguese) of planned actions, training completed, results obtained, and lessons learned. The proposed practices are complementary to structuring methodologies of DM, such as CRISP-DM, which establish a methodological and paradigmatic framework for the DM process. The application of best practices and their benefits is illustrated in a project called ‘Cladop’ that was created for the classification of PDF documents associated with the investigative process of damages to the Brazilian Federal Public Treasury. Building the Rastro-DM kit in the context of a project is a small step that can lead to an institutional leap to be achieved by sharing and using the trail across the enterprise.

arxiv情報

著者 Marcus Vinicius Borela de Castro,Remis Balaniuk
発行日 2024-01-08 14:39:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG パーマリンク