要約
本論文は、現代サンスクリット散文の抽象的テキスト要約モデルを提示する。第1章は「はじめに」と題し、本研究の動機、研究課題、概念的枠組みを示す。サンスクリット語は低リソースの屈折言語である。本論文が調査する主要な研究課題は、サンスクリット語の抽象的なTSを開発する上での課題は何かということである。この主要な研究課題に答えるために、4つの異なるテーマに基づくサブ・クエスチョンを本論文で提起した。第2章「文献レビュー」では、これまでの研究を調査した。第3章「データの準備」では、第3のテーマの残りの3つの質問に答える。この章では、言語モデルと要約モデルの学習におけるデータ収集と前処理の課題を報告する。第4章では、モデルの学習と推論、そしてそこで得られた結果を報告する。本研究では、サンスクリット語の抽象的テキスト要約のためのパイプラインを開始し、開発の各段階で直面した課題を報告した。各テーマに基づくリサーチクエスチョンには、重要なリサーチクエスチョンに答えるために回答している。
要約(オリジナル)
This thesis presents Abstractive Text Summarization models for contemporary Sanskrit prose. The first chapter, titled Introduction, presents the motivation behind this work, the research questions, and the conceptual framework. Sanskrit is a low-resource inflectional language. The key research question that this thesis investigates is what the challenges in developing an abstractive TS for Sanskrit. To answer the key research questions, sub-questions based on four different themes have been posed in this work. The second chapter, Literature Review, surveys the previous works done. The third chapter, data preparation, answers the remaining three questions from the third theme. It reports the data collection and preprocessing challenges for both language model and summarization model trainings. The fourth chapter reports the training and inference of models and the results obtained therein. This research has initiated a pipeline for Sanskrit abstractive text summarization and has reported the challenges faced at every stage of the development. The research questions based on every theme have been answered to answer the key research question.
arxiv情報
著者 | Shagun Sinha |
発行日 | 2025-01-03 18:12:13+00:00 |
arxivサイト | arxiv_id(pdf) |