Augmenting Holistic Review in University Admission using Natural Language Processing for Essays and Recommendation Letters

要約

多くの非常に選抜された教育機関の大学入学では、総合的な審査プロセスが採用されており、優秀で多様なクラスを構成するために、保護された属性(人種、性別など)、成績、エッセイ、推薦状など、申請書のあらゆる側面が考慮されます。
この研究では、機械学習 (ML) モデルを使用して、保護された属性が入学決定の予測にどの程度影響を与えるか、またテキスト情報 (個人の作文、教師の推薦など) が学校での保護された属性の損失をどの程度代替できるかを経験的に評価します。
モデル。
2022 年から 2023 年のサイクルで、米国の厳選された教育機関の学部入学事務局への 14,915 人の志願者からのデータを使用したところ、ML モデルから保護された属性を除外すると、入学予測のパフォーマンスが大幅に低下することがわかりました。
TF-IDF 表現と潜在ディリクレ割り当て (LDA) モデルの両方を介してテキスト情報を含めると、モデルのパフォーマンスが部分的に回復しますが、同様に多様なクラスを受け入れるための完全な代替手段は提供されないようです。
特に、テキストはジェンダーの多様性に役立ちますが、URM 申請者の割合は保護された属性の除外によって深刻な影響を受け、テキスト情報から生成された新しい属性を含めてもこのパフォーマンスの損失は回復されません。

要約(オリジナル)

University admission at many highly selective institutions uses a holistic review process, where all aspects of the application, including protected attributes (e.g., race, gender), grades, essays, and recommendation letters are considered, to compose an excellent and diverse class. In this study, we empirically evaluate how influential protected attributes are for predicting admission decisions using a machine learning (ML) model, and in how far textual information (e.g., personal essay, teacher recommendation) may substitute for the loss of protected attributes in the model. Using data from 14,915 applicants to an undergraduate admission office at a selective U.S. institution in the 2022-2023 cycle, we find that the exclusion of protected attributes from the ML model leads to substantially reduced admission-prediction performance. The inclusion of textual information via both a TF-IDF representation and a Latent Dirichlet allocation (LDA) model partially restores model performance, but does not appear to provide a full substitute for admitting a similarly diverse class. In particular, while the text helps with gender diversity, the proportion of URM applicants is severely impacted by the exclusion of protected attributes, and the inclusion of new attributes generated from the textual information does not recover this performance loss.

arxiv情報

著者 Jinsook Lee,Bradon Thymes,Joyce Zhou,Thorsten Joachims,Rene F. Kizilcec
発行日 2023-06-30 11:51:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク