Learning representations of learning representations

要約

ICLR カンファレンスは、提出されたすべての論文が公開されているという点で、トップクラスの機械学習カンファレンスの中でも独特です。
ここでは、2017 年から 2024 年までの 24,000 件の ICLR 申請すべての要約と、メタデータ、意思決定スコア、およびカスタムのキーワードベースのラベルで構成される ICLR データセットを紹介します。
このデータセットでは、$k$NN 分類精度の点で、バッグオブワード表現がほとんどの専用文変換モデルよりも優れており、最高のパフォーマンスを誇る言語モデルは TF-IDF をかろうじて上回っていることがわかります。
私たちはこれが NLP コミュニティにとっての課題であると考えています。
さらに、ICLR データセットを使用して機械学習の分野が過去 7 年間でどのように変化したかを調査し、男女バランスがある程度改善されたことがわかりました。
抄録テキストの 2D 埋め込みを使用して、2017 年から 2024 年までの研究テーマの変化を説明し、ICLR への投稿数が最も多かった著者の中からハリネズミとキツネを特定します。

要約(オリジナル)

The ICLR conference is unique among the top machine learning conferences in that all submitted papers are openly available. Here we present the ICLR dataset consisting of abstracts of all 24 thousand ICLR submissions from 2017-2024 with meta-data, decision scores, and custom keyword-based labels. We find that on this dataset, bag-of-words representation outperforms most dedicated sentence transformer models in terms of $k$NN classification accuracy, and the top performing language models barely outperform TF-IDF. We see this as a challenge for the NLP community. Furthermore, we use the ICLR dataset to study how the field of machine learning has changed over the last seven years, finding some improvement in gender balance. Using a 2D embedding of the abstracts’ texts, we describe a shift in research topics from 2017 to 2024 and identify hedgehogs and foxes among the authors with the highest number of ICLR submissions.

arxiv情報

著者 Rita González-Márquez,Dmitry Kobak
発行日 2024-04-12 11:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL, cs.LG パーマリンク