要約
タイトル:Angler:機械翻訳のモデル改善を優先するための支援ツール
要約:
– 機械学習(ML)モデルは、現実世界で予期しない方法で失敗することがありますが、すべてのモデルの失敗が等しく重要ではありません。
– 有限の時間とリソースがあるため、ML研究者は、モデルのデバッグと改善に優先順位を付ける必要があります。
– Appleの13人のML研究者とのインタビューにより、研究者はエラーの性質、範囲、およびユーザーへの影響を推定するために小さなターゲットテストセットを作成することがわかりました。
– 機械翻訳モデルのケーススタディでこの洞察を発展させ、優先順位を付けるためのインタラクティブなビジュアル分析ツールであるAnglerを開発しました。
– 機械翻訳の7人の専門家を対象にしたユーザースタディで、Anglerを使用して、入力スペースが無限であり、信頼できるモデル品質の信号を取得するのが高価である場合の優先順位付けの実践を理解しました。
– 研究では、参加者は数量的なサマリー統計を分析し、文章を読んでデータを定性的に評価することにより、より興味深く、ユーザーに焦点を当てた仮説を形成することができました。
要約(オリジナル)
Machine learning (ML) models can fail in unexpected ways in the real world, but not all model failures are equal. With finite time and resources, ML practitioners are forced to prioritize their model debugging and improvement efforts. Through interviews with 13 ML practitioners at Apple, we found that practitioners construct small targeted test sets to estimate an error’s nature, scope, and impact on users. We built on this insight in a case study with machine translation models, and developed Angler, an interactive visual analytics tool to help practitioners prioritize model improvements. In a user study with 7 machine translation experts, we used Angler to understand prioritization practices when the input space is infinite, and obtaining reliable signals of model quality is expensive. Our study revealed that participants could form more interesting and user-focused hypotheses for prioritization by analyzing quantitative summary statistics and qualitatively assessing data by reading sentences.
arxiv情報
著者 | Samantha Robertson,Zijie J. Wang,Dominik Moritz,Mary Beth Kery,Fred Hohman |
発行日 | 2023-04-12 16:43:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI