要約
大規模な人工知能(AI)モデルは、標準化されたベンチマークにおいてその驚くべき、しばしば「超人的」なパフォーマンスで大きな注目を集めてきた。しかし、これらのモデルが、ヘルスケア、教育、法律など、利害関係の大きい分野で展開されると、しばしば顕著な限界が明らかになる。例えば、入力データの些細な変化に対して脆弱性を示したり、重要な場面で文脈に基づかない判断を示したり、不正確な情報を自信満々に生成または再現することでユーザーの信頼を損なったりする。大規模モデルの適用におけるこれらの課題は、モデルの能力を実世界のアプリケーションのニーズに合わせるために、分野横断的なイノベーションを必要とする。我々は、大規模モデルを用いてユーザーの要求を満たすことを目的としたイノベーションをレイヤーごとに抽象化することで、このギャップに対処するフレームワークを紹介する。複数のケーススタディを通じて、様々な分野の研究者や実務家がこのフレームワークをどのように運用できるかを説明する。また、大規模モデルを有用な「垂直システム」に変換するパイプラインをモジュール化するだけでなく、フレームワークの異なるレイヤー内に存在するダイナミズムも強調する。最後に、本フレームワークが研究者や実務者をどのように導くことができるのかについて、(i)イノベーションの最適な位置付け(例えば、垂直方向に特化した洞察が、垂直方向にとらわれない広範でインパクトのあるイノベーションに力を与えることができる場合)、(ii)見過ごされていた機会の発見(例えば、ベンチマークを追い求めるのではなく、実用的に有用な基礎モデルを開発するために、垂直方向全体で繰り返される問題を発見すること)、(iii)重要な課題の分野横断的なコミュニケーションの促進(例えば、AI開発者、ドメイン専門家、ヒューマンコンピュータインタラクション研究者のための共有語彙を可能にすること)を議論する。
要約(オリジナル)
Large artificial intelligence (AI) models have garnered significant attention for their remarkable, often ‘superhuman’, performance on standardized benchmarks. However, when these models are deployed in high-stakes verticals such as healthcare, education, and law, they often reveal notable limitations. For instance, they exhibit brittleness to minor variations in input data, present contextually uninformed decisions in critical settings, and undermine user trust by confidently producing or reproducing inaccuracies. These challenges in applying large models necessitate cross-disciplinary innovations to align the models’ capabilities with the needs of real-world applications. We introduce a framework that addresses this gap through a layer-wise abstraction of innovations aimed at meeting users’ requirements with large models. Through multiple case studies, we illustrate how researchers and practitioners across various fields can operationalize this framework. Beyond modularizing the pipeline of transforming large models into useful ‘vertical systems’, we also highlight the dynamism that exists within different layers of the framework. Finally, we discuss how our framework can guide researchers and practitioners to (i) optimally situate their innovations (e.g., when vertical-specific insights can empower broadly impactful vertical-agnostic innovations), (ii) uncover overlooked opportunities (e.g., spotting recurring problems across verticals to develop practically useful foundation models instead of chasing benchmarks), and (iii) facilitate cross-disciplinary communication of critical challenges (e.g., enabling a shared vocabulary for AI developers, domain experts, and human-computer interaction scholars).
arxiv情報
著者 | Gaurav Verma,Jiawei Zhou,Mohit Chandra,Srijan Kumar,Munmun De Choudhury |
発行日 | 2025-04-03 17:40:11+00:00 |
arxivサイト | arxiv_id(pdf) |