要約
推論中に追加の計算リソースを活用するテスト時間コンピューティングアプローチは、大きな言語モデルのパフォーマンスを向上させるのに効果的であることが証明されています。
この作業では、隣接する非標識データの局所的な一貫性を活用することにより、テスト時間予測を改善する新しい、直線的にスケーリングされるアプローチであるTestNucを紹介します。その例でのモデルの予測だけでなく、隣接する非標識インスタンスについても検討することにより、入力インスタンスを分類します。
目的の分類、トピックマイニング、ドメインの発見、感情検出にまたがる8つの多様なデータセットにわたってTestNucを評価し、標準の促しや自己整合などのベースライン方法よりも一貫した優位性を実証します。
さらに、TestNucは、既存のテスト時間コンピューティングアプローチとシームレスに統合され、パフォーマンスを大幅に向上させることができます。
私たちの分析により、TestNucは、無効なデータの量を増やし、異なる埋め込みモデルで堅牢に実行し、実際のアプリケーションで実用的であることが明らかになりました。
私たちのコードは、https://github.com/henrypengzou/testnucで入手できます。
要約(オリジナル)
Test-time computing approaches, which leverage additional computational resources during inference, have been proven effective in enhancing large language model performance. This work introduces a novel, linearly scaling approach, TestNUC, that improves test-time predictions by leveraging the local consistency of neighboring unlabeled data-it classifies an input instance by considering not only the model’s prediction on that instance but also on neighboring unlabeled instances. We evaluate TestNUC across eight diverse datasets, spanning intent classification, topic mining, domain discovery, and emotion detection, demonstrating its consistent superiority over baseline methods such as standard prompting and self-consistency. Furthermore, TestNUC can be seamlessly integrated with existing test-time computing approaches, substantially boosting their performance. Our analysis reveals that TestNUC scales effectively with increasing amounts of unlabeled data and performs robustly across different embedding models, making it practical for real-world applications. Our code is available at https://github.com/HenryPengZou/TestNUC.
arxiv情報
著者 | Henry Peng Zou,Zhengyao Gu,Yue Zhou,Yankai Chen,Weizhi Zhang,Liancheng Fang,Yibo Wang,Yangning Li,Kay Liu,Philip S. Yu |
発行日 | 2025-02-26 14:17:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google