Autoregressive Pre-Training on Pixels and Texts

要約

視覚情報とテキスト情報の統合は、言語モデルの進歩において有望な方向性を示している。本論文では、文書画像とテキストの両方で事前訓練された自己回帰フレームワークの中で、視覚とテキストの両方の言語の二重モダリティを探求する。我々の手法はマルチモーダルな学習戦略を採用しており、回帰ヘッドによる次のパッチ予測を通じて視覚データを利用し、分類ヘッドによる次のトークン予測を通じてテキストデータを利用する。我々は、これら2つのモダリティ間の相互作用と、それらの組み合わせがモデルの性能に与える影響を理解することに重点を置いている。広範なベンチマークにおける我々の広範な評価により、ビジュアルデータとテキストデータの両方を組み込むことで、ピクセルベースの言語モデルの性能が大幅に向上することが示された。驚くべきことに、視覚データのみで訓練された一方向のピクセルベースモデルが、いくつかの言語理解タスクにおいて、最先端の双方向モデルと同等の結果を達成できることがわかった。この研究は、より効果的な言語モデリングのために、視覚的モダリティとテキスト的モダリティを統合することの未開発の可能性を明らかにするものである。私たちのコード、データ、モデルのチェックポイントは୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛で公開しています。

要約(オリジナル)

The integration of visual and textual information represents a promising direction in the advancement of language models. In this paper, we explore the dual modality of language–both visual and textual–within an autoregressive framework, pre-trained on both document images and texts. Our method employs a multimodal training strategy, utilizing visual data through next patch prediction with a regression head and/or textual data through next token prediction with a classification head. We focus on understanding the interaction between these two modalities and their combined impact on model performance. Our extensive evaluation across a wide range of benchmarks shows that incorporating both visual and textual data significantly improves the performance of pixel-based language models. Remarkably, we find that a unidirectional pixel-based model trained solely on visual data can achieve comparable results to state-of-the-art bidirectional models on several language understanding tasks. This work uncovers the untapped potential of integrating visual and textual modalities for more effective language modeling. We release our code, data, and model checkpoints at \url{https://github.com/ernie-research/pixelgpt}.

arxiv情報

著者 Yekun Chai,Qingyi Liu,Jingwu Xiao,Shuohuan Wang,Yu Sun,Hua Wu
発行日 2024-10-03 17:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects

要約

未知の環境におけるオブジェクトナビゲーションは、実世界のアプリケーションに具現化エージェントを導入する上で極めて重要である。大規模なシーンデータセット、より高速なシミュレータ、より強力なモデルにより、我々は大きな進歩を目の当たりにしてきたが、先行研究は主に限られたシーンタイプとターゲットオブジェクトに焦点を当てている。本論文では、多数のシーンタイプにおける多様なターゲットオブジェクトへのナビゲートという新しいタスクを研究する。この問題のベンチマークとして、81の異なるタイプにわたる4,614のシーンを含む大規模なシーンデータセットDivSceneを提示する。このデータセットを用いて、模倣学習により大型視覚言語モデル(LVLM)を微調整することで、エンドツーエンドの具現化エージェントNatVLMを構築する。LVLMは、環境からの過去の観測を取り込み、次の行動を生成するように訓練される。また、LVLMをチューニングする際に、より良いパフォーマンスを得るために、行動予測のCoT説明トレースを導入する。我々の広範な実験により、BFSプランナにより構築された最短経路を模倣学習することで、人間の監視なしに高性能なLVLMベースのエージェントを構築できることがわかった。我々のエージェントはGPT-4oを20%以上上回る成功率を達成した。また、我々のエージェントの汎化能力を示す様々な分析を行う。

要約(オリジナル)

Object navigation in unknown environments is crucial for deploying embodied agents in real-world applications. While we have witnessed huge progress due to large-scale scene datasets, faster simulators, and stronger models, previous studies mainly focus on limited scene types and target objects. In this paper, we study a new task of navigating to diverse target objects in a large number of scene types. To benchmark the problem, we present a large-scale scene dataset, DivScene, which contains 4,614 scenes across 81 different types. With the dataset, we build an end-to-end embodied agent, NatVLM, by fine-tuning a Large Vision Language Model (LVLM) through imitation learning. The LVLM is trained to take previous observations from the environment and generate the next actions. We also introduce CoT explanation traces of the action prediction for better performance when tuning LVLMs. Our extensive experiments find that we can build a performant LVLM-based agent through imitation learning on the shortest paths constructed by a BFS planner without any human supervision. Our agent achieves a success rate that surpasses GPT-4o by over 20%. Meanwhile, we carry out various analyses showing the generalization ability of our agent.

arxiv情報

著者 Zhaowei Wang,Hongming Zhang,Tianqing Fang,Ye Tian,Yue Yang,Kaixin Ma,Xiaoman Pan,Yangqiu Song,Dong Yu
発行日 2024-10-03 17:49:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.RO | コメントする

Towards Foundation Models and Few-Shot Parameter-Efficient Fine-Tuning for Volumetric Organ Segmentation

要約

近年、基礎モデルや、大規模モデルを下流のタスクに転送する事前学習と適応のパラダイムが、ボリュームメトリックな医用画像セグメンテーションのために注目されている。しかし、現在の転移学習戦略は、転移学習のための完全なファインチューニングに専念しており、ターゲットタスクのラベル付きデータが乏しい場合、多大なリソースを必要とし、最適とは言えない結果をもたらす可能性がある。このため、実際の臨床現場では、独自の解決策を開発するためのデータや計算資源に制約があるため、その適用が困難である。この課題に対処するため、我々は、医療画像セグメンテーション基礎モデルを適応させるための、新規かつ現実的なシナリオである、Few-Shot Efficient Fine-Tuning (FSEFT)を定式化する。この設定では、適応の際のデータ効率とパラメータ効率の両方の重要な役割を考慮する。オープンアクセスCT臓器セグメンテーションソースで事前に訓練された基礎モデルをベースに、パラメータ効率的ファインチューニングとブラックボックスアダプタを活用して、このような課題に対処することを提案する。さらに、本研究では、密な予測タスクに適した空間ブラックボックスアダプタや、タスク固有の事前知識を活用した制約付き転移推論を含む、新しい効率的な適応手法を導入する。我々の包括的な転移学習実験により、医用画像セグメンテーションにおける基礎モデルの適合性が確認され、数ショットのシナリオにおける一般的な微調整戦略の限界が明らかになった。

要約(オリジナル)

The recent popularity of foundation models and the pre-train-and-adapt paradigm, where a large-scale model is transferred to downstream tasks, is gaining attention for volumetric medical image segmentation. However, current transfer learning strategies devoted to full fine-tuning for transfer learning may require significant resources and yield sub-optimal results when the labeled data of the target task is scarce. This makes its applicability in real clinical settings challenging since these institutions are usually constrained on data and computational resources to develop proprietary solutions. To address this challenge, we formalize Few-Shot Efficient Fine-Tuning (FSEFT), a novel and realistic scenario for adapting medical image segmentation foundation models. This setting considers the key role of both data- and parameter- efficiency during adaptation. Building on a foundation model pre-trained on open-access CT organ segmentation sources, we propose leveraging Parameter-Efficient Fine-Tuning and black-box Adapters to address such challenges. Furthermore, novel efficient adaptation methodologies are introduced in this work, which include Spatial black-box Adapters that are more appropriate for dense prediction tasks and constrained transductive inference, leveraging task-specific prior knowledge. Our comprehensive transfer learning experiments confirm the suitability of foundation models in medical image segmentation and unveil the limitations of popular fine-tuning strategies in few-shot scenarios.

arxiv情報

著者 Julio Silva-Rodríguez,Jose Dolz,Ismail Ben Ayed
発行日 2024-10-03 17:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Contrastive Localized Language-Image Pre-Training

要約

コントラスト言語画像事前学習(CLIP)は、様々なアプリケーションを促進する画像/テキスト表現を生成するビジョンエンコーダを訓練するための有名な手法である。近年、CLIPは、言語相互作用のための画像入力を接続するためのマルチモーダル大規模言語モデル(MLLM)の視覚バックボーンとして広く採用されている。視覚-言語基盤モデルとしてのCLIPの成功は、ウェブクローリングされたノイズの多いテキスト注釈を画像レベルで整列させることに依存している。それにもかかわらず、このような基準は、特に領域レベルの理解がMLLMに要求されるような、きめ細かい視覚表現を必要とする下流のタスクには不十分となる可能性がある。本論文では、CLIPのローカリゼーション能力をいくつかの進歩により向上させる。CLIPを領域-テキスト対比損失とモジュールで補完することで、CLOC(Contrastive Localized Language-Image Pre-training)と呼ばれる事前学習法を提案する。CLOCでは、空間的なヒントが与えられると、エンコーダが領域表現に変換しやすい画像埋め込みを生成する。大規模な事前学習をサポートするために、視覚的に強化され、空間的に局所化されたキャプションフレームワークを設計し、領域テキスト擬似ラベルを効果的に生成する。CLOCは、数十億の注釈付き画像までスケールアップすることで、画像領域の認識と検索タスクのための高品質な領域埋め込みを可能にし、特に参照と接地タスクにおいて、MLLMを強化するためのCLIPのドロップイン置き換えとなり得る。

要約(オリジナル)

Contrastive Language-Image Pre-training (CLIP) has been a celebrated method for training vision encoders to generate image/text representations facilitating various applications. Recently, CLIP has been widely adopted as the vision backbone of multimodal large language models (MLLMs) to connect image inputs for language interactions. The success of CLIP as a vision-language foundation model relies on aligning web-crawled noisy text annotations at image levels. Nevertheless, such criteria may become insufficient for downstream tasks in need of fine-grained vision representations, especially when region-level understanding is demanding for MLLMs. In this paper, we improve the localization capability of CLIP with several advances. We propose a pre-training method called Contrastive Localized Language-Image Pre-training (CLOC) by complementing CLIP with region-text contrastive loss and modules. We formulate a new concept, promptable embeddings, of which the encoder produces image embeddings easy to transform into region representations given spatial hints. To support large-scale pre-training, we design a visually-enriched and spatially-localized captioning framework to effectively generate region-text pseudo-labels at scale. By scaling up to billions of annotated images, CLOC enables high-quality regional embeddings for image region recognition and retrieval tasks, and can be a drop-in replacement of CLIP to enhance MLLMs, especially on referring and grounding tasks.

arxiv情報

著者 Hong-You Chen,Zhengfeng Lai,Haotian Zhang,Xinze Wang,Marcin Eichner,Keen You,Meng Cao,Bowen Zhang,Yinfei Yang,Zhe Gan
発行日 2024-10-03 17:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | コメントする

NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation

要約

映像の奥行き推定は、時間的に一貫した奥行きを推測することを目的としている。1つのアプローチは、幾何学的制約を持つ各映像上の単一画像モデルを微調整することであるが、これは非効率的であり、ロバスト性に欠ける。もう一つの方法は、データから一貫性を強制する学習であり、これはよく設計されたモデルと十分なビデオ深度データを必要とする。この2つの課題を解決するために、様々な単一画像モデルによって推定された一貫性のない奥行きをプラグアンドプレイで安定化させるNVDS+を紹介する。また、大規模なVideo Depth in the Wild (VDW)データセットを精緻化する。このデータセットには14,203本の動画が含まれ、200万フレームを超える。さらに、前方予測と後方予測を適応的に融合することで、整合性を向上させる双方向推論戦略を設計する。我々は、様々なアプリケーションのために、小規模から大規模までのモデルファミリーをインスタンス化する。本手法をVDWデータセットと3つの公開ベンチマークで評価する。さらに汎用性を証明するために、NVDS+をビデオのセマンティックセグメンテーションや、ボケレンダリング、新しいビュー合成、3D再構成のようないくつかの下流アプリケーションに拡張する。実験結果は、我々の手法が一貫性、精度、効率性において大幅な改善を達成したことを示している。我々の研究は、学習ベースのビデオ深度推定のための強固なベースラインとデータ基盤として役立つ。コードとデータセットはhttps://github.com/RaymondWang987/NVDS。

要約(オリジナル)

Video depth estimation aims to infer temporally consistent depth. One approach is to finetune a single-image model on each video with geometry constraints, which proves inefficient and lacks robustness. An alternative is learning to enforce consistency from data, which requires well-designed models and sufficient video depth data. To address both challenges, we introduce NVDS+ that stabilizes inconsistent depth estimated by various single-image models in a plug-and-play manner. We also elaborate a large-scale Video Depth in the Wild (VDW) dataset, which contains 14,203 videos with over two million frames, making it the largest natural-scene video depth dataset. Additionally, a bidirectional inference strategy is designed to improve consistency by adaptively fusing forward and backward predictions. We instantiate a model family ranging from small to large scales for different applications. The method is evaluated on VDW dataset and three public benchmarks. To further prove the versatility, we extend NVDS+ to video semantic segmentation and several downstream applications like bokeh rendering, novel view synthesis, and 3D reconstruction. Experimental results show that our method achieves significant improvements in consistency, accuracy, and efficiency. Our work serves as a solid baseline and data foundation for learning-based video depth estimation. Code and dataset are available at: https://github.com/RaymondWang987/NVDS

arxiv情報

著者 Yiran Wang,Min Shi,Jiaqi Li,Chaoyi Hong,Zihao Huang,Juewen Peng,Zhiguo Cao,Jianming Zhang,Ke Xian,Guosheng Lin
発行日 2024-10-03 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Loong: Generating Minute-level Long Videos with Autoregressive Language Models

要約

分単位の長い動画を生成することは、望ましいが難しい。自己回帰型大規模言語モデル(LLM)は、自然言語処理の領域において、トークンの首尾一貫した長いシーケンスの生成において大きな成功を収めているが、動画生成のための自己回帰型LLMの探索は、数秒の短い動画の生成に限られている。本研究では、自己回帰LLMに基づく動画生成器が長い動画を生成することを妨げる課題について深い分析を行う。観察と分析に基づき、分単位の動画を生成できる新しい自己回帰型LLMベースの動画生成器Loongを提案する。具体的には、テキストトークンとビデオトークンを自己回帰LLMの統一シーケンスとしてモデル化し、ゼロからモデルを学習する。長時間の動画学習における損失の不均衡問題を緩和するために、損失再重み付けスキームを用いた漸進的な短時間から長時間の学習を提案する。さらに、ビデオトークンの再エンコードやサンプリング戦略などの推論戦略を検討し、推論中のエラー蓄積を減少させる。我々の提案するLoongは、10秒間の動画で学習可能であり、結果によって示されるように、テキストプロンプトを条件とする分レベルの長い動画を生成するために拡張可能である。より多くのサンプルはhttps://epiphqny.github.io/Loong-video。

要約(オリジナル)

It is desirable but challenging to generate content-rich long videos in the scale of minutes. Autoregressive large language models (LLMs) have achieved great success in generating coherent and long sequences of tokens in the domain of natural language processing, while the exploration of autoregressive LLMs for video generation is limited to generating short videos of several seconds. In this work, we conduct a deep analysis of the challenges that prevent autoregressive LLM-based video generators from generating long videos. Based on the observations and analysis, we propose Loong, a new autoregressive LLM-based video generator that can generate minute-long videos. Specifically, we model the text tokens and video tokens as a unified sequence for autoregressive LLMs and train the model from scratch. We propose progressive short-to-long training with a loss re-weighting scheme to mitigate the loss imbalance problem for long video training. We further investigate inference strategies, including video token re-encoding and sampling strategies, to diminish error accumulation during inference. Our proposed Loong can be trained on 10-second videos and be extended to generate minute-level long videos conditioned on text prompts, as demonstrated by the results. More samples are available at: https://epiphqny.github.io/Loong-video.

arxiv情報

著者 Yuqing Wang,Tianwei Xiong,Daquan Zhou,Zhijie Lin,Yang Zhao,Bingyi Kang,Jiashi Feng,Xihui Liu
発行日 2024-10-03 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations

要約

我々は、視覚言語モデル(VLM)の内部表現を調査し、モデルサイズとトレーニングの進歩にもかかわらず、根強い課題である幻覚に対処する。VLMの内部画像表現を言語語彙に投影し、幻覚物体よりも現実物体に対する出力確率が高いことを確認する。さらに、これらの出力確率を用いて、現実の物体を空間的に定位させる。このアプローチを基に、幻覚物体特徴に対して画像特徴を線形に直交させることで幻覚を除去する知識消去アルゴリズムを導入する。COCO2014データセットにおいて、モデルの潜在表現に的を絞った編集を行うことで、性能を維持したまま幻覚を最大25.7%削減できることを示す。この結果は、VLMの潜在表現をより深く理解することで、信頼性が向上し、ゼロショットセグメンテーションのような新しい機能が可能になることを示している。

要約(オリジナル)

We investigate the internal representations of vision-language models (VLMs) to address hallucinations, a persistent challenge despite advances in model size and training. We project VLMs’ internal image representations to their language vocabulary and observe more confident output probabilities on real objects than hallucinated objects. We additionally use these output probabilities to spatially localize real objects. Building on this approach, we introduce a knowledge erasure algorithm that removes hallucinations by linearly orthogonalizing image features with respect to hallucinated object features. We show that targeted edits to a model’s latent representations can reduce hallucinations by up to 25.7% on the COCO2014 dataset while preserving performance. Our findings demonstrate how a deeper understanding of VLMs’ latent representations can enhance reliability and enable novel capabilities, such as zero-shot segmentation.

arxiv情報

著者 Nick Jiang,Anish Kachinthaya,Suzie Petryk,Yossi Gandelsman
発行日 2024-10-03 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | コメントする

Flash-Splat: 3D Reflection Removal with Flash Cues and Gaussian Splats

要約

透過光と反射光を分離するための、シンプルで効果的なアプローチを紹介する。我々の重要な洞察は、最新の逆レンダリング手法(例えば、~3Dガウス・スプラッティング)によって提供される強力で新しいビュー合成機能によって、対になっていない測定値を用いてフラッシュ/非フラッシュ反射分離を行うことができるということである。広範な実世界実験を通して、我々は、我々の方法であるフラッシュ・スプラットが、透過シーンと反射シーンの両方を3Dで正確に再構成することを実証した。本手法は、照明制御を活用しない既存の3D反射分離法を大きく上回る。我々のプロジェクトのウェブページはhttps://flash-splat.github.io/。

要約(オリジナル)

We introduce a simple yet effective approach for separating transmitted and reflected light. Our key insight is that the powerful novel view synthesis capabilities provided by modern inverse rendering methods (e.g.,~3D Gaussian splatting) allow one to perform flash/no-flash reflection separation using unpaired measurements — this relaxation dramatically simplifies image acquisition over conventional paired flash/no-flash reflection separation methods. Through extensive real-world experiments, we demonstrate our method, Flash-Splat, accurately reconstructs both transmitted and reflected scenes in 3D. Our method outperforms existing 3D reflection separation methods, which do not leverage illumination control, by a large margin. Our project webpage is at https://flash-splat.github.io/.

arxiv情報

著者 Mingyang Xie,Haoming Cai,Sachin Shah,Yiran Xu,Brandon Y. Feng,Jia-Bin Huang,Christopher A. Metzler
発行日 2024-10-03 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Achieving Fairness in Predictive Process Analytics via Adversarial Learning

要約

ビジネスプロセスの予測分析は、組織にとって重要なものとなっており、プロセスのリアルタイムな運用サポートを提供している。しかし、これらのアルゴリズムは、偏った変数(例えば、性別や国籍)、すなわち差別を体現する変数に基づいているため、しばしば不公正な予測を行う。本論文では、予測ビジネスプロセス分析にデビアス段階を統合し、予測が偏った変数に影響されないようにするという課題に取り組む。我々のフレームワークは、4つのケーススタディで評価され、予測値に対する偏った変数の寄与が大幅に減少することを示す。提案された技術は、プロセスマイニングにおける公平性の最新技術とも比較され、我々のフレームワークが、より良い予測品質を保持しながら、より強化された公平性のレベルを可能にすることを示す。

要約(オリジナル)

Predictive business process analytics has become important for organizations, offering real-time operational support for their processes. However, these algorithms often perform unfair predictions because they are based on biased variables (e.g., gender or nationality), namely variables embodying discrimination. This paper addresses the challenge of integrating a debiasing phase into predictive business process analytics to ensure that predictions are not influenced by biased variables. Our framework leverages on adversial debiasing is evaluated on four case studies, showing a significant reduction in the contribution of biased variables to the predicted value. The proposed technique is also compared with the state of the art in fairness in process mining, illustrating that our framework allows for a more enhanced level of fairness, while retaining a better prediction quality.

arxiv情報

著者 Massimiliano de Leoni,Alessandro Padella
発行日 2024-10-03 15:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, J.1 | コメントする

PARAMANU-AYN: Pretrain from scratch or Continual Pretraining of LLMs for Legal Domain Adaptation?

要約

本稿では、インドの法律判例文書に限定して学習させた法律言語モデルのコレクションであるParamanu-Aynを紹介する。この9,700万パラメータの自己回帰(AR)デコーダのみのモデルは、単一のGPUでコンテキストサイズ8,192、わずか185時間でゼロから事前学習され、41.35の効率的なMFUを達成した。また、法律分野に特化したBPEトークナイザーも開発しました。このモデルをパープレキシティとゼロショットタスクを用いて評価したところ、説明を伴う事例判断予測と抽象的な事例要約を行うことができた。Paramanu-AynはLlama-2 7BとGemini-Proよりも72倍小さいにもかかわらず、説明付き事例判断予測タスクのテスト精度を2ポイント近く上回った。ゼロショット抽象的要約では、固定長要約(5000トークン)を生成するデコーダのみのLLMを、BLEUとMETEORメトリクスで10%ポイント以上、BERTScoreで4%ポイント近く上回った。さらに、ゼロショットのコモンセンスベンチマークと数学ベンチマークで評価した結果、Paramanu-Aynは法律文書のみで学習したにもかかわらず、AGIEVAL-AQuA-RATとAGIEVAL-SAT-MathタスクにおいてLlama-1、Llama-2、Falconを凌駕する優れた結果を示しました。また、法律条文生成、法律草案作成、判例要約など、10,763の多様な法律タスクに対して、我々のモデルをインストラクションチューニングした。Paramanu-Ayn-instructモデルは、GPT-3.5-Turboにより、明瞭性、関連性、完全性、法的推論指標において10点満点中8点以上のスコアを獲得した。また、GPT-3.5-Turboでは、明確性、関連性、完全性、法的推論指標において10点満点中8点以上を獲得した。したがって、我々は、強いドメインに特化した生成言語モデル(法律など)に対して、ゼロからドメインに特化した事前学習を行うことは、より費用対効果が高く、環境に優しく、より大規模なモデルとの競争力を維持し、あるいは法律ドメインのタスクにLLMを適応させるよりも優れていると結論付けた。

要約(オリジナル)

In this paper, we present Paramanu-Ayn, a collection of legal language models trained exclusively on Indian legal case documents. This 97-million-parameter Auto-Regressive (AR) decoder-only model was pretrained from scratch with a context size of 8192 on a single GPU for just 185 hours, achieving an efficient MFU of 41.35. We also developed a legal domain specialized BPE tokenizer. We evaluated our model using perplexity and zero-shot tasks: case judgment prediction with explanation and abstractive case summarization. Paramanu-Ayn outperformed Llama-2 7B and Gemini-Pro in case judgment prediction with explanation task on test accuracy by nearly 2 percentage points, despite being 72 times smaller. In zero-shot abstractive summarization, it surpassed decoder-only LLMs generating fixed-length summaries (5000 tokens) by over 10 percentage points in BLEU and METEOR metrics, and by nearly 4 percentage points in BERTScore. Further evaluations on zero-shot commonsense and mathematical benchmarks showed that Paramanu-Ayn excelled despite being trained exclusively on legal documents, outperforming Llama-1, Llama-2, and Falcon on AGIEVAL-AQuA-RAT and AGIEVAL-SAT-Math tasks. We also instruction-tuned our model on 10,763 diverse legal tasks, including legal clause generation, legal drafting, case summarization, etc. The Paramanu-Ayn-instruct model scored above 8 out of 10 in clarity, relevance, completeness, and legal reasoning metrics by GPT-3.5-Turbo. We found that our models, were able to learn drafting knowledge and generalize to draft legal contracts and legal clauses with limited instruction-tuning. Hence, we conclude that for a strong domain-specialized generative language model (such as legal), domain specialized pretraining from scratch is more cost effective, environmentally friendly, and remains competitive with larger models or even better than adapting LLMs for legal domain tasks.

arxiv情報

著者 Mitodru Niyogi,Arnab Bhattacharya
発行日 2024-10-03 16:01:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする