Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages

要約

言語識別(LI)は、さまざまな自然言語処理タスクにとって重要であり、感情分析、機械翻訳、情報検索などのアプリケーションの基本的なステップとして機能します。
インドのような多言語社会、特にソーシャルメディアに参加する若者の間では、テキストがコード混合を示すことが多く、地元の言語と英語を異なる言語レベルでブレンドします。
この現象は、特に言語が単一の単語内で混ざり合う場合、LIシステムに手ごわい課題を提示します。
インド南部で流行しているドラヴィダ語は、豊富な形態学的構造を持っているが、デジタルプラットフォームでの過小評価に苦しんでおり、コミュニケーションのためにローマまたはハイブリッドスクリプトの採用につながります。
このペーパーでは、Dravidian言語での単語レベルのLIの課題に対処することを目的とした共有タスクの迅速な方法を紹介します。
この作業では、GPT-3.5ターボを活用して、大規模な言語モデルが単語を正しいカテゴリに正しく分類できるかどうかを理解しました。
私たちの調査結果は、カンナダモデルがほとんどのメトリックでタミルモデルを常に上回っており、カンナダ語のインスタンスを特定して分類する際の精度と信頼性が高いことを示していることを示しています。
対照的に、タミル語モデルは中程度のパフォーマンスを示し、特に精度とリコールの改善が必要です。

要約(オリジナル)

Language Identification (LI) is crucial for various natural language processing tasks, serving as a foundational step in applications such as sentiment analysis, machine translation, and information retrieval. In multilingual societies like India, particularly among the youth engaging on social media, text often exhibits code-mixing, blending local languages with English at different linguistic levels. This phenomenon presents formidable challenges for LI systems, especially when languages intermingle within single words. Dravidian languages, prevalent in southern India, possess rich morphological structures yet suffer from under-representation in digital platforms, leading to the adoption of Roman or hybrid scripts for communication. This paper introduces a prompt based method for a shared task aimed at addressing word-level LI challenges in Dravidian languages. In this work, we leveraged GPT-3.5 Turbo to understand whether the large language models is able to correctly classify words into correct categories. Our findings show that the Kannada model consistently outperformed the Tamil model across most metrics, indicating a higher accuracy and reliability in identifying and categorizing Kannada language instances. In contrast, the Tamil model showed moderate performance, particularly needing improvement in precision and recall.

arxiv情報

著者 Aniket Deroy,Subhankar Maity
発行日 2025-03-12 16:57:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages はコメントを受け付けていません

PolyPythias: Stability and Outliers across Fifty Language Model Pre-Training Runs

要約

言語モデルの安定性トレーニング前の安定性とダウンストリームパフォーマンスへの影響は依然として研究されています。
以前の研究は、トレーニングプロセスが、ランダムシードなどの初期条件のわずかな変動に応じて、かなり異なる結果をもたらすことができることを示しています。
重要なことに、研究コミュニティには、特にデコーダーのみの言語モデルの場合、トレーニング前の安定性を体系的に調査するのに十分なリソースとツールがまだ不足しています。
Pythia Model Suiteの45の新しいトレーニングランのセットであるPolypythiasを紹介します。5つのモデルサイズにわたって14mから410mのパラメーターにわたって9種類の新しいシードで、リリースする約7kの新しいチェックポイントが生まれます。
これらの新しい45トレーニングの実行を使用して、すでに利用可能な5に加えて、(i)下流のパフォーマンス、(ii)学習した言語表現、および(iii)トレーニングフェーズの出現において、シードによって決定されるさまざまな初期条件の影響、つまりパラメーターの初期化とデータ順序の影響を研究します。
一般的なスケーリング動作に加えて、分析は一般に、モデルサイズと初期条件の両方で非常に一貫したトレーニングダイナミクスを明らかにしています。
さらに、各モデルの新しいシードにより、外れ値トレーニングの実行を特定し、その特性を描写できます。
私たちの調査結果は、これらの方法を使用してトレーニングの安定性を予測する可能性を示しています。

要約(オリジナル)

The stability of language model pre-training and its effects on downstream performance are still understudied. Prior work shows that the training process can yield significantly different results in response to slight variations in initial conditions, e.g., the random seed. Crucially, the research community still lacks sufficient resources and tools to systematically investigate pre-training stability, particularly for decoder-only language models. We introduce the PolyPythias, a set of 45 new training runs for the Pythia model suite: 9 new seeds across 5 model sizes, from 14M to 410M parameters, resulting in about 7k new checkpoints that we release. Using these new 45 training runs, in addition to the 5 already available, we study the effects of different initial conditions determined by the seed — i.e., parameters’ initialisation and data order — on (i) downstream performance, (ii) learned linguistic representations, and (iii) emergence of training phases. In addition to common scaling behaviours, our analyses generally reveal highly consistent training dynamics across both model sizes and initial conditions. Further, the new seeds for each model allow us to identify outlier training runs and delineate their characteristics. Our findings show the potential of using these methods to predict training stability.

arxiv情報

著者 Oskar van der Wal,Pietro Lesci,Max Muller-Eberstein,Naomi Saphra,Hailey Schoelkopf,Willem Zuidema,Stella Biderman
発行日 2025-03-12 16:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | PolyPythias: Stability and Outliers across Fifty Language Model Pre-Training Runs はコメントを受け付けていません

Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks

要約

大規模な言語モデル(LLM)は、言語エージェントが簡単なタスクに取り組むことを可能にする顕著な進歩を示しています。
ただし、複雑でマルチステップの長距離タスクにそれらを適用することは依然として課題です。
最近の作業では、高レベルの計画を低レベルの実行から分離することで成功を収めています。これにより、モデルは高レベルの計画目標と低レベルの実行の詳細のバランスをとることができます。
ただし、LLMSは本質的にこのタスクの訓練を受けていないため、正確な計画を生成することは依然として困難です。
これに対処するために、LLMベースのエージェントに明示的な計画を組み込んだ新しいフレームワークであり、新しい合成データ生成法を通じて計画生成を強化するスケーラブルな方法を導入する計画と行動を提案します。
プランとアクトは、ユーザーの目標を達成するための構造化された高レベルの計画を生成するプランナーモデルと、これらの計画を環境固有のアクションに変換するエグゼクティアモデルで構成されています。
プランナーを効果的にトレーニングするために、一般化を強化するために多様で広範な例で拡張された、実現可能な計画を備えた地上の真実の軌跡に注釈を付ける合成データ生成方法を紹介します。
Webナビゲーションを代表的な長老計画環境として使用して計画とアクションを評価し、Webarena-Liteベンチマークで最先端の54%の成功率を示します。

要約(オリジナル)

Large language models (LLMs) have shown remarkable advancements in enabling language agents to tackle simple tasks. However, applying them for complex, multi-step, long-horizon tasks remains a challenge. Recent work have found success by separating high-level planning from low-level execution, which enables the model to effectively balance high-level planning objectives and low-level execution details. However, generating accurate plans remains difficult since LLMs are not inherently trained for this task. To address this, we propose Plan-and-Act, a novel framework that incorporates explicit planning into LLM-based agents and introduces a scalable method to enhance plan generation through a novel synthetic data generation method. Plan-and-Act consists of a Planner model which generates structured, high-level plans to achieve user goals, and an Executor model that translates these plans into environment-specific actions. To train the Planner effectively, we introduce a synthetic data generation method that annotates ground-truth trajectories with feasible plans, augmented with diverse and extensive examples to enhance generalization. We evaluate Plan-and-Act using web navigation as a representative long-horizon planning environment, demonstrating a state-of the-art 54% success rate on the WebArena-Lite benchmark.

arxiv情報

著者 Lutfi Eren Erdogan,Nicholas Lee,Sehoon Kim,Suhong Moon,Hiroki Furuta,Gopala Anumanchipalli,Kurt Keutzer,Amir Gholami
発行日 2025-03-12 17:40:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks はコメントを受け付けていません

MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System

要約

検索された生成(RAG)は、大規模な言語モデル(LLM)を実行可能な補完として機能させながら、パイプライン内のテキストチャンキングの重要な側面を見落としていることがよくあります。
このペーパーでは、最初に、境界の明確さと塊の粘着性を含む二重計測評価方法を紹介し、チャンキング品質の直接的な定量化を可能にします。
この評価方法を活用して、複雑なコンテキストニュアンスを処理する際の従来の意味塊およびセマンティックチャンキングの固有の制限を強調し、それによってLLMをチャンキングプロセスに統合する必要性を実証します。
LLMベースのアプローチにおける計算効率とチャンキング精度の間の固有のトレードオフに対処するために、3段階の処理メカニズムで構成される粒度を意識した混合物(MOC)フレームワークを考案します。
特に、私たちの目的は、チャンキングの正規表現の構造化されたリストの生成に向けてチャンカーを導くことです。これは、元のテキストからチャンクを抽出するために採用されます。
広範な実験は、提案された指標とMOCフレームワークの両方がチャンクタスクの課題を効果的に解決し、RAGシステムのパフォーマンスを向上させながらチャンキングカーネルを明らかにすることを示しています。

要約(オリジナル)

Retrieval-Augmented Generation (RAG), while serving as a viable complement to large language models (LLMs), often overlooks the crucial aspect of text chunking within its pipeline. This paper initially introduces a dual-metric evaluation method, comprising Boundary Clarity and Chunk Stickiness, to enable the direct quantification of chunking quality. Leveraging this assessment method, we highlight the inherent limitations of traditional and semantic chunking in handling complex contextual nuances, thereby substantiating the necessity of integrating LLMs into chunking process. To address the inherent trade-off between computational efficiency and chunking precision in LLM-based approaches, we devise the granularity-aware Mixture-of-Chunkers (MoC) framework, which consists of a three-stage processing mechanism. Notably, our objective is to guide the chunker towards generating a structured list of chunking regular expressions, which are subsequently employed to extract chunks from the original text. Extensive experiments demonstrate that both our proposed metrics and the MoC framework effectively settle challenges of the chunking task, revealing the chunking kernel while enhancing the performance of the RAG system.

arxiv情報

著者 Jihao Zhao,Zhiyuan Ji,Zhaoxin Fan,Hanyu Wang,Simin Niu,Bo Tang,Feiyu Xiong,Zhiyu Li
発行日 2025-03-12 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System はコメントを受け付けていません

Revisiting Medical Image Retrieval via Knowledge Consolidation

要約

人工知能とデジタル医学がますますヘルスケアシステムに浸透するにつれて、倫理的、安全で効果的な実装を確保するためには、堅牢なガバナンスフレームワークが不可欠です。
これに関連して、医療画像検索は臨床データ管理の重要な要素になり、意思決定と患者情報の保護において重要な役割を果たします。
既存のメソッドは通常、ブレンド埋め込みから代表的なハッシュコードを生成できないボトルネック機能を使用してハッシュ関数を学習します。
対照的なハッシュは優れたパフォーマンスを示していますが、現在のアプローチは、カテゴリラベルを使用して正/負のペアを作成するために、画像の取得を分類タスクとして扱うことがよくあります。
さらに、モデルが外部OODクエリまたは敵対的な攻撃に遭遇した場合、多くの方法が分散排出(OOD)の問題に対処できません。
この作業では、階層的特徴と最適化関数に関する知識を統合する新しい方法を提案します。
深さに対応する表現融合(DARF)と構造対応のコントラストハッシュ(SCH)を導入することにより、知識の統合を策定します。
DARFは、浅い表現と深い表現をブレンド機能に統合し、SCHは画像の指紋を組み込んで、正/負のペアリングの適応性を高めます。
これらのブレンド機能は、OODの検出とコンテンツベースの推奨をさらに促進し、AI駆動型の安全なヘルスケア環境に貢献します。
さらに、検索結果の堅牢性と再現性を改善するために、コンテンツガイド付きランキングを提示します。
当社の包括的な評価は、提案された方法がOODサンプルを効果的に認識し、医療画像検索の既存のアプローチを大幅に上回ることができることを示しています(P <0.05)。 特に、この方法では、解剖学的放射線データセットの平均平均精度が5.6〜38.9%改善されます。

要約(オリジナル)

As artificial intelligence and digital medicine increasingly permeate healthcare systems, robust governance frameworks are essential to ensure ethical, secure, and effective implementation. In this context, medical image retrieval becomes a critical component of clinical data management, playing a vital role in decision-making and safeguarding patient information. Existing methods usually learn hash functions using bottleneck features, which fail to produce representative hash codes from blended embeddings. Although contrastive hashing has shown superior performance, current approaches often treat image retrieval as a classification task, using category labels to create positive/negative pairs. Moreover, many methods fail to address the out-of-distribution (OOD) issue when models encounter external OOD queries or adversarial attacks. In this work, we propose a novel method to consolidate knowledge of hierarchical features and optimisation functions. We formulate the knowledge consolidation by introducing Depth-aware Representation Fusion (DaRF) and Structure-aware Contrastive Hashing (SCH). DaRF adaptively integrates shallow and deep representations into blended features, and SCH incorporates image fingerprints to enhance the adaptability of positive/negative pairings. These blended features further facilitate OOD detection and content-based recommendation, contributing to a secure AI-driven healthcare environment. Moreover, we present a content-guided ranking to improve the robustness and reproducibility of retrieval results. Our comprehensive assessments demonstrate that the proposed method could effectively recognise OOD samples and significantly outperform existing approaches in medical image retrieval (p<0.05). In particular, our method achieves a 5.6-38.9% improvement in mean Average Precision on the anatomical radiology dataset.

arxiv情報

著者 Yang Nan,Huichi Zhou,Xiaodan Xing,Giorgos Papanastasiou,Lei Zhu,Zhifan Gao,Alejandro F Fangi,Guang Yang
発行日 2025-03-12 13:16:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Revisiting Medical Image Retrieval via Knowledge Consolidation はコメントを受け付けていません

CryptoX : Compositional Reasoning Evaluation of Large Language Models

要約

構成の推論能力は、大規模な言語モデルLLMの一般化と知性の出現にとって重要であると長い間考えられてきました。
ただし、多くの推論関連のベンチマークにもかかわらず、LLMSの構成推論能力は、既存のベンチマークではほとんど研究または定量化されません。
この論文では、Cryptoxを紹介します。Cryptoxは、既存のベンチマークと暗号化を初めて組み合わせてLLMSの構成推論能力を定量化する評価フレームワークを紹介します。
Cryptoxに基づいて、Cryptobenchを構築します。これにより、これらの原則を体系的な評価のためにいくつかのベンチマークに統合します。
Cryptobenchを使用して広く使用されているオープンソースおよびクローズドソースLLMについて詳細な実験を行い、オープンソースとクローズドソースLLMの間に大きなギャップが明らかになります。
さらに、徹底的な機械的解釈可能性実験を実施して、LLMSの組成推論の内部メカニズムを明らかにし、問題の分解、問題サブ問題の推論、および副次的な結論を要約します。
Cryptobenchに基づいた分析を通じて、組成の推論を独立して研究することの価値を強調し、LLMSの組成的推論能力を高める必要性を強調します。

要約(オリジナル)

The compositional reasoning capacity has long been regarded as critical to the generalization and intelligence emergence of large language models LLMs. However, despite numerous reasoning-related benchmarks, the compositional reasoning capacity of LLMs is rarely studied or quantified in the existing benchmarks. In this paper, we introduce CryptoX, an evaluation framework that, for the first time, combines existing benchmarks and cryptographic, to quantify the compositional reasoning capacity of LLMs. Building upon CryptoX, we construct CryptoBench, which integrates these principles into several benchmarks for systematic evaluation. We conduct detailed experiments on widely used open-source and closed-source LLMs using CryptoBench, revealing a huge gap between open-source and closed-source LLMs. We further conduct thorough mechanical interpretability experiments to reveal the inner mechanism of LLMs’ compositional reasoning, involving subproblem decomposition, subproblem inference, and summarizing subproblem conclusions. Through analysis based on CryptoBench, we highlight the value of independently studying compositional reasoning and emphasize the need to enhance the compositional reasoning capabilities of LLMs.

arxiv情報

著者 Jiajun Shi,Chaoren Wei,Liqun Yang,Zekun Moore Wang,Chenghao Yang,Ge Zhang,Stephen Huang,Tao Peng,Jian Yang,Zhoufutu Wen
発行日 2025-03-12 13:17:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | CryptoX : Compositional Reasoning Evaluation of Large Language Models はコメントを受け付けていません

Pig behavior dataset and Spatial-temporal perception and enhancement networks based on the attention mechanism for pig behavior recognition

要約

豚の行動の認識は、豚の賢い農業と福祉保証において重要な役割を果たします。
現在、豚の行動認識の分野では、公開されている行動データセットの欠如は、革新的なアルゴリズムの開発を制限するだけでなく、モデルの堅牢性とアルゴリズムの最適化をモデルの堅牢性とアルゴリズムの最適化を妨害することも妨げます。この論文は、福祉に大きな影響を与える13の豚行動を含むデータセットを提案します。
ビデオデータにおける豚の行動とそれに関連する相互作用領域の時空間的特徴。
ネットワークは、時空間認識ネットワークと時空上の特徴拡張ネットワークで構成されています。
空間的知覚ネットワークは、ビデオデータの行動の重要な領域と豚と重要な領域との間のつながりを確立する責任があります。
時空間機能強化ネットワークは、個々の豚の重要な空間的特徴をさらに強化し、これらのつながりを改造することにより、個々の行動の空間的特徴の長期的な依存性を捉え、それによってPIG行動の時空間的変化のモデルの認識を高めます。
実験結果は、このペーパーで確立されたデータセットで、提案されたモデルが75.92%のMAPスコアを達成することを示しています。
この研究は、個々の豚の行動認識の正確性と一般化可能性を投入するだけでなく、現代の賢い農業のための新しい技術ツールを提供します。
データセットと関連コードは、このペーパーと一緒に公開されます。

要約(オリジナル)

The recognition of pig behavior plays a crucial role in smart farming and welfare assurance for pigs. Currently, in the field of pig behavior recognition, the lack of publicly available behavioral datasets not only limits the development of innovative algorithms but also hampers model robustness and algorithm optimization.This paper proposes a dataset containing 13 pig behaviors that significantly impact welfare.Based on this dataset, this paper proposes a spatial-temporal perception and enhancement networks based on the attention mechanism to model the spatiotemporal features of pig behaviors and their associated interaction areas in video data. The network is composed of a spatiotemporal perception network and a spatiotemporal feature enhancement network. The spatiotemporal perception network is responsible for establishing connections between the pigs and the key regions of their behaviors in the video data. The spatiotemporal feature enhancement network further strengthens the important spatial features of individual pigs and captures the long-term dependencies of the spatiotemporal features of individual behaviors by remodeling these connections, thereby enhancing the model’s perception of spatiotemporal changes in pig behaviors. Experimental results demonstrate that on the dataset established in this paper, our proposed model achieves a MAP score of 75.92%, which is an 8.17% improvement over the best-performing traditional model. This study not only improces the accuracy and generalizability of individual pig behavior recognition but also provides new technological tools for modern smart farming. The dataset and related code will be made publicly available alongside this paper.

arxiv情報

著者 Fangzheng Qi,Zhenjie Hou,En Lin,Xing Li,iuzhen Liang,Xinwen Zhou
発行日 2025-03-12 13:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Pig behavior dataset and Spatial-temporal perception and enhancement networks based on the attention mechanism for pig behavior recognition はコメントを受け付けていません

Towards Next-Generation Recommender Systems: A Benchmark for Personalized Recommendation Assistant with LLMs

要約

推奨システム(RECSYS)は、さまざまな最新のデジタルプラットフォームで広く使用されており、大きな注目を集めています。
従来の推奨システムは通常、固定された単純な推奨シナリオにのみ焦点を当てているため、インタラクティブなパラダイムで新しい目に見えない推奨タスクに一般化することが困難です。
最近、大規模な言語モデル(LLMS)の進歩は、Recsysの基本的なアーキテクチャに革命をもたらし、進化をよりインテリジェントでインタラクティブなパーソナライズされた推奨アシスタントに駆り立てています。
ただし、ほとんどの既存の研究は、固定されたタスク固有のプロンプトテンプレートに依存して推奨事項を生成し、パーソナライズされたアシスタントのパフォーマンスを評価します。これにより、能力の包括的な評価が制限されます。
これは、一般的に使用されるデータセットには、実際の推奨シナリオを反映する高品質のテキストユーザークエリがなく、LLMベースのパーソナライズされた推奨アシスタントの評価には適さないためです。
このギャップに対処するために、LLMSの時代に複雑なユーザー推奨ニーズを処理するLLMSの機能にアクセスするように設計された新しいデータセットベンチマークであるRecbench+を紹介します。
Recench+は、難易度レベルが異なる、硬い条件とソフトな好みの両方に及ぶ多様なクエリのセットを網羅しています。
我々は、レコーシンチ+で一般的に使用されているLLMを評価し、調査結果を以下に発見しました。1)LLMSは推奨アシスタントとして機能する予備的な能力を示し、2)LLMSは、明示的に述べられた条件を持つクエリを処理する方が優れていますが、推論を必要とするクエリまたは誤った情報を含むクエリの課題に直面します。
データセットはhttps://github.com/jiani-huang/recbench.gitでリリースされました。

要約(オリジナル)

Recommender systems (RecSys) are widely used across various modern digital platforms and have garnered significant attention. Traditional recommender systems usually focus only on fixed and simple recommendation scenarios, making it difficult to generalize to new and unseen recommendation tasks in an interactive paradigm. Recently, the advancement of large language models (LLMs) has revolutionized the foundational architecture of RecSys, driving their evolution into more intelligent and interactive personalized recommendation assistants. However, most existing studies rely on fixed task-specific prompt templates to generate recommendations and evaluate the performance of personalized assistants, which limits the comprehensive assessments of their capabilities. This is because commonly used datasets lack high-quality textual user queries that reflect real-world recommendation scenarios, making them unsuitable for evaluating LLM-based personalized recommendation assistants. To address this gap, we introduce RecBench+, a new dataset benchmark designed to access LLMs’ ability to handle intricate user recommendation needs in the era of LLMs. RecBench+ encompasses a diverse set of queries that span both hard conditions and soft preferences, with varying difficulty levels. We evaluated commonly used LLMs on RecBench+ and uncovered below findings: 1) LLMs demonstrate preliminary abilities to act as recommendation assistants, 2) LLMs are better at handling queries with explicitly stated conditions, while facing challenges with queries that require reasoning or contain misleading information. Our dataset has been released at https://github.com/jiani-huang/RecBench.git.

arxiv情報

著者 Jiani Huang,Shijie Wang,Liang-bo Ning,Wenqi Fan,Shuaiqiang Wang,Dawei Yin,Qing Li
発行日 2025-03-12 13:28:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Towards Next-Generation Recommender Systems: A Benchmark for Personalized Recommendation Assistant with LLMs はコメントを受け付けていません

Close-up-GS: Enhancing Close-Up View Synthesis in 3D Gaussian Splatting with Progressive Self-Training

要約

3D Gaussian Splatting(3DGS)は、特定の視点でトレーニングした後、新しいビューを合成する際に印象的なパフォーマンスを実証しました。
ただし、合成されたビューがトレーニングビューから大幅に逸脱すると、そのレンダリング品質は悪化します。
この減少は、(1)分散のシナリオに一般化する際のモデルの困難と、(2)実質的な解像度の変化と閉塞によって引き起こされる細かい詳細を補間する際の課題が原因で発生します。
この制限の注目すべきケースは、クローズアップビューの生成です。これは、トレーニングセットのものよりもオブジェクトにかなり近いビューを生成することです。
この問題に取り組むために、3DGSモデルを自己生成データで徐々にトレーニングすることに基づいて、クローズアップビュー生成のための新しいアプローチを提案します。
私たちのソリューションは、3つの重要なアイデアに基づいています。
まず、最近導入された3Dに導入された生成モデルであるSEE3Dモデルを活用して、レンダリングされたビューの詳細を強化します。
第二に、3DGSモデルの「信頼領域」を徐々に拡張し、SEE3Dの一連の参照ビューを更新する戦略を提案します。
最後に、上記のスキームから生成されたトレーニングデータを使用して3DGSモデルを慎重に更新するための微調整戦略を紹介します。
この問題に関するより良い研究を促進するために、クローズアップビューの評価のメトリックをさらに定義します。
特別に選択されたシナリオでクローズアップビューのために評価を実施することにより、提案されたアプローチは、競争ソリューションよりも明確な利点を示しています。

要約(オリジナル)

3D Gaussian Splatting (3DGS) has demonstrated impressive performance in synthesizing novel views after training on a given set of viewpoints. However, its rendering quality deteriorates when the synthesized view deviates significantly from the training views. This decline occurs due to (1) the model’s difficulty in generalizing to out-of-distribution scenarios and (2) challenges in interpolating fine details caused by substantial resolution changes and occlusions. A notable case of this limitation is close-up view generation–producing views that are significantly closer to the object than those in the training set. To tackle this issue, we propose a novel approach for close-up view generation based by progressively training the 3DGS model with self-generated data. Our solution is based on three key ideas. First, we leverage the See3D model, a recently introduced 3D-aware generative model, to enhance the details of rendered views. Second, we propose a strategy to progressively expand the “trust regions” of the 3DGS model and update a set of reference views for See3D. Finally, we introduce a fine-tuning strategy to carefully update the 3DGS model with training data generated from the above schemes. We further define metrics for close-up views evaluation to facilitate better research on this problem. By conducting evaluations on specifically selected scenarios for close-up views, our proposed approach demonstrates a clear advantage over competitive solutions.

arxiv情報

著者 Jiatong Xia,Lingqiao Liu
発行日 2025-03-12 13:44:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Close-up-GS: Enhancing Close-Up View Synthesis in 3D Gaussian Splatting with Progressive Self-Training はコメントを受け付けていません

ForAug: Recombining Foregrounds and Backgrounds to Improve Vision Transformer Training with Bias Mitigation

要約

トランス、特にビジョントランス(VITS)は、大規模な画像分類で最先端のパフォーマンスを達成しています。
ただし、多くの場合、大量のデータが必要であり、堅牢性と一般化可能性を制限するバイアスを示すことができます。
このペーパーでは、これらの課題に対処し、一般にニューラルネットワークアーキテクチャの一部である誘導バイアスをトレーニングデータに明示的に含む、新しいデータ増強スキームであるForaugを紹介します。
FORAUGは、前処理された基礎モデルを使用して、さまざまな背景を持つ前景オブジェクトを分離および再結合することにより構築され、トレーニング中の画像構成を細かく制御できるようにします。
したがって、データの多様性と効果的なトレーニングサンプル数が増加します。
ImagenetへのForaugの適用であるFornetに関するトレーニングにより、Imagenetで最大4.5パーセントポイント(p.p.)、7.3 p.p.
ダウンストリームタスク。
重要なことに、FORAUGは、モデルの動作を分析し、バイアスを定量化する新しい方法を可能にします。
つまり、バックグラウンドの堅牢性、前景焦点、センターバイアス、サイズバイアスのメトリックを導入し、FornetのトレーニングがImagenetのトレーニングと比較してこれらのバイアスを大幅に削減することを示します。
要約すると、FORAUGはバイアスを分析および緩和するための貴重なツールを提供し、より堅牢で信頼性の高いコンピュータービジョンモデルの開発を可能にします。
コードとデータセットは、https://github.com/tobna/foraugで公開されています。

要約(オリジナル)

Transformers, particularly Vision Transformers (ViTs), have achieved state-of-the-art performance in large-scale image classification. However, they often require large amounts of data and can exhibit biases that limit their robustness and generalizability. This paper introduces ForAug, a novel data augmentation scheme that addresses these challenges and explicitly includes inductive biases, which commonly are part of the neural network architecture, into the training data. ForAug is constructed by using pretrained foundation models to separate and recombine foreground objects with different backgrounds, enabling fine-grained control over image composition during training. It thus increases the data diversity and effective number of training samples. We demonstrate that training on ForNet, the application of ForAug to ImageNet, significantly improves the accuracy of ViTs and other architectures by up to 4.5 percentage points (p.p.) on ImageNet and 7.3 p.p. on downstream tasks. Importantly, ForAug enables novel ways of analyzing model behavior and quantifying biases. Namely, we introduce metrics for background robustness, foreground focus, center bias, and size bias and show that training on ForNet substantially reduces these biases compared to training on ImageNet. In summary, ForAug provides a valuable tool for analyzing and mitigating biases, enabling the development of more robust and reliable computer vision models. Our code and dataset are publicly available at https://github.com/tobna/ForAug.

arxiv情報

著者 Tobias Christian Nauen,Brian Moser,Federico Raue,Stanislav Frolov,Andreas Dengel
発行日 2025-03-12 13:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.AI, cs.CV, cs.LG, I.2.10 | ForAug: Recombining Foregrounds and Backgrounds to Improve Vision Transformer Training with Bias Mitigation はコメントを受け付けていません