Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities

要約

参照式セグメンテーション(RES)は、記述言語式に一致するエンティティのマスクのセグメント化を目的としています。
従来のRESメソッドは主にオブジェクトレベルの接地に対処しますが、実際のシナリオには、マルチオブジェクト、単一オブジェクト、またはパートレベル参照など、複数のレベルのターゲット粒度を処理できる、より汎用性の高いフレームワークが必要です。
これは、ユーザーがターゲットを説明する多様で微妙な方法により、大きな課題をもたらします。
ただし、既存のデータセットとモデルは、主にオブジェクトレベルのターゲットローカリゼーションの接地スペシャリストの設計に焦点を当てており、必要なデータリソースと、より実用的なマルチグレインRESの統一フレームワークがありません。
このホワイトペーパーでは、視覚的な粒度統一RESタスクに向けてさらに一歩進んでいます。
データの希少性の制限を克服するために、より細かい視覚的理解を進めるための部分レベルの注釈を含むRefCocomベンチマークとともに、新しいマルチ粒度を参照する表現セグメンテーション(MRE)タスクを導入します。
さらに、最大の視覚接地データセットであるMRES-32Mを作成します。これは、パートレベルのビジョン言語接地用に特別に設計された1M画像にわたって32.2mを超えるマスクとキャプションを含むものです。
マルチ粒度RESの課題に取り組むために、オブジェクトレベルとパートレベルのRESタスクを統合する統合されたマルチモーダル大型言語モデルであるUnire ++を提案します。
UNIRES ++には、きめ細かい視覚的特徴探査のターゲット設計が組み込まれています。
共同モデルのアーキテクチャとパラメーターを使用すると、UNIRES ++は、MRESのRefcocom、Generized Res用のGrefcoco、Refcoco、Refcoco+、Classic ResのRefcocogなど、複数のベンチマークで最先端のパフォーマンスを実現します。
マルチグレインの視覚的接地に関する将来の研究を促進するために、RefCocomベンチマーク、MRES-32Mデータセット、モデルUnires ++は、https://github.com/rubics-xuan/mresで公開されます。

要約(オリジナル)

Referring expression segmentation (RES) aims at segmenting the entities’ masks that match the descriptive language expression. While traditional RES methods primarily address object-level grounding, real-world scenarios demand a more versatile framework that can handle multiple levels of target granularity, such as multi-object, single object or part-level references. This introduces great challenges due to the diverse and nuanced ways users describe targets. However, existing datasets and models mainly focus on designing grounding specialists for object-level target localization, lacking the necessary data resources and unified frameworks for the more practical multi-grained RES. In this paper, we take a step further towards visual granularity unified RES task. To overcome the limitation of data scarcity, we introduce a new multi-granularity referring expression segmentation (MRES) task, alongside the RefCOCOm benchmark, which includes part-level annotations for advancing finer-grained visual understanding. In addition, we create MRES-32M, the largest visual grounding dataset, comprising over 32.2M masks and captions across 1M images, specifically designed for part-level vision-language grounding. To tackle the challenges of multi-granularity RES, we propose UniRES++, a unified multimodal large language model that integrates object-level and part-level RES tasks. UniRES++ incorporates targeted designs for fine-grained visual feature exploration. With the joint model architecture and parameters, UniRES++ achieves state-of-the-art performance across multiple benchmarks, including RefCOCOm for MRES, gRefCOCO for generalized RES, and RefCOCO, RefCOCO+, RefCOCOg for classic RES. To foster future research into multi-grained visual grounding, our RefCOCOm benchmark, MRES-32M dataset and model UniRES++ will be publicly available at https://github.com/Rubics-Xuan/MRES.

arxiv情報

著者 Jing Liu,Wenxuan Wang,Yisi Zhang,Yepeng Tang,Xingjian He,Longteng Guo,Tongtian Yue,Xinlong Wang
発行日 2025-04-02 17:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities はコメントを受け付けていません

Scene-Centric Unsupervised Panoptic Segmentation

要約

監視されていないパノプティックセグメンテーションは、手動で注釈付きのデータをトレーニングすることなく、画像を意味的に意味のある領域と異なるオブジェクトインスタンスに分割することを目的としています。
監視されていないパノプティックシーンの理解に関する以前の作業とは対照的に、オブジェクト中心のトレーニングデータの必要性を排除し、複雑なシーンの監視されていない理解を可能にします。
そのために、シーン中心の画像を直接訓練する最初の監視されていないパノプティック法を提示します。
特に、視覚表現、深さ、および動きの合図を組み合わせて、複雑なシーン中心のデータで高解像度のパノプティック擬似ラベルを取得するアプローチを提案します。
擬似ラベルトレーニングとパノプティックセルフトレーニング戦略の両方を利用すると、人間の注釈を必要とせずに複雑なシーンのパノプティックセグメンテーションを正確に予測する新しいアプローチが得られます。
私たちのアプローチは、たとえば、PQで都市の景観に関する監視されていないパノプティックセグメンテーションの最近の最新のアートを超えるパノプティック品質を大幅に改善します。

要約(オリジナル)

Unsupervised panoptic segmentation aims to partition an image into semantically meaningful regions and distinct object instances without training on manually annotated data. In contrast to prior work on unsupervised panoptic scene understanding, we eliminate the need for object-centric training data, enabling the unsupervised understanding of complex scenes. To that end, we present the first unsupervised panoptic method that directly trains on scene-centric imagery. In particular, we propose an approach to obtain high-resolution panoptic pseudo labels on complex scene-centric data, combining visual representations, depth, and motion cues. Utilizing both pseudo-label training and a panoptic self-training strategy yields a novel approach that accurately predicts panoptic segmentation of complex scenes without requiring any human annotations. Our approach significantly improves panoptic quality, e.g., surpassing the recent state of the art in unsupervised panoptic segmentation on Cityscapes by 9.4% points in PQ.

arxiv情報

著者 Oliver Hahn,Christoph Reich,Nikita Araslanov,Daniel Cremers,Christian Rupprecht,Stefan Roth
発行日 2025-04-02 17:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Scene-Centric Unsupervised Panoptic Segmentation はコメントを受け付けていません

VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

要約

スパースビューから3Dシーンを回復することは、その固有の不適切な問題のために挑戦的な作業です。
従来の方法では、問題を軽減するために、特殊なソリューション(幾何学的正規化またはフィードフォワードの決定論的モデル)を開発しました。
ただし、視覚情報が不十分な入力ビュー全体で最小限のオーバーラップにより、パフォーマンスの劣化に苦しんでいます。
幸いなことに、最近のビデオ生成モデルは、もっともらしい3D構造を使用してビデオクリップを生成できるため、この課題に対処することに有望です。
大規模な前提条件のビデオ拡散モデルを搭載したいくつかの先駆的な研究は、動画生成事前の可能性を探求し、まばらなビューから3Dシーンを作成し始めます。
印象的な改善にもかかわらず、それらは推論時間の遅さと3D制約の欠如によって制限され、実際のジオメトリ構造と一致しない非効率性と再構築アーティファクトにつながります。
このホワイトペーパーでは、ビデオ拡散モデルを蒸留して3Dシーンを1つのステップで生成することを提案し、ビデオから3Dまでのギャップを埋めるための効率的かつ効果的なツールを構築することを目指しています。
具体的には、3Dを意識したリープフロー蒸留戦略を設計して、時間がかかる冗長な情報を飛躍させ、動的除去ポリシーネットワークを訓練して、推論中の最適な跳躍タイムステップを適応的に決定します。
広範な実験は、Videosceneが以前のビデオ拡散モデルよりも高速かつ優れた3Dシーン生成の結果を達成し、将来のビデオから3Dアプリケーションの効率的なツールとしての可能性を強調することを示しています。
プロジェクトページ:https://hanyang-21.github.io/videoscene

要約(オリジナル)

Recovering 3D scenes from sparse views is a challenging task due to its inherent ill-posed problem. Conventional methods have developed specialized solutions (e.g., geometry regularization or feed-forward deterministic model) to mitigate the issue. However, they still suffer from performance degradation by minimal overlap across input views with insufficient visual information. Fortunately, recent video generative models show promise in addressing this challenge as they are capable of generating video clips with plausible 3D structures. Powered by large pretrained video diffusion models, some pioneering research start to explore the potential of video generative prior and create 3D scenes from sparse views. Despite impressive improvements, they are limited by slow inference time and the lack of 3D constraint, leading to inefficiencies and reconstruction artifacts that do not align with real-world geometry structure. In this paper, we propose VideoScene to distill the video diffusion model to generate 3D scenes in one step, aiming to build an efficient and effective tool to bridge the gap from video to 3D. Specifically, we design a 3D-aware leap flow distillation strategy to leap over time-consuming redundant information and train a dynamic denoising policy network to adaptively determine the optimal leap timestep during inference. Extensive experiments demonstrate that our VideoScene achieves faster and superior 3D scene generation results than previous video diffusion models, highlighting its potential as an efficient tool for future video to 3D applications. Project Page: https://hanyang-21.github.io/VideoScene

arxiv情報

著者 Hanyang Wang,Fangfu Liu,Jiawei Chi,Yueqi Duan
発行日 2025-04-02 17:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step はコメントを受け付けていません

GaussianLSS — Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting

要約

バードアイビュー(BEV)の認識は、複数のビュー画像を融合するための統一された表現を提供し、予測や計画などの幅広いダウンストリーム自律運転タスクを可能にするため、大きな注目を集めています。
最近の最先端のモデルは、明示的な深さ推定をバイパスするクエリ学習としてBEV知覚を定式化する投影ベースの方法を利用しています。
このパラダイムでは有望な進歩を観察しますが、不確実性のモデリングがないことと高価な計算要件のために、それらはまだ現実世界のアプリケーションに達していません。
この作業では、非難に基づいた方法、特にリフトスプラットシュート(LSS)パラダイムを再訪する新しい不確実性を意識したBEV知覚フレームワークであるGaussianlssを紹介し、深さの不確実性モデリングでそれらを強化します。
Gaussianlssは、ソフト深度平均を学習し、オブジェクトの範囲を暗黙的にキャプチャする深度分布の分散を計算することにより、空間分散を表します。
次に、深さ分布を3Dガウス分布に変換し、それらをラスター化して、不確実なBEV機能を構築します。
NuscenesデータセットでGaussianlssを評価し、不回しの方法と比較して最先端のパフォーマンスを達成します。
特に、速度が2.5倍速く、メモリ効率を実行し、投影ベースの方法と比較して0.3倍少ないメモリを使用して、0.4%のIOU差でのみ競争力のあるパフォーマンスを達成します。

要約(オリジナル)

Bird’s-eye view (BEV) perception has gained significant attention because it provides a unified representation to fuse multiple view images and enables a wide range of down-stream autonomous driving tasks, such as forecasting and planning. Recent state-of-the-art models utilize projection-based methods which formulate BEV perception as query learning to bypass explicit depth estimation. While we observe promising advancements in this paradigm, they still fall short of real-world applications because of the lack of uncertainty modeling and expensive computational requirement. In this work, we introduce GaussianLSS, a novel uncertainty-aware BEV perception framework that revisits unprojection-based methods, specifically the Lift-Splat-Shoot (LSS) paradigm, and enhances them with depth un-certainty modeling. GaussianLSS represents spatial dispersion by learning a soft depth mean and computing the variance of the depth distribution, which implicitly captures object extents. We then transform the depth distribution into 3D Gaussians and rasterize them to construct uncertainty-aware BEV features. We evaluate GaussianLSS on the nuScenes dataset, achieving state-of-the-art performance compared to unprojection-based methods. In particular, it provides significant advantages in speed, running 2.5x faster, and in memory efficiency, using 0.3x less memory compared to projection-based methods, while achieving competitive performance with only a 0.4% IoU difference.

arxiv情報

著者 Shu-Wei Lu,Yi-Hsuan Tsai,Yi-Ting Chen
発行日 2025-04-02 17:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GaussianLSS — Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting はコメントを受け付けていません

Diffusion-Guided Gaussian Splatting for Large-Scale Unconstrained 3D Reconstruction and Novel View Synthesis

要約

3Dガウスの飛び散(3DG)および神経放射輝度(NERF)の最近の進歩は、リアルタイムの3D再構成と新規ビューの合成で印象的な結果を達成しました。
ただし、これらの方法は、まばらで不均一な入力カバレッジ、一時的な閉塞、外観の変動性、および一貫性のないカメラ設定が品質の低下につながる大規模で制約のない環境で苦労しています。
これらの制限に対処するために、マルチビュー拡散モデルに導かれる新しい3DGSフレームワークであるGS-Diffを提案します。
マルチビュー入力に条件付けられた擬似観測を生成することにより、この方法は、制約の低い3D再構成の問題を適切に位置する問題に変換し、まばらなデータを使用しても堅牢な最適化を可能にします。
GS-diffは、外観の埋め込み、単眼の深さの前、動的オブジェクトモデリング、異方性の正規化、高度なラスター化技術など、いくつかの強化をさらに統合し、実際の設定における幾何学的および測光の課題に取り組みます。
4つのベンチマークでの実験は、GS-Diffが一貫して最先端のベースラインを大幅に上回ることを示しています。

要約(オリジナル)

Recent advancements in 3D Gaussian Splatting (3DGS) and Neural Radiance Fields (NeRF) have achieved impressive results in real-time 3D reconstruction and novel view synthesis. However, these methods struggle in large-scale, unconstrained environments where sparse and uneven input coverage, transient occlusions, appearance variability, and inconsistent camera settings lead to degraded quality. We propose GS-Diff, a novel 3DGS framework guided by a multi-view diffusion model to address these limitations. By generating pseudo-observations conditioned on multi-view inputs, our method transforms under-constrained 3D reconstruction problems into well-posed ones, enabling robust optimization even with sparse data. GS-Diff further integrates several enhancements, including appearance embedding, monocular depth priors, dynamic object modeling, anisotropy regularization, and advanced rasterization techniques, to tackle geometric and photometric challenges in real-world settings. Experiments on four benchmarks demonstrate that GS-Diff consistently outperforms state-of-the-art baselines by significant margins.

arxiv情報

著者 Niluthpol Chowdhury Mithun,Tuan Pham,Qiao Wang,Ben Southall,Kshitij Minhas,Bogdan Matei,Stephan Mandt,Supun Samarasekera,Rakesh Kumar
発行日 2025-04-02 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Diffusion-Guided Gaussian Splatting for Large-Scale Unconstrained 3D Reconstruction and Novel View Synthesis はコメントを受け付けていません

Learning from Streaming Video with Orthogonal Gradients

要約

私たちは、自己教師の方法で、入力としての動画の連続的なストリームから学習する表現の課題に対処します。
これは、従来のトレーニングパラダイムによって予想される独立した同一に分布している(IID)サンプル仮定を満たす非冗長バッチを作成するために、トレーニング中にビデオが刻まれてシャッフルされるビデオ学習への標準的なアプローチとは異なります。
動画が入力の連続的なストリームとしてのみ利用可能である場合、IIDの仮定は明らかに壊れており、パフォーマンスが低下します。
シャッフルからシーケンシャル学習に移行するときのパフォーマンスの低下を実証します。1つのビデオ表現学習方法DORA、マルチビデオデータセットの標準VideoMAME、および将来のビデオ予測のタスクです。
このドロップに対処するために、トレーニング中に直交勾配を利用してバッチを切り離すために、標準オプティマイザーへの幾何学的修正を提案します。
提案された変更は、任意のオプティマイザーに適用できます。確率的勾配降下(SGD)およびAdamWで実証します。
提案されている直交オプティマイザーは、ダウンストリームタスクで評価されているように、ストリーミングビデオからトレーニングされたモデルを表現学習パフォーマンスの低下を軽減できます。
3つのシナリオ(Dora、VideoMomae、将来の予測)で、3つのシナリオすべてでOrthogonal Optimizerが強力なAdamwを上回ることを示します。

要約(オリジナル)

We address the challenge of representation learning from a continuous stream of video as input, in a self-supervised manner. This differs from the standard approaches to video learning where videos are chopped and shuffled during training in order to create a non-redundant batch that satisfies the independently and identically distributed (IID) sample assumption expected by conventional training paradigms. When videos are only available as a continuous stream of input, the IID assumption is evidently broken, leading to poor performance. We demonstrate the drop in performance when moving from shuffled to sequential learning on three tasks: the one-video representation learning method DoRA, standard VideoMAE on multi-video datasets, and the task of future video prediction. To address this drop, we propose a geometric modification to standard optimizers, to decorrelate batches by utilising orthogonal gradients during training. The proposed modification can be applied to any optimizer — we demonstrate it with Stochastic Gradient Descent (SGD) and AdamW. Our proposed orthogonal optimizer allows models trained from streaming videos to alleviate the drop in representation learning performance, as evaluated on downstream tasks. On three scenarios (DoRA, VideoMAE, future prediction), we show our orthogonal optimizer outperforms the strong AdamW in all three scenarios.

arxiv情報

著者 Tengda Han,Dilara Gokay,Joseph Heyward,Chuhan Zhang,Daniel Zoran,Viorica Pătrăucean,João Carreira,Dima Damen,Andrew Zisserman
発行日 2025-04-02 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning from Streaming Video with Orthogonal Gradients はコメントを受け付けていません

Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation

要約

大規模な現実世界のロボットデータセットは、ジェネラリストのロボットモデルをトレーニングする大きな可能性を秘めていますが、実世界の人間のデータ収集のスケーリングは時間がかかり、リソース集約的です。
シミュレーションは、特にロボット動作データセットのスケーラブルな作成を可能にする生成AIおよび自動化されたデータ生成ツールの最近の進歩により、大規模なデータを補足することに大きな可能性があります。
ただし、シミュレーションのみでポリシーをトレーニングし、現実の世界に転送するには、現実のギャップを埋めるためにかなりの人間の努力が必要になることがよくあります。
説得力のある代替手段は、シミュレーションと実際のデータセットの混合に関するポリシーを共同訓練することです。
予備研究により、この戦略は、限られた量の現実世界データでトレーニングされた1つよりもポリシーのパフォーマンスを大幅に改善することを示しています。
それにもかかわらず、コミュニティには、シムアンドリアルの共同トレーニングと、実際のロボット学習のためのシミュレーションデータの利点を享受するために必要なことの体系的な理解がありません。
この作業は、シミュレーションデータを利用してビジョンベースのロボット操作タスクを解決するためのシンプルで効果的なレシピを提示します。
このレシピは、さまざまなシミュレーションおよび実際のデータセットで共同トレーニング戦略を検証する包括的な実験から導き出します。
ロボットアームとヒューマノイドの2つのドメインを使用して、シミュレーションデータがシミュレーションと実際のデータの顕著な違いがある場合でも、シミュレーションデータが実際のタスクのパフォーマンスを平均38%強化できることを実証します。
ビデオと追加の結果は、https://co-training.github.io/にあります。

要約(オリジナル)

Large real-world robot datasets hold great potential to train generalist robot models, but scaling real-world human data collection is time-consuming and resource-intensive. Simulation has great potential in supplementing large-scale data, especially with recent advances in generative AI and automated data generation tools that enable scalable creation of robot behavior datasets. However, training a policy solely in simulation and transferring it to the real world often demands substantial human effort to bridge the reality gap. A compelling alternative is to co-train the policy on a mixture of simulation and real-world datasets. Preliminary studies have recently shown this strategy to substantially improve the performance of a policy over one trained on a limited amount of real-world data. Nonetheless, the community lacks a systematic understanding of sim-and-real co-training and what it takes to reap the benefits of simulation data for real-robot learning. This work presents a simple yet effective recipe for utilizing simulation data to solve vision-based robotic manipulation tasks. We derive this recipe from comprehensive experiments that validate the co-training strategy on various simulation and real-world datasets. Using two domains–a robot arm and a humanoid–across diverse tasks, we demonstrate that simulation data can enhance real-world task performance by an average of 38%, even with notable differences between the simulation and real-world data. Videos and additional results can be found at https://co-training.github.io/

arxiv情報

著者 Abhiram Maddukuri,Zhenyu Jiang,Lawrence Yunliang Chen,Soroush Nasiriany,Yuqi Xie,Yu Fang,Wenqi Huang,Zu Wang,Zhenjia Xu,Nikita Chernyadev,Scott Reed,Ken Goldberg,Ajay Mandlekar,Linxi Fan,Yuke Zhu
発行日 2025-04-02 16:40:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation はコメントを受け付けていません

Non-Determinism of ‘Deterministic’ LLM Settings

要約

LLM(大規模な言語モデル)開業医は、一般に、出力が決定論的と予想される設定の下で同じ入力に対して変化する可能性があることに気づきます。
しかし、これがどれほど広範であるか、そして結果にどのような影響を与えるかについての質問は、私たちの知識に体系的に調査されていません。
ゼロショット設定と少数のショット設定の両方で、10回のランにわたって8つの一般的なタスクに適用されると、決定論的であるように構成された5つのLLMSで非決定論を調査します。
自然に発生するランで最大15%の精度の変動が、可能な限り最高のパフォーマンスのギャップが最大70%までのパフォーマンスを備えていることがわかります。
実際、LLMSのいずれも、すべてのタスクにわたって再現性のある精度を一貫して提供するものではなく、はるかに少ない出力文字列ではありません。
インサイダーと予備的な結果を共有すると、入力バッファーでの共ミングルデータを介して計算リソースの効率的な使用におそらく不可欠ではないことが明らかになったため、この問題はすぐに消えません。
観察をよりよく定量化するために、決定論の定量化に焦点を当てたメトリックを導入し、Nでの合計契約率についてはtarr@nが生の出力を超えており、tara@nは、解決された回答の合計契約率について@nを紹介します。
私たちのコードとデータは、https://github.com/breckbaldwin/llm stabilityで公開されています。

要約(オリジナル)

LLM (large language model) practitioners commonly notice that outputs can vary for the same inputs under settings expected to be deterministic. Yet the questions of how pervasive this is, and with what impact on results, have not to our knowledge been systematically investigated. We investigate non-determinism in five LLMs configured to be deterministic when applied to eight common tasks in across 10 runs, in both zero-shot and few-shot settings. We see accuracy variations up to 15% across naturally occurring runs with a gap of best possible performance to worst possible performance up to 70%. In fact, none of the LLMs consistently delivers repeatable accuracy across all tasks, much less identical output strings. Sharing preliminary results with insiders has revealed that non-determinism perhaps essential to the efficient use of compute resources via co-mingled data in input buffers so this issue is not going away anytime soon. To better quantify our observations, we introduce metrics focused on quantifying determinism, TARr@N for the total agreement rate at N runs over raw output, and TARa@N for total agreement rate of parsed-out answers. Our code and data are publicly available at https://github.com/breckbaldwin/llm-stability.

arxiv情報

著者 Berk Atil,Sarp Aykent,Alexa Chittams,Lisheng Fu,Rebecca J. Passonneau,Evan Radcliffe,Guru Rajan Rajagopal,Adam Sloan,Tomasz Tudrej,Ferhan Ture,Zhe Wu,Lixinyu Xu,Breck Baldwin
発行日 2025-04-02 15:17:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | Non-Determinism of ‘Deterministic’ LLM Settings はコメントを受け付けていません

Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service

要約

低リソースの機械翻訳(MT)は、コミュニティのニーズとアプリケーションの課題の多様性を示しています。
回答者の小さなサンプルに依存する傾向がある調査とフォーカスグループを補完するために、Tetun $。$ orgの実際の使用パターンに関する観察研究を提案します。
100,000の翻訳要求の分析により、既存のコーパスに基づいた仮定に挑戦するパターンが明らかになります。
モバイルデバイスの学生の多くは、通常、科学、ヘルスケア、日常生活などの多様なドメインを越えて、高リソースの言語からTetunにテキストを翻訳します。
これは、政府や社会問題をカバーするニュース記事が支配している利用可能なTetun Corporaとは鋭く対照的です。
私たちの結果は、Tetunのような制度化された少数言語のMTシステムは、高資源から低リソースの方向への教育的文脈に関連するドメインの精度を優先する必要があることを示唆しています。
より広く、この研究は、実際のコミュニティニーズの研究を基盤とすることにより、観察分析が低リソースの言語技術開発にどのように情報を提供できるかを示しています。

要約(オリジナル)

Low-resource machine translation (MT) presents a diversity of community needs and application challenges that remain poorly understood. To complement surveys and focus groups, which tend to rely on small samples of respondents, we propose an observational study on actual usage patterns of tetun$.$org, a specialized MT service for the Tetun language, which is the lingua franca in Timor-Leste. Our analysis of 100,000 translation requests reveals patterns that challenge assumptions based on existing corpora. We find that users, many of them students on mobile devices, typically translate text from a high-resource language into Tetun across diverse domains including science, healthcare, and daily life. This contrasts sharply with available Tetun corpora, which are dominated by news articles covering government and social issues. Our results suggest that MT systems for institutionalized minority languages like Tetun should prioritize accuracy on domains relevant to educational contexts, in the high-resource to low-resource direction. More broadly, this study demonstrates how observational analysis can inform low-resource language technology development, by grounding research in practical community needs.

arxiv情報

著者 Raphael Merx,Adérito José Guterres Correia,Hanna Suominen,Ekaterina Vylomova
発行日 2025-04-02 13:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service はコメントを受け付けていません

TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

要約

通信詐欺の検出は、オーディオ信号を推論指向のテキスト分析と統合する高品質のマルチモーダルトレーニングデータがないため、重大な課題に直面しています。
このギャップに対処するために、自動化されたテレコム詐欺分析のために特別に設計された最初のオープンソースオーディオテキストスローチンキングデータセットであるTeleantifraud-28Kを提示します。
データセットは、3つの戦略を通じて構築されています。(1)プライバシーに保存されたテキストトゥルースサンプル生成自動的に音声認識(ASR)通話録音(匿名化された元のオーディオを使用)を使用し、テキストツースピーチ(TTS)モデル再生を通じて実世界の一貫性を確保します。
(2)シナリオカバレッジを拡大するための本物のASR出力に関する大規模な言語モデル(LLM)ベースの自己計算サンプリングを介したセマンティック強化。
(3)事前に定義されたコミュニケーションシナリオと詐欺の類型を通じて、新たな詐欺戦術をシミュレートするマルチエージェント敵対的統合。
生成されたデータセットには、28,511が厳密に処理された音声テキストペアが含まれており、詐欺の推論のための詳細な注釈が付いています。
データセットは、シナリオ分類、詐欺検出、詐欺タイプ分類の3つのタスクに分けられます。
さらに、テレコム詐欺検出タスクのモデルパフォーマンスの体系的なテストを容易にするために、データセットから比例してサンプリングされたインスタンスを含む標準化された評価ベンチマークであるTeleantifraud-benchを構築します。
また、ハイブリッドの実質/合成データで訓練された生産最適化された監視された微調整(SFT)モデルを貢献し、データ処理フレームワークをオープンソーシングして、コミュニティ駆動型のデータセット拡張を可能にします。
この作業は、データのプライバシーとシナリオの多様性における重要な課題に対処しながら、マルチモーダル反燃焼研究の基礎フレームワークを確立します。
このプロジェクトは、https://github.com/jimmyma99/teleantifraudでリリースされます。

要約(オリジナル)

The detection of telecom fraud faces significant challenges due to the lack of high-quality multimodal training data that integrates audio signals with reasoning-oriented textual analysis. To address this gap, we present TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset specifically designed for automated telecom fraud analysis. Our dataset is constructed through three strategies: (1) Privacy-preserved text-truth sample generation using automatically speech recognition (ASR)-transcribed call recordings (with anonymized original audio), ensuring real-world consistency through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via large language model (LLM)-based self-instruction sampling on authentic ASR outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that simulates emerging fraud tactics through predefined communication scenarios and fraud typologies. The generated dataset contains 28,511 rigorously processed speech-text pairs, complete with detailed annotations for fraud reasoning. The dataset is divided into three tasks: scenario classification, fraud detection, fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a standardized evaluation benchmark comprising proportionally sampled instances from the dataset, to facilitate systematic testing of model performance on telecom fraud detection tasks. We also contribute a production-optimized supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while open-sourcing the data processing framework to enable community-driven dataset expansion. This work establishes a foundational framework for multimodal anti-fraud research while addressing critical challenges in data privacy and scenario diversity. The project will be released at https://github.com/JimmyMa99/TeleAntiFraud.

arxiv情報

著者 Zhiming Ma,Peidong Wang,Minhua Huang,Jingpeng Wang,Kai Wu,Xiangzhao Lv,Yachun Pang,Yin Yang,Wenjie Tang,Yuchen Kang
発行日 2025-04-02 13:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM | TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection はコメントを受け付けていません