SDWPF: A Dataset for Spatial Dynamic Wind Power Forecasting Challenge at KDD Cup 2022

要約

風力発電の変動性は、風力発電をグリッドシステムに組み込むための大きな課題を提示する可能性があります。
したがって、風力発電(WPF)は、風力発電の統合と運用において最も重要な問題の1つとして広く認識されています。
過去数十年で、風力発電の予測問題に関する研究の爆発がありました。
それにもかかわらず、グリッドの安定性と供給セキュリティを確保するために高い予測精度が常に要求されるため、WPFの問題をうまく処理する方法は依然として困難です。
風力タービンの空間分布と動的コンテキスト要因を含む、ユニークな空間動的風力発電予測データセットを提示します。
一方、既存のデータセットのほとんどは、微調整された時間スケールで風力タービンの場所とコンテキスト情報を知らずに、少数の風力タービンしか持っていません。
対照的に、SDWPFは、相対的な位置と内部ステータスを備えた半年にわたって、風力発電所から134の風力タービンの風力発電データを提供します。
このデータセットを使用して、Baidu KDD Cup 2022を起動して、現在のWPFソリューションの限界を調べます。
データセットはhttps://aistudio.baidu.com/aistudio/competition/detail/152/0/datasetsでリリースされます。

要約(オリジナル)

The variability of wind power supply can present substantial challenges to incorporating wind power into a grid system. Thus, Wind Power Forecasting (WPF) has been widely recognized as one of the most critical issues in wind power integration and operation. There has been an explosion of studies on wind power forecasting problems in the past decades. Nevertheless, how to well handle the WPF problem is still challenging, since high prediction accuracy is always demanded to ensure grid stability and security of supply. We present a unique Spatial Dynamic Wind Power Forecasting dataset: SDWPF, which includes the spatial distribution of wind turbines, as well as the dynamic context factors. Whereas, most of the existing datasets have only a small number of wind turbines without knowing the locations and context information of wind turbines at a fine-grained time scale. By contrast, SDWPF provides the wind power data of 134 wind turbines from a wind farm over half a year with their relative positions and internal statuses. We use this dataset to launch the Baidu KDD Cup 2022 to examine the limit of current WPF solutions. The dataset is released at https://aistudio.baidu.com/aistudio/competition/detail/152/0/datasets.

arxiv情報

著者 Jingbo Zhou,Xinjiang Lu,Yixiong Xiao,Jiantao Su,Junfu Lyu,Yanjun Ma,Dejing Dou
発行日 2025-04-30 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | SDWPF: A Dataset for Spatial Dynamic Wind Power Forecasting Challenge at KDD Cup 2022 はコメントを受け付けていません

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

要約

グラフィカルユーザーインターフェイス(GUI)エージェントは、Vision-Language Models(VLMS)を搭載しており、人間のようなコンピューター制御機能を実証しています。
デジタルオートメーションの進歩においてそれらの有用性にもかかわらず、重要なボトルネックは続きます:トレーニング用の高品質の軌跡データを収集します。
このようなデータを収集するための一般的な慣行は、リソース集約的またはデータ品質を保証できない事前に定義されたタスクを実行することにより、人間の監督または合成データ生成に依存しています。
さらに、これらの方法は、限られたデータの多様性と合成データと現実世界の環境間の重要なギャップに悩まされています。
これらの課題に対処するために、従来の軌跡収集プロセスを逆転させる新しいGUIデータ合成パイプラインであるOS-Genesisを提案します。
事前に定義されたタスクに依存する代わりに、OS-Genesisにより、エージェントはまず環境を認識し、段階的な相互作用を実行し、次に遡及的に高品質のタスクを導き出して、軌道レベルの探索を可能にします。
次に、生成された軌跡の品質を確保するために、軌跡報酬モデルが採用されます。
OSジェネシスを備えたGUIエージェントのトレーニングにより、非常に挑戦的なオンラインベンチマークでのパフォーマンスが大幅に向上することが実証されています。
詳細な分析では、既存の合成方法と比較して、Os-Genesisの効率とその優れたデータの品質と多様性をさらに検証します。
コード、データ、およびチェックポイントは、https://qiushisun.github.io/os-genesis-home/で入手できます。

要約(オリジナル)

Graphical User Interface (GUI) agents powered by Vision-Language Models (VLMs) have demonstrated human-like computer control capability. Despite their utility in advancing digital automation, a critical bottleneck persists: collecting high-quality trajectory data for training. Common practices for collecting such data rely on human supervision or synthetic data generation through executing pre-defined tasks, which are either resource-intensive or unable to guarantee data quality. Moreover, these methods suffer from limited data diversity and significant gaps between synthetic data and real-world environments. To address these challenges, we propose OS-Genesis, a novel GUI data synthesis pipeline that reverses the conventional trajectory collection process. Instead of relying on pre-defined tasks, OS-Genesis enables agents first to perceive environments and perform step-wise interactions, then retrospectively derive high-quality tasks to enable trajectory-level exploration. A trajectory reward model is then employed to ensure the quality of the generated trajectories. We demonstrate that training GUI agents with OS-Genesis significantly improves their performance on highly challenging online benchmarks. In-depth analysis further validates OS-Genesis’s efficiency and its superior data quality and diversity compared to existing synthesis methods. Our codes, data, and checkpoints are available at https://qiushisun.github.io/OS-Genesis-Home/.

arxiv情報

著者 Qiushi Sun,Kanzhi Cheng,Zichen Ding,Chuanyang Jin,Yian Wang,Fangzhi Xu,Zhenyu Wu,Chengyou Jia,Liheng Chen,Zhoumianze Liu,Ben Kao,Guohao Li,Junxian He,Yu Qiao,Zhiyong Wu
発行日 2025-04-30 08:23:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis はコメントを受け付けていません

The Distribution of Dependency Distance and Hierarchical Distance in Contemporary Written Japanese and Its Influencing Factors

要約

日本語の依存関係距離(DD)と階層距離(HD)の関係を調査するために、文の長さを固定するDDとHDの確率分布を比較し、平均依存性距離(MDD)と平均階層距離(MHD)の変化を分析しました。
述語の原子価は、日本語のMDDとMHDのトレードオフ関係の背後にある根本的な要因であることがわかりました。
日本のネイティブスピーカーは、述語の原子価とMDDとMHDの相対サイズを通じて線形の複雑さと階層的な複雑さを調節します。
認知負荷とは別に、述語の原子価はDDとHDの確率分布にも影響します。
HDの分布に対する述語の原子価の効果は、DDのそれよりも大きく、確率分布の違いにつながり、MDDの平均がMHDの平均よりも低くなります。

要約(オリジナル)

To explore the relationship between dependency distance (DD) and hierarchical distance (HD) in Japanese, we compared the probability distributions of DD and HD with and without sentence length fixed, and analyzed the changes in mean dependency distance (MDD) and mean hierarchical distance (MHD) as sentence length increases, along with their correlation coefficient based on the Balanced Corpus of Contemporary Written Japanese. It was found that the valency of the predicates is the underlying factor behind the trade-off relation between MDD and MHD in Japanese. Native speakers of Japanese regulate the linear complexity and hierarchical complexity through the valency of the predicates, and the relative sizes of MDD and MHD depend on whether the threshold of valency has been reached. Apart from the cognitive load, the valency of the predicates also affects the probability distributions of DD and HD. The effect of the valency of the predicates on the distribution of HD is greater than on that of DD, which leads to differences in their probability distributions and causes the mean of MDD to be lower than that of MHD.

arxiv情報

著者 Linxuan Wang,Shuiyuan Yu
発行日 2025-04-30 08:27:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Distribution of Dependency Distance and Hierarchical Distance in Contemporary Written Japanese and Its Influencing Factors はコメントを受け付けていません

Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling

要約

マスクされた拡散モデル(MDMS)は、他の離散拡散モデルよりも優れたパフォーマンスのおかげで、個別のデータの生成モデリングの一般的な研究トピックとして浮上しており、言語モデリングタスクの自動回帰モデル(ARMS)に匹敵しています。
マスクされた拡散フレームワークを簡素化する最近の取り組みは、連続空間拡散モデルとより原則的なトレーニングとサンプリングレシピとの整合にさらにつながります。
ただし、このホワイトペーパーでは、MDMのトレーニングとサンプリングの両方が理論的には時間変数、おそらく拡散モデルの重要な署名であり、代わりにマスクされたモデルと同等であることを明らかにします。
サンプリングの側面に関する接続は、提案された最初のヒットサンプラー(FHS)によって描画されます。
具体的には、FHSは理論的にはMDMSの元の生成プロセスと同等であると同時に、時間のかかるカテゴリサンプリングを大幅に緩和し、20 $ \ Times $ speedupを達成することを示します。
さらに、私たちの調査は、MDMがテキスト生成で本当に武器を打ち負かすことができるかどうかについて疑問を投げかけています。
一般的に使用される32ビットの浮動小数点精度でさえ、根本的な数値の問題を初めて特定し、それが不正確なカテゴリサンプリングをもたらします。
理論的および経験的に有効な温度を下げることを示し、結果として生成されるトークンの多様性の減少により、以前の評価が行われ、生成の品質が不完全な生成困惑メトリックのみを介して、やや不公平を評価します。

要約(オリジナル)

Masked diffusion models (MDMs) have emerged as a popular research topic for generative modeling of discrete data, thanks to their superior performance over other discrete diffusion models, and are rivaling the auto-regressive models (ARMs) for language modeling tasks. The recent effort in simplifying the masked diffusion framework further leads to alignment with continuous-space diffusion models and more principled training and sampling recipes. In this paper, however, we reveal that both training and sampling of MDMs are theoretically free from the time variable, arguably the key signature of diffusion models, and are instead equivalent to masked models. The connection on the sampling aspect is drawn by our proposed first-hitting sampler (FHS). Specifically, we show that the FHS is theoretically equivalent to MDMs’ original generation process while significantly alleviating the time-consuming categorical sampling and achieving a 20$\times$ speedup. In addition, our investigation raises doubts about whether MDMs can truly beat ARMs in text generation. We identify, for the first time, an underlying numerical issue, even with the commonly used 32-bit floating-point precision, which results in inaccurate categorical sampling. We show that it lowers the effective temperature both theoretically and empirically, and the resulting decrease in token diversity makes previous evaluations, which assess the generation quality solely through the incomplete generative perplexity metric, somewhat unfair.

arxiv情報

著者 Kaiwen Zheng,Yongxin Chen,Hanzi Mao,Ming-Yu Liu,Jun Zhu,Qinsheng Zhang
発行日 2025-04-30 08:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling はコメントを受け付けていません

SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding

要約

マルチモーダル大手言語モデル(MLLMS)の急速な発展により、これらのモデルのビデオ理解機能を評価するために、より多くのベンチマークが確立されています。
ただし、これらのベンチマークは\ textBf {standalone}ビデオに焦点を当てており、主に人間の行動やオブジェクト状態のように「視覚要素」を評価します。
現実には、現代のビデオはしばしば複雑で継続的な物語を網羅しており、通常は\ textbf {シリーズ}として提示されます。
この課題に対処するために、105の慎重にキュレーションされた物語主導のシリーズで構成されるベンチマークである\ textBf {seriesbench}を提案します。
具体的には、最初にさまざまなジャンルにまたがる多様なドラマシリーズのセットを選択します。
次に、新しい長期の物語注釈法を紹介し、フルインフォメーション変換アプローチと組み合わせて、手動注釈を多様なタスク形式に変換します。
シリーズ内のプロット構造とキャラクター関係の詳細な分析のためのモデル容量をさらに強化するために、新しい物語の推論フレームワーク\ textBf {pc-dcot}を提案します。
\ textbf {seriesbench}の広範な結果は、既存のMLLMが依然として物語主導のシリーズを理解する上で重要な課題に直面していることを示していますが、\ textBf {pc-dcot}により、これらのMLLMがパフォーマンスの改善を実現できます。
全体として、\ textbf {seriesbench}および\ textbf {pc-dcot}は、MLLMSの将来の発展を導くためにモデル機能を進めるためにモデル機能を進めることの重要な必要性を強調しています。
シリーズベンチは、https://github.com/zackhxn/seriesbench-cvpr2025で公開されています。

要約(オリジナル)

With the rapid development of Multi-modal Large Language Models (MLLMs), an increasing number of benchmarks have been established to evaluate the video understanding capabilities of these models. However, these benchmarks focus on \textbf{standalone} videos and mainly assess “visual elements” like human actions and object states. In reality, contemporary videos often encompass complex and continuous narratives, typically presented as a \textbf{series}. To address this challenge, we propose \textbf{SeriesBench}, a benchmark consisting of 105 carefully curated narrative-driven series, covering 28 specialized tasks that require deep narrative understanding. Specifically, we first select a diverse set of drama series spanning various genres. Then, we introduce a novel long-span narrative annotation method, combined with a full-information transformation approach to convert manual annotations into diverse task formats. To further enhance model capacity for detailed analysis of plot structures and character relationships within series, we propose a novel narrative reasoning framework, \textbf{PC-DCoT}. Extensive results on \textbf{SeriesBench} indicate that existing MLLMs still face significant challenges in understanding narrative-driven series, while \textbf{PC-DCoT} enables these MLLMs to achieve performance improvements. Overall, our \textbf{SeriesBench} and \textbf{PC-DCoT} highlight the critical necessity of advancing model capabilities to understand narrative-driven series, guiding the future development of MLLMs. SeriesBench is publicly available at https://github.com/zackhxn/SeriesBench-CVPR2025.

arxiv情報

著者 Chenkai Zhang,Yiming Lei,Zeming Liu,Haitao Leng,ShaoGuo Liu,Tingting Gao,Qingjie Liu,Yunhong Wang
発行日 2025-04-30 08:48:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding はコメントを受け付けていません

Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding

要約

ロボット把握は、ロボットが環境と対話するための基本的な能力です。
現在の方法は、オブジェクトレベルで安定した信頼性の高い握るポーズを取得する方法に焦点を当てていますが、細粒の握りとロボットアフォーダンスに関連するパート(形状)の握手はほとんど研究されていません。
部品は、豊富な意味的知識とアフォーダンスとの強い相関を含むオブジェクトを構成する原子要素と見なすことができます。
ただし、大部分が不足しているため、3Dロボットデータセットは、部分表現学習とダウンストリームアプリケーションの開発が制限されます。
この論文では、3Dパートレベルのアフォーダンスと把握能力学習を促進するために、新しい大規模な言語誘導形状データセット(Langshape)を把握することを提案します。
ロボット認知の観点から見ると、2段階の細かいロボットグラッシングフレームワーク(LangpartGPDという名前)を設計します。これには、新しい3Dパート言語接地モデルや、人間または大手言語モデルからの明示的な言語入力(LLM)からの明示的な言語入力(LLM)がロボットを導き、パートレベルの6-DOFグラッシングポーズを使用してロボットを導くことができます。
私たちの方法は、象徴的な中間体として明示的な言語を使用して、人間とロボットのコラボレーションとLLMSの計画能力の利点を組み合わせています。
提案された方法の有効性を評価するために、さまざまな程度のテキストの複雑さにわたって言語命令に従って、シミュレーションと物理ロボットの両方の設定で3D部品の接地と細粒の把持検出実験を実行します。
結果は、私たちの方法が、3Dジオメトリの微細粒度の接地、オブジェクトアフォーダンス推論、および3Dパートアウェアグラッシングタスクで競争力のあるパフォーマンスを達成することを示しています。
データセットとコードは、プロジェクトWebサイトhttps://sites.google.com/view/lang-shapeで入手できます

要約(オリジナル)

Robotic grasping is a fundamental ability for a robot to interact with the environment. Current methods focus on how to obtain a stable and reliable grasping pose in object level, while little work has been studied on part (shape)-wise grasping which is related to fine-grained grasping and robotic affordance. Parts can be seen as atomic elements to compose an object, which contains rich semantic knowledge and a strong correlation with affordance. However, lacking a large part-wise 3D robotic dataset limits the development of part representation learning and downstream applications. In this paper, we propose a new large Language-guided SHape grAsPing datasEt (named LangSHAPE) to promote 3D part-level affordance and grasping ability learning. From the perspective of robotic cognition, we design a two-stage fine-grained robotic grasping framework (named LangPartGPD), including a novel 3D part language grounding model and a part-aware grasp pose detection model, in which explicit language input from human or large language models (LLMs) could guide a robot to generate part-level 6-DoF grasping pose with textual explanation. Our method combines the advantages of human-robot collaboration and LLMs’ planning ability using explicit language as a symbolic intermediate. To evaluate the effectiveness of our proposed method, we perform 3D part grounding and fine-grained grasp detection experiments on both simulation and physical robot settings, following language instructions across different degrees of textual complexity. Results show our method achieves competitive performance in 3D geometry fine-grained grounding, object affordance inference, and 3D part-aware grasping tasks. Our dataset and code are available on our project website https://sites.google.com/view/lang-shape

arxiv情報

著者 Yaoxian Song,Penglei Sun,Piaopiao Jin,Yi Ren,Yu Zheng,Zhixu Li,Xiaowen Chu,Yue Zhang,Tiefeng Li,Jason Gu
発行日 2025-04-30 09:22:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC, cs.RO | Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding はコメントを受け付けていません

RWKV-X: A Linear Complexity Hybrid Language Model

要約

この論文では、\ textBf {rwkv-x}を紹介します。これは、短距離モデリングのRWKVの効率を組み合わせた新しいハイブリッドアーキテクチャと、長距離コンテキストをキャプチャするように設計されたまばらな注意メカニズムを紹介します。
完全な注意層に依存し、二次の複雑さを保持する以前のハイブリッドアプローチとは異なり、RWKV-Xは、トレーニングで直線的な時間の複雑さを実現し、推論デコードに一定の時間の複雑さを実現します。
RWKV-Xは、64Kトークンシーケンスで継続的に前提としている場合、64K PassKey検索ベンチマークでほぼ完璧な精度を達成することを実証します。
ショートテキストタスクの強力なパフォーマンスを維持しながら、長いコンテキストベンチマークで以前のRWKV-7モデルを常に上回ります。
これらの結果は、RWKV-Xが一般的な段階的な言語モデリングのスケーラブルで効率的なバックボーンとして強調し、安定した速度とメモリ使用量を備えた最大100万トークンまでシーケンスを解読できることを強調しています。
さらなる研究と分析を促進するために、チェックポイントと関連するコードにhttps://github.com/howard-hou/rwkv-xで公開されました。

要約(オリジナル)

In this paper, we introduce \textbf{RWKV-X}, a novel hybrid architecture that combines the efficiency of RWKV for short-range modeling with a sparse attention mechanism designed to capture long-range context. Unlike previous hybrid approaches that rely on full attention layers and retain quadratic complexity, RWKV-X achieves linear-time complexity in training and constant-time complexity in inference decoding. We demonstrate that RWKV-X, when continually pretrained on 64K-token sequences, achieves near-perfect accuracy on the 64K passkey retrieval benchmark. It consistently outperforms prior RWKV-7 models on long-context benchmarks, while maintaining strong performance on short-context tasks. These results highlight RWKV-X as a scalable and efficient backbone for general-purpose language modeling, capable of decoding sequences up to 1 million tokens with stable speed and memory usage. To facilitate further research and analysis, we have made the checkpoints and the associated code publicly accessible at: https://github.com/howard-hou/RWKV-X.

arxiv情報

著者 Haowen Hou,Zhiyi Huang,Kaifeng Tan,Rongchang Lu,Fei Richard Yu
発行日 2025-04-30 09:38:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RWKV-X: A Linear Complexity Hybrid Language Model はコメントを受け付けていません

Homa at SemEval-2025 Task 5: Aligning Librarian Records with OntoAligner for Subject Tagging

要約

このホワイトペーパーでは、Semval-2025タスク5のシステムであるHOMAを紹介します。Tagking5:Subject Taggingは、Gemeinsame Normdatei(GND)分類法を使用してTibkatの技術記録にサブジェクトラベルを自動的に割り当てることに焦点を当てています。
Modular Ontology Alignment ToolkitであるTodoalignerを活用して、検索された生成(RAG)テクニックを統合することにより、このタスクに対処します。
当社のアプローチでは、サブジェクトにタグ付けの問題を調整タスクとして定式化します。ここでは、記録はセマンティックな類似性に基づいてGNDカテゴリに一致します。
被験者のインデックス作成に対するAlignerの適応性を評価し、多言語レコードの処理における有効性を分析します。
実験結果は、この方法の強みと制限を示しており、デジタルライブラリでのサブジェクトタグ付けを改善するためのアラインメント手法の可能性を強調しています。

要約(オリジナル)

This paper presents our system, Homa, for SemEval-2025 Task 5: Subject Tagging, which focuses on automatically assigning subject labels to technical records from TIBKAT using the Gemeinsame Normdatei (GND) taxonomy. We leverage OntoAligner, a modular ontology alignment toolkit, to address this task by integrating retrieval-augmented generation (RAG) techniques. Our approach formulates the subject tagging problem as an alignment task, where records are matched to GND categories based on semantic similarity. We evaluate OntoAligner’s adaptability for subject indexing and analyze its effectiveness in handling multilingual records. Experimental results demonstrate the strengths and limitations of this method, highlighting the potential of alignment techniques for improving subject tagging in digital libraries.

arxiv情報

著者 Hadi Bayrami Asl Tekanlou,Jafar Razmara,Mahsa Sanaei,Mostafa Rahgouy,Hamed Babaei Giglou
発行日 2025-04-30 09:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Homa at SemEval-2025 Task 5: Aligning Librarian Records with OntoAligner for Subject Tagging はコメントを受け付けていません

Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines

要約

この研究では、ユーザーが説明や意味に基づいて単語を見つけることができる効果的なアラビア語逆辞書(RD)システムを開発することにより、アラビア語の自然言語処理の重要なギャップに対処します。
アラビア語のRDタスクの最新の結果を達成する幾何学的に減少する層を特徴とする半エンコーダーニューラルネットワークアーキテクチャを使用して、新しい変圧器ベースのアプローチを提示します。
当社の方法論には、包括的なデータセット構築プロセスが組み込まれており、アラビア語の辞書的定義の正式な品質基準を確立します。
さまざまな訓練を受けたモデルを使用した実験は、アラビア語固有のモデルが一般的な多言語埋め込みを大幅に上回り、ArbertV2が最高のランキングスコアを達成することを示しています(0.0644)。
さらに、理論的理解を高め、構成可能なトレーニングパイプラインを使用してモジュール式の拡張可能なPythonライブラリ(RDTL)を開発する逆辞書タスクの正式な抽象化を提供します。
データセット品質の分析により、アラビア語の定義構造を改善するための重要な洞察が明らかになり、高品質の逆辞書リソースを構築するための8つの特定の基準につながります。
この作業は、アラビア語の計算言語学に大きく貢献し、アラビア語での言語学習、アカデミックライティング、専門的コミュニケーションに貴重なツールを提供します。

要約(オリジナル)

This study addresses the critical gap in Arabic natural language processing by developing an effective Arabic Reverse Dictionary (RD) system that enables users to find words based on their descriptions or meanings. We present a novel transformer-based approach with a semi-encoder neural network architecture featuring geometrically decreasing layers that achieves state-of-the-art results for Arabic RD tasks. Our methodology incorporates a comprehensive dataset construction process and establishes formal quality standards for Arabic lexicographic definitions. Experiments with various pre-trained models demonstrate that Arabic-specific models significantly outperform general multilingual embeddings, with ARBERTv2 achieving the best ranking score (0.0644). Additionally, we provide a formal abstraction of the reverse dictionary task that enhances theoretical understanding and develop a modular, extensible Python library (RDTL) with configurable training pipelines. Our analysis of dataset quality reveals important insights for improving Arabic definition construction, leading to eight specific standards for building high-quality reverse dictionary resources. This work contributes significantly to Arabic computational linguistics and provides valuable tools for language learning, academic writing, and professional communication in Arabic.

arxiv情報

著者 Serry Sibaee,Samar Ahmed,Abdullah Al Harbi,Omer Nacar,Adel Ammar,Yasser Habashi,Wadii Boulila
発行日 2025-04-30 09:56:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines はコメントを受け付けていません

Improving Informally Romanized Language Identification

要約

ラテンスクリプトは、多くの場合、非ラチンネイティブスクリプトを使用して言語を非公式に書くために使用されます。
多くの場合(たとえば、インドのほとんどの言語)、ラテンスクリプトには従来の単語の綴りはありません。したがって、書かれたテキストには高いスペルのばらつきがあります。
このようなローマ化は、ヒンディー語やウルドゥー語など、非常に混乱しやすいスクリプトに基づいて、通常簡単に区別される言語をレンダリングします。
この作業では、トレーニングセットを合成するために使用される方法を改善することにより、ローマ化されたテキストの言語識別(LID)精度を高めます。
自然な綴りの変動を組み込んだ合成サンプルのトレーニングは、トレーニングセットで利用可能な自然に発生する例や、トレーニングの高容量モデルでさえ含まれるよりも高い蓋システムの精度をもたらすことがわかります。
Bhasha-AbhijnaAnam評価セット(Madhani et al。、2023a)の20インド言語からの20インド言語のローマ化テキストでの最新の蓋のパフォーマンスを示し、報告された74.7%(事前に調達されたニューラルモデルを使用)からテストF1を改善し、85.4%までのテストF1を改善します。

要約(オリジナル)

The Latin script is often used to informally write languages with non-Latin native scripts. In many cases (e.g., most languages in India), there is no conventional spelling of words in the Latin script, hence there will be high spelling variability in written text. Such romanization renders languages that are normally easily distinguished based on script highly confusable, such as Hindi and Urdu. In this work, we increase language identification (LID) accuracy for romanized text by improving the methods used to synthesize training sets. We find that training on synthetic samples which incorporate natural spelling variation yields higher LID system accuracy than including available naturally occurring examples in the training set, or even training higher capacity models. We demonstrate new state-of-the-art LID performance on romanized text from 20 Indic languages in the Bhasha-Abhijnaanam evaluation set (Madhani et al., 2023a), improving test F1 from the reported 74.7% (using a pretrained neural model) to 85.4% using a linear classifier trained solely on synthetic data and 88.2% when also training on available harvested text.

arxiv情報

著者 Adrian Benton,Alexander Gutkin,Christo Kirov,Brian Roark
発行日 2025-04-30 11:36:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Improving Informally Romanized Language Identification はコメントを受け付けていません