Déjà Vu: Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation

要約

多言語の大規模な言語モデル(MLLM)の生成能力と言語カバレッジが急速に進んでいます。
ただし、MLLMの生成能力の評価慣行は、MLLMの開発を有意義に導く可能性を損なう研究室全体で、包括性、科学的厳密さ、一貫した採用が依然として欠けています。
同様の課題に直面し、数十年にわたって多言語生成モデルの透明な報告基準と信頼できる評価を開発した分野である、機械翻訳(MT)評価との類似点を描きます。
生成評価パイプラインの重要な段階にわたるターゲット実験を通じて、MT評価からのベストプラクティスがモデル間の品質の違いの理解を深める方法を示します。
さらに、MLLMの堅牢なメタ評価に不可欠なコンポーネントを特定し、評価方法自体が厳密に評価されるようにします。
これらの洞察を、MLLMの研究開発に関する実用的な推奨事項のチェックリストに蒸留します。

要約(オリジナル)

Generation capabilities and language coverage of multilingual large language models (mLLMs) are advancing rapidly. However, evaluation practices for generative abilities of mLLMs are still lacking comprehensiveness, scientific rigor, and consistent adoption across research labs, which undermines their potential to meaningfully guide mLLM development. We draw parallels with machine translation (MT) evaluation, a field that faced similar challenges and has, over decades, developed transparent reporting standards and reliable evaluations for multilingual generative models. Through targeted experiments across key stages of the generative evaluation pipeline, we demonstrate how best practices from MT evaluation can deepen the understanding of quality differences between models. Additionally, we identify essential components for robust meta-evaluation of mLLMs, ensuring the evaluation methods themselves are rigorously assessed. We distill these insights into a checklist of actionable recommendations for mLLM research and development.

arxiv情報

著者 Julia Kreutzer,Eleftheria Briakou,Sweta Agrawal,Marzieh Fadaee,Kocmi Tom
発行日 2025-04-16 07:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Déjà Vu: Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation はコメントを受け付けていません

Could Thinking Multilingually Empower LLM Reasoning?

要約

以前の研究では、大規模な言語モデルが重要な「英語のバイアス」を示すことを示しています。つまり、タスクが英語で提示されると、しばしばパフォーマンスが向上します。
興味深いことに、推論タスクで特定の他の言語を使用すると、英語よりも優れたパフォーマンスが得られることが観察されています。
ただし、この現象は未調査のままです。
この論文では、推論タスクで多言語主義を活用する上限を探り、多言語の推論が大幅に(10 ACC@$ k $ポイント近く)と堅牢に(翻訳品質と言語の選択の変動の許容範囲)が英語のみの推論よりも高い上限を示唆していることを示唆しています。
また、上限の背後にある理由とそれに到達する際の課題を分析することに加えて、一般的な回答選択方法は、その制限と偏見のためにこの上限を達成できないことがわかります。
これらの洞察は、LLMSの多言語推論の可能性を完全に活用することを目的とした将来の研究への道を開く可能性があります。

要約(オリジナル)

Previous work indicates that large language models exhibit a significant ‘English bias’, i.e. they often perform better when tasks are presented in English. Interestingly, we have observed that using certain other languages in reasoning tasks can yield better performance than English. However, this phenomenon remains under-explored. In this paper, we explore the upper bound of harnessing multilingualism in reasoning tasks, suggesting that multilingual reasoning promises significantly (by nearly 10 Acc@$k$ points) and robustly (tolerance for variations in translation quality and language choice) higher upper bounds than English-only reasoning. Besides analyzing the reason behind the upper bound and challenges in reaching it, we also find that common answer selection methods cannot achieve this upper bound, due to their limitations and biases. These insights could pave the way for future research aimed at fully harnessing the potential of multilingual reasoning in LLMs.

arxiv情報

著者 Changjiang Gao,Xu Huang,Wenhao Zhu,Shujian Huang,Lei Li,Fei Yuan
発行日 2025-04-16 07:45:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Could Thinking Multilingually Empower LLM Reasoning? はコメントを受け付けていません

FiSMiness: A Finite State Machine Based Paradigm for Emotional Support Conversations

要約

感情的なサポート会話(ESC)は、効果的な会話を通じて個人の感情的な苦痛を軽減することを目指しています。
大規模な言語モデル(LLM)はESCで顕著な進歩を遂げていますが、これらの研究のほとんどは状態モデルの観点から図を定義しない可能性があるため、長期的な満足度のための最適ではないソリューションを提供します。
このような問題に対処するために、LLMSの有限状態マシン(FSM)を活用し、フィスミネスと呼ばれるフレームワークを提案します。
私たちのフレームワークにより、単一のLLMがESC中の計画をブートストラップすることができます。また、シーカーの感情、サポート戦略、および各会話ターン時の最終的な対応を自己季節にします。
ESCデータセットでの実質的な実験は、詐欺師が、直接的な推論、自己尊重、連鎖、微調整、および外部支援の方法、さらにはより多くのパラメーターを持つ方法を含む多くのベースラインよりも優れていることを示唆しています。

要約(オリジナル)

Emotional support conversation (ESC) aims to alleviate the emotional distress of individuals through effective conversations. Although large language models (LLMs) have obtained remarkable progress on ESC, most of these studies might not define the diagram from the state model perspective, therefore providing a suboptimal solution for long-term satisfaction. To address such an issue, we leverage the Finite State Machine (FSM) on LLMs, and propose a framework called FiSMiness. Our framework allows a single LLM to bootstrap the planning during ESC, and self-reason the seeker’s emotion, support strategy and the final response upon each conversational turn. Substantial experiments on ESC datasets suggest that FiSMiness outperforms many baselines, including direct inference, self-refine, chain of thought, finetuning, and external-assisted methods, even those with many more parameters.

arxiv情報

著者 Yue Zhao,Qingqing Gu,Xiaoyu Wang,Teng Chen,Zhonglin Jiang,Yong Chen,Luo Ji
発行日 2025-04-16 07:52:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | FiSMiness: A Finite State Machine Based Paradigm for Emotional Support Conversations はコメントを受け付けていません

Evaluating the Goal-Directedness of Large Language Models

要約

LLMSは、与えられた目標に向けてどの程度その機能を使用していますか?
私たちはこれを彼らの目標指向性の尺度として受け取ります。
情報収集、認知的努力、および計画の実行を必要とするタスクの目標指向性を評価します。そこでは、各モデルの関連する機能を推測するためにサブタスクを使用します。
Google Deepmind、Openai、および人類からのLLMの評価は、目標指向性がタスク全体で比較的一貫しており、タスクのパフォーマンスとは異なり、動機付けのプロンプトに適度に敏感であることを示しています。
特に、ほとんどのモデルは完全に目標指向ではありません。
目標指向の評価により、LLMの進行の監視が向上し、LLMのエージェントプロパティのより意図的な設計選択が可能になることを願っています。

要約(オリジナル)

To what extent do LLMs use their capabilities towards their given goal? We take this as a measure of their goal-directedness. We evaluate goal-directedness on tasks that require information gathering, cognitive effort, and plan execution, where we use subtasks to infer each model’s relevant capabilities. Our evaluations of LLMs from Google DeepMind, OpenAI, and Anthropic show that goal-directedness is relatively consistent across tasks, differs from task performance, and is only moderately sensitive to motivational prompts. Notably, most models are not fully goal-directed. We hope our goal-directedness evaluations will enable better monitoring of LLM progress, and enable more deliberate design choices of agentic properties in LLMs.

arxiv情報

著者 Tom Everitt,Cristina Garbacea,Alexis Bellot,Jonathan Richens,Henry Papadatos,Siméon Campos,Rohin Shah
発行日 2025-04-16 08:07:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Evaluating the Goal-Directedness of Large Language Models はコメントを受け付けていません

Local Grammar-Based Coding Revisited

要約

最小限のローカル文法ベースのコーディングの設定では、入力文字列は、単純なシンボルバイシンボルエンコードを介して定義される最小出力の長さを持つ文法として表されます。
このペーパーでは、この分野への4つの貢献について説明します。
まず、ランク付けされた確率に縛られた単純な高調波を呼び出します。これは、ZIPFの法則を思い出させ、最小限のローカル文法ベースのコードの普遍性の証拠を簡素化します。
第二に、語彙サイズの既知の境界を改良し、相互の情報と冗長性とその部分的な電力法の等価性を示します。
これらの境界は、ZIPFの法則を大規模な言語モデルの神経スケーリング法則とリンクすることに関連しています。
第三に、固定された無限の語彙を備えたユニバーサルコードのフレームワークを開発し、経験的データとは無関係のランク付けされたパターンとして普遍的なコーディングを作り直します。
最後に、有限の語彙が経験的ランクリストであるという文法ベースのコードを分析し、そのようなコードも普遍的であることを証明します。
これらの結果は、普遍的な文法ベースのコーディングの基礎を拡張し、以前に述べられた人間の言語モデルと言語モデルの電力法則とのつながりを再確認しました。

要約(オリジナル)

In the setting of minimal local grammar-based coding, the input string is represented as a grammar with the minimal output length defined via simple symbol-by-symbol encoding. This paper discusses four contributions to this field. First, we invoke a simple harmonic bound on ranked probabilities, which reminds Zipf’s law and simplifies universality proofs for minimal local grammar-based codes. Second, we refine known bounds on the vocabulary size, showing its partial power-law equivalence with mutual information and redundancy. These bounds are relevant for linking Zipf’s law with the neural scaling law for large language models. Third, we develop a framework for universal codes with fixed infinite vocabularies, recasting universal coding as matching ranked patterns that are independent of empirical data. Finally, we analyze grammar-based codes with finite vocabularies being empirical rank lists, proving that that such codes are also universal. These results extend foundations of universal grammar-based coding and reaffirm previously stated connections to power laws for human language and language models.

arxiv情報

著者 Łukasz Dębowski
発行日 2025-04-16 08:23:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 94A29, cs.CL, cs.IT, math.IT | Local Grammar-Based Coding Revisited はコメントを受け付けていません

Rethinking LLM-Based Recommendations: A Query Generation-Based, Training-Free Approach

要約

既存の大規模な言語モデルLLMベースの推奨方法は、大規模な候補プールの処理における非効率性、プロンプト内のアイテムの順序に対する感度(「中央で失われた」現象)の貧弱なスケーラビリティ、ランダムなネガティブサンプリングによる非現実的な評価など、いくつかの課題に直面しています。
これらの問題に対処するために、LLMSを活用して候補者プール全体から関連アイテムを取得するためのパーソナライズされたクエリを生成し、候補者の事前選択の必要性を排除するクエリから推奨のアプローチを提案します。
この方法は、追加のトレーニングなしでIDベースの推奨システムに統合でき、LLMSの世界知識を通じて推奨のパフォーマンスと多様性を高め、あまり人気のないアイテムグループでもうまく機能します。
3つのデータセットでの実験は、最大57%の改善を示し、平均31%の増加を示し、既存のモデルに沿って強いゼロショットパフォーマンスとさらなる利益を示します。

要約(オリジナル)

Existing large language model LLM-based recommendation methods face several challenges, including inefficiency in handling large candidate pools, sensitivity to item order within prompts (‘lost in the middle’ phenomenon) poor scalability, and unrealistic evaluation due to random negative sampling. To address these issues, we propose a Query-to-Recommendation approach that leverages LLMs to generate personalized queries for retrieving relevant items from the entire candidate pool, eliminating the need for candidate pre-selection. This method can be integrated into an ID-based recommendation system without additional training, enhances recommendation performance and diversity through LLMs’ world knowledge, and performs well even for less popular item groups. Experiments on three datasets show up to 57 percent improvement, with an average gain of 31 percent, demonstrating strong zero-shot performance and further gains when ensembled with existing models.

arxiv情報

著者 Donghee Han,Hwanjun Song,Mun Yong Yi
発行日 2025-04-16 09:17:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Rethinking LLM-Based Recommendations: A Query Generation-Based, Training-Free Approach はコメントを受け付けていません

Finding Flawed Fictions: Evaluating Complex Reasoning in Language Models via Plot Hole Detection

要約

物語は人間の経験の基本的な側面です。
ストーリーと深く関与し、物語の世界の内部論理やルールを破るストーリーの矛盾の矛盾を見つけることには、エンティティやイベントの追跡や相互作用、抽象的な物語の理解、常識と社会的推論、および心の理論など、微妙な推論スキルが必要です。
大規模な言語モデル(LLMS)がテキストを生成、解釈、変更するにつれて、物語の一貫性とより深い言語理解を厳密に評価することが重要になります。
ただし、既存のベンチマークは主に表面レベルの理解に焦点を当てています。
この作業では、LLMSの言語理解と推論を評価するためのプロキシとして、ストーリーのプロットホール検出を提案します。
FlawedFictionsmakerを紹介します。これは、人間が作成したストーリーのプロットホールを制御できるように慎重に合成する新しいアルゴリズムです。
このアルゴリズムを使用して、ストーリーのLLMSのプロットホール検出能力 – 欠陥のある能力を評価するベンチマークを構築します。
最先端のLLMSは、許可されている推論の努力に関係なく、欠陥のあるフィクションを正確に解決するのに苦労しており、ストーリーの長さが増加するにつれてパフォーマンスが大幅に低下していることがわかります。
最後に、LLMベースのストーリーの要約とストーリー生成がプロットホールを導入する傾向があり、人間が作成したオリジナルに関してプロットホール検出速度が50%以上および100%増加することを示しています。

要約(オリジナル)

Stories are a fundamental aspect of human experience. Engaging deeply with stories and spotting plot holes — inconsistencies in a storyline that break the internal logic or rules of a story’s world — requires nuanced reasoning skills, including tracking entities and events and their interplay, abstract thinking, pragmatic narrative understanding, commonsense and social reasoning, and theory of mind. As Large Language Models (LLMs) increasingly generate, interpret, and modify text, rigorously assessing their narrative consistency and deeper language understanding becomes critical. However, existing benchmarks focus mainly on surface-level comprehension. In this work, we propose plot hole detection in stories as a proxy to evaluate language understanding and reasoning in LLMs. We introduce FlawedFictionsMaker, a novel algorithm to controllably and carefully synthesize plot holes in human-written stories. Using this algorithm, we construct a benchmark to evaluate LLMs’ plot hole detection abilities in stories — FlawedFictions — , which is robust to contamination, with human filtering ensuring high quality. We find that state-of-the-art LLMs struggle in accurately solving FlawedFictions regardless of the reasoning effort allowed, with performance significantly degrading as story length increases. Finally, we show that LLM-based story summarization and story generation are prone to introducing plot holes, with more than 50% and 100% increases in plot hole detection rates with respect to human-written originals.

arxiv情報

著者 Kabir Ahuja,Melanie Sclar,Yulia Tsvetkov
発行日 2025-04-16 09:25:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Finding Flawed Fictions: Evaluating Complex Reasoning in Language Models via Plot Hole Detection はコメントを受け付けていません

Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads

要約

テキストプロンプトを与えられた画像の生成、視覚入力に基づいた質問への回答、さらには長い画像テキストインターリーブコンテンツの作成に優れたオートルーレッシブ(AR)変圧器であるOrthusを紹介します。
Unified Multimodal Modelingの以前の芸術とは異なり、Orthusは同時に、ARモデリングの原則の下で離散テキストトークンと連続画像機能を対処します。
視覚信号の継続的な処理は、画像理解と生成の両方の情報損失を最小限に抑え、完全にARの定式化により、モダリティ間の相関の特性評価が簡単になります。
Orthusがこれらの利点を活用できるようにする重要なメカニズムは、モダリティ固有のヘッドにあります。1つの通常の言語モデリング(LM)ヘッドは離散テキストトークンを予測し、1つの拡散ヘッドはバックボーンの出力で連続画像機能の条件付けを生成します。
既存の統合ARモデルのベクトル量子量子化(VQ)操作をソフトな代替品で置き換え、拡散ヘッドを導入し、追加されたモジュールを調整して画像を再構築するために、装飾モデルを簡単に作成できます(たとえば、72 a100 gpu時間内)。
Orthus-baseは、トレーニング後のトレーニングをさらに採用し、インターリーブ画像やテキストを改善することができます。
経験的に、orthusは標準ベンチマーク全体でShow-OやChameleonを含む競合するベースラインを上回り、7bパラメーターを使用して0.58の遺伝子スコアとMME-Pスコア1265.8を達成します。
Orthusは、複雑な実用的な生成タスクを処理する可能性を反映して、例外的な混合モダリティ生成機能も示しています。

要約(オリジナル)

We introduce Orthus, an autoregressive (AR) transformer that excels in generating images given textual prompts, answering questions based on visual inputs, and even crafting lengthy image-text interleaved contents. Unlike prior arts on unified multimodal modeling, Orthus simultaneously copes with discrete text tokens and continuous image features under the AR modeling principle. The continuous treatment of visual signals minimizes the information loss for both image understanding and generation while the fully AR formulation renders the characterization of the correlation between modalities straightforward. The key mechanism enabling Orthus to leverage these advantages lies in its modality-specific heads — one regular language modeling (LM) head predicts discrete text tokens and one diffusion head generates continuous image features conditioning on the output of the backbone. We devise an efficient strategy for building Orthus — by substituting the Vector Quantization (VQ) operation in the existing unified AR model with a soft alternative, introducing a diffusion head, and tuning the added modules to reconstruct images, we can create an Orthus-base model effortlessly (e.g., within mere 72 A100 GPU hours). Orthus-base can further embrace post-training to better model interleaved images and texts. Empirically, Orthus surpasses competing baselines including Show-o and Chameleon across standard benchmarks, achieving a GenEval score of 0.58 and an MME-P score of 1265.8 using 7B parameters. Orthus also shows exceptional mixed-modality generation capabilities, reflecting the potential for handling intricate practical generation tasks.

arxiv情報

著者 Siqi Kou,Jiachun Jin,Zhihong Liu,Chang Liu,Ye Ma,Jian Jia,Quan Chen,Peng Jiang,Zhijie Deng
発行日 2025-04-16 10:04:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads はコメントを受け付けていません

An LLM-as-a-judge Approach for Scalable Gender-Neutral Translation Evaluation

要約

性別中立翻訳(GNT)は、ソーステキストにそれらの指示対象の性別に関する明確な手がかりがない場合、人間の指示物の性別を表現することを避けることを目指しています。
GNTを自動的に評価することは特に困難であり、現在のソリューションは単一言語分類器に限定されています。
このようなソリューションは、ソース文を考慮せず、専用のデータと新しい言語に拡張するために微調整を必要とするため、理想的ではありません。
この作業では、GNTの評価者としての大規模な言語モデル(LLM)の使用を調査することにより、このような制限に対処します。
具体的には、2つのプロンプトアプローチを調査します。1つは、LLMが文レベルの評価のみを生成するだけで、もう1つは、文レベルの判断の前に詳細なフレーズレベルの注釈を最初に作成する考え方のアプローチに似ています。
オープンとプロプライエタリの両方の5つのモデルを持つ複数の言語での広範な実験を通じて、LLMがGNTの評価者として機能できることを示しています。
さらに、文レベルの評価が一貫してすべてのモデルの精度を改善し、現在のソリューションに優れたスケーラブルな代替手段を提供する前に、フレーズレベルの注釈を求めるように促すことができます。

要約(オリジナル)

Gender-neutral translation (GNT) aims to avoid expressing the gender of human referents when the source text lacks explicit cues about the gender of those referents. Evaluating GNT automatically is particularly challenging, with current solutions being limited to monolingual classifiers. Such solutions are not ideal because they do not factor in the source sentence and require dedicated data and fine-tuning to scale to new languages. In this work, we address such limitations by investigating the use of large language models (LLMs) as evaluators of GNT. Specifically, we explore two prompting approaches: one in which LLMs generate sentence-level assessments only, and another, akin to a chain-of-thought approach, where they first produce detailed phrase-level annotations before a sentence-level judgment. Through extensive experiments on multiple languages with five models, both open and proprietary, we show that LLMs can serve as evaluators of GNT. Moreover, we find that prompting for phrase-level annotations before sentence-level assessments consistently improves the accuracy of all models, providing a better and more scalable alternative to current solutions.

arxiv情報

著者 Andrea Piergentili,Beatrice Savoldi,Matteo Negri,Luisa Bentivogli
発行日 2025-04-16 10:14:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | An LLM-as-a-judge Approach for Scalable Gender-Neutral Translation Evaluation はコメントを受け付けていません

ADAT: Time-Series-Aware Adaptive Transformer Architecture for Sign Language Translation

要約

現在の手話機械の翻訳システムは、標識をテキストに変換するために、手の動き、表情と身体の姿勢、自然言語処理の認識に依存しています。
最近のアプローチでは、トランスアーキテクチャを使用して、位置エンコーディングを介して長距離依存関係をモデル化しています。
しかし、それらは、高フレームレートでキャプチャされたジェスチャー間の細かく密接な短距離の時間的依存性を認識する際の精度がありません。
さらに、彼らの高い計算の複雑さは、非効率的なトレーニングにつながります。
これらの問題を緩和するために、ゲーティングメカニズムを介した機能抽出と適応機能の重み付けのためのコンポーネントを組み込んだアダプティブトランス(ADAT)を提案します。
ADATを評価するために、最初の公共医療アメリカの手話データセットであるMedaslを紹介します。
サインツーグロスからテキストへの実験では、ADATはエンコーダデコーダートランスを上回り、BLEU-4の精度を0.1%改善しながら、トレーニング時間をPHOENIX14Tで14.33%、MEDASLで3.24%削減します。
サインツーテキスト実験では、精度を8.7%向上させ、Phoenix14Tでトレーニング時間を2.8%削減し、MEDASLでの精度が4.7%高く、7.17%のトレーニングを達成します。
サインツーテキストのエンコーダーのみおよびデコーダーのみのベースラインと比較して、ADATは、デュアルストリーム構造のために最大12.1%遅くなっているにもかかわらず、少なくとも6.8%の精度です。

要約(オリジナル)

Current sign language machine translation systems rely on recognizing hand movements, facial expressions and body postures, and natural language processing, to convert signs into text. Recent approaches use Transformer architectures to model long-range dependencies via positional encoding. However, they lack accuracy in recognizing fine-grained, short-range temporal dependencies between gestures captured at high frame rates. Moreover, their high computational complexity leads to inefficient training. To mitigate these issues, we propose an Adaptive Transformer (ADAT), which incorporates components for enhanced feature extraction and adaptive feature weighting through a gating mechanism to emphasize contextually relevant features while reducing training overhead and maintaining translation accuracy. To evaluate ADAT, we introduce MedASL, the first public medical American Sign Language dataset. In sign-to-gloss-to-text experiments, ADAT outperforms the encoder-decoder transformer, improving BLEU-4 accuracy by 0.1% while reducing training time by 14.33% on PHOENIX14T and 3.24% on MedASL. In sign-to-text experiments, it improves accuracy by 8.7% and reduces training time by 2.8% on PHOENIX14T and achieves 4.7% higher accuracy and 7.17% faster training on MedASL. Compared to encoder-only and decoder-only baselines in sign-to-text, ADAT is at least 6.8% more accurate despite being up to 12.1% slower due to its dual-stream structure.

arxiv情報

著者 Nada Shahin,Leila Ismail
発行日 2025-04-16 10:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | ADAT: Time-Series-Aware Adaptive Transformer Architecture for Sign Language Translation はコメントを受け付けていません