Testing Low-Resource Language Support in LLMs Using Language Proficiency Exams: the Case of Luxembourgish

要約

大規模言語モデル(LLM)は、研究や社会全般においてますます重要なツールとなっている。LLMは、専門家にも一般人にも、世界中で定期的に使用されているが、主に英語圏のユーザーを念頭に開発されており、英語やその他の広く普及している言語で優れた性能を発揮する一方、ルクセンブルク語のようなリソースの少ない言語は優先度が低いと見なされている。この注目度の低さは、利用可能な評価ツールやデータセットの少なさにも反映されている。本研究では、ルクセンブルク語の評価ツールとしての言語能力試験の可能性を調査する。その結果、ChatGPT、Claude、DeepSeek-R1などの大規模なモデルは一般的に高いスコアを達成する一方、小規模なモデルは弱いパフォーマンスを示すことがわかった。また、このような言語能力試験の成績は、他の自然言語処理タスクの成績を予測するために利用できることもわかった。

要約(オリジナル)

Large Language Models (LLMs) have become an increasingly important tool in research and society at large. While LLMs are regularly used all over the world by experts and lay-people alike, they are predominantly developed with English-speaking users in mind, performing well in English and other wide-spread languages while less-resourced languages such as Luxembourgish are seen as a lower priority. This lack of attention is also reflected in the sparsity of available evaluation tools and datasets. In this study, we investigate the viability of language proficiency exams as such evaluation tools for the Luxembourgish language. We find that large models such as ChatGPT, Claude and DeepSeek-R1 typically achieve high scores, while smaller models show weak performances. We also find that the performances in such language exams can be used to predict performances in other NLP tasks.

arxiv情報

著者 Cedric Lothritz,Jordi Cabot
発行日 2025-04-03 11:39:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Testing Low-Resource Language Support in LLMs Using Language Proficiency Exams: the Case of Luxembourgish はコメントを受け付けていません

InfiniteICL: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation

要約

文脈内学習(In-Context Learning: ICL)は大規模言語モデル(Large Language Model: LLM)にとって重要であるが、その有効性は有限な文脈ウィンドウ、特に超長文文脈によって制約される。これを克服するために、我々は、LLMにおけるコンテキストとパラメータを、人間の認知システムにおける短期記憶と長期記憶に類似させたフレームワークであるInfiniteICLを導入し、一時的なコンテキスト知識を永続的なパラメータ更新に変換することに焦点を当てる。このアプローチは、メモリ使用量を大幅に削減し、様々な入力の長さに対してロバストな性能を維持し、理論的には、コンテキスト知識の誘発、選択、統合の原理により、無限のコンテキスト統合を可能にする。評価により、本手法はコンテキスト長を90%削減する一方で、事実想起、根拠推論、技能習得の各課題において、フルコンテキストプロンプトの平均103%の性能を達成することが実証された。また、複雑な実世界のコンテキスト(2Mトークンまでの長さ)に対して逐次的なマルチターン変換を行った場合、我々のアプローチは、元のコンテキストのわずか0.4%しか使用せずに、フルコンテキストプロンプトを上回る。これらの結果は、InfiniteICLが、従来のコンテキストウィンドウサイズの制限を打破することにより、LLMのスケーラビリティと効率を向上させる可能性があることを強調している。

要約(オリジナル)

In-context learning (ICL) is critical for large language models (LLMs), but its effectiveness is constrained by finite context windows, particularly in ultra-long contexts. To overcome this, we introduce InfiniteICL, a framework that parallels context and parameters in LLMs with short- and long-term memory in human cognitive systems, focusing on transforming temporary context knowledge into permanent parameter updates. This approach significantly reduces memory usage, maintains robust performance across varying input lengths, and theoretically enables infinite context integration through the principles of context knowledge elicitation, selection, and consolidation. Evaluations demonstrate that our method reduces context length by 90% while achieving 103% average performance of full-context prompting across fact recall, grounded reasoning, and skill acquisition tasks. When conducting sequential multi-turn transformations on complex, real-world contexts (with length up to 2M tokens), our approach surpasses full-context prompting while using only 0.4% of the original contexts. These findings highlight InfiniteICL’s potential to enhance the scalability and efficiency of LLMs by breaking the limitations of conventional context window sizes.

arxiv情報

著者 Bowen Cao,Deng Cai,Wai Lam
発行日 2025-04-03 08:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | InfiniteICL: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation はコメントを受け付けていません

Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries

要約

自動車のインターネット(IoV)は、高度な侵入検知システムを必要とする可能性のある困難なサイバーセキュリティ攻撃に直面する可能性があり、迅速な開発と対応システムが必要となる。本研究では、IoVの脅威検知環境で使用される機械学習モデルに求められる速度と効率に焦点を当て、従来のCPUベースの実装(scikit-learn)と比較したGPUアクセラレーションライブラリ(cuML)の性能上の利点を調査する。実施された包括的な評価では、3つの異なるIoVセキュリティデータセット(OTIDS、GIDS、CICIoV2024)に対して、4つの機械学習アプローチ(ランダムフォレスト、KNN、ロジスティック回帰、XGBoost)が採用されています。その結果、GPUアクセラレーションによる実装では、従来のCPU処理と比較して、学習時間が最大159分の1に短縮され、予測速度が最大95倍高速化されるなど、計算効率が劇的に向上することが実証されました。この驚くべき性能の飛躍的向上により、研究者やセキュリティ専門家は、今日のコネクテッド・ビークル・ネットワークにおける緊急のリアルタイム・セキュリティ要求に応える、より高速で効果的な脅威検知システムの構築にGPUアクセラレーションを活用できるようになります。

要約(オリジナル)

The Internet of Vehicles (IoV) may face challenging cybersecurity attacks that may require sophisticated intrusion detection systems, necessitating a rapid development and response system. This research investigates the performance advantages of GPU-accelerated libraries (cuML) compared to traditional CPU-based implementations (scikit-learn), focusing on the speed and efficiency required for machine learning models used in IoV threat detection environments. The comprehensive evaluations conducted employ four machine learning approaches (Random Forest, KNN, Logistic Regression, XGBoost) across three distinct IoV security datasets (OTIDS, GIDS, CICIoV2024). Our findings demonstrate that GPU-accelerated implementations dramatically improved computational efficiency, with training times reduced by a factor of up to 159 and prediction speeds accelerated by up to 95 times compared to traditional CPU processing, all while preserving detection accuracy. This remarkable performance breakthrough empowers researchers and security specialists to harness GPU acceleration for creating faster, more effective threat detection systems that meet the urgent real-time security demands of today’s connected vehicle networks.

arxiv情報

著者 Furkan Çolhak,Hasan Coşkun,Tsafac Nkombong Regine Cyrille,Tedi Hoxa,Mert İlhan Ecevit,Mehmet Nafiz Aydın
発行日 2025-04-03 08:42:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.LG | Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries はコメントを受け付けていません

GSR4B: Biomass Map Super-Resolution with Sentinel-1/2 Guidance

要約

大規模かつ高い時空間分解能での正確な地上バイオマス(AGB)マッピングは、気候モデリングから生物多様性評価、持続可能なサプライチェーンモニタリングまで、幅広い用途に不可欠である。現在、きめ細かいAGBマッピングは、通常、地域スケールに限定された高価な空中レーザースキャニング取得キャンペーンに依存している。ESAのCCIマップのようなイニシアチブは、多様なスペースボーン・センサーから、より粗い解像度でグローバルなバイオマス情報を生成しようとしている。全球的な高解像度(HR)マッピングを可能にするために、ESAのSentinel-1/2画像のようなHR衛星観測からAGBを回帰することを提案する研究がいくつかある。我々は、HR衛星観測と既存の低解像度(LR)バイオマス製品の両方を活用することで、HR AGB推定に取り組む新しい方法を提案する。我々はこの問題をガイド付き超解像(GSR)と名付け、100$から10$ mの解像度のLRバイオマスマップ(ソース)を、補助的なHR共登録衛星画像(ガイド)を用いてアップサンプリングすることを目指す。公開されているBioMasstersデータセットを用いて、衛星画像からの直接回帰に対して、超解像AGBマップをガイダンスの有無で比較した。マルチスケールガイダンス(MSG)は、回帰($-780$ t/ha RMSE)と知覚($+2.0$ dB PSNR)の両指標において直接回帰を上回り、大きな計算オーバーヘッドを伴わずに、高バイオマス値をよりよく捉えることができる。興味深いことに、元々設計されたRGB+Depthの設定とは異なり、我々のAGB GSRアプローチが最も良いパフォーマンスを示したのは、ガイド画像のテクスチャを最も保存したものであった。我々の結果は、スケールでの正確なHRバイオマスマッピングのためにGSRフレームワークを採用する強力なケースとなる。我々のコードとモデルの重みは公開されている(https://github.com/kaankaramanofficial/GSR4B)。

要約(オリジナル)

Accurate Above-Ground Biomass (AGB) mapping at both large scale and high spatio-temporal resolution is essential for applications ranging from climate modeling to biodiversity assessment, and sustainable supply chain monitoring. At present, fine-grained AGB mapping relies on costly airborne laser scanning acquisition campaigns usually limited to regional scales. Initiatives such as the ESA CCI map attempt to generate global biomass products from diverse spaceborne sensors but at a coarser resolution. To enable global, high-resolution (HR) mapping, several works propose to regress AGB from HR satellite observations such as ESA Sentinel-1/2 images. We propose a novel way to address HR AGB estimation, by leveraging both HR satellite observations and existing low-resolution (LR) biomass products. We cast this problem as Guided Super-Resolution (GSR), aiming at upsampling LR biomass maps (sources) from $100$ to $10$ m resolution, using auxiliary HR co-registered satellite images (guides). We compare super-resolving AGB maps with and without guidance, against direct regression from satellite images, on the public BioMassters dataset. We observe that Multi-Scale Guidance (MSG) outperforms direct regression both for regression ($-780$ t/ha RMSE) and perception ($+2.0$ dB PSNR) metrics, and better captures high-biomass values, without significant computational overhead. Interestingly, unlike the RGB+Depth setting they were originally designed for, our best-performing AGB GSR approaches are those that most preserve the guide image texture. Our results make a strong case for adopting the GSR framework for accurate HR biomass mapping at scale. Our code and model weights are made publicly available (https://github.com/kaankaramanofficial/GSR4B).

arxiv情報

著者 Kaan Karaman,Yuchang Jiang,Damien Robert,Vivien Sainte Fare Garnot,Maria João Santos,Jan Dirk Wegner
発行日 2025-04-03 09:49:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | GSR4B: Biomass Map Super-Resolution with Sentinel-1/2 Guidance はコメントを受け付けていません

Beyond Non-Expert Demonstrations: Outcome-Driven Action Constraint for Offline Reinforcement Learning

要約

我々は、現実的なデータ、特に最適でない行動方針によって収集された非専門家データを用いたオフライン強化学習の課題に取り組む。この問題に取り組むために、我々はOutcome-Driven Action Flexibility (ODAF)と呼ばれる新しい手法を導入し、行動ポリシーの経験的行動分布への依存を低減することで、それらの悪いデモンストレーションの悪影響を低減することを目指す。具体的には、オフラインデータに基づく行動の尤度のみに依存するのではなく、その結果が安全要件を満たすかどうか、つまり状態サポート領域内に留まるかどうかに従って行動を評価することにより、分布シフトに対処する新しい保守的報酬メカニズムを開発する。理論的な正当性の他に、広く使用されているMuJoCoと様々な迷路ベンチマークに関する経験的な証拠を提供し、不確実性の定量化技術を用いて実装された我々のODAF法が、現実的な非専門的データから学習するエージェントの能力を向上させながら、「軌道のつなぎ目」を改善するために、未知の遷移を効果的に許容することを実証する。

要約(オリジナル)

We address the challenge of offline reinforcement learning using realistic data, specifically non-expert data collected through sub-optimal behavior policies. Under such circumstance, the learned policy must be safe enough to manage distribution shift while maintaining sufficient flexibility to deal with non-expert (bad) demonstrations from offline data.To tackle this issue, we introduce a novel method called Outcome-Driven Action Flexibility (ODAF), which seeks to reduce reliance on the empirical action distribution of the behavior policy, hence reducing the negative impact of those bad demonstrations.To be specific, a new conservative reward mechanism is developed to deal with distribution shift by evaluating actions according to whether their outcomes meet safety requirements – remaining within the state support area, rather than solely depending on the actions’ likelihood based on offline data.Besides theoretical justification, we provide empirical evidence on widely used MuJoCo and various maze benchmarks, demonstrating that our ODAF method, implemented using uncertainty quantification techniques, effectively tolerates unseen transitions for improved ‘trajectory stitching,’ while enhancing the agent’s ability to learn from realistic non-expert data.

arxiv情報

著者 Ke Jiang,Wen Jiang,Yao Li,Xiaoyang Tan
発行日 2025-04-03 01:40:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | Beyond Non-Expert Demonstrations: Outcome-Driven Action Constraint for Offline Reinforcement Learning はコメントを受け付けていません

Robust Unsupervised Domain Adaptation for 3D Point Cloud Segmentation Under Source Adversarial Attacks

要約

教師なし領域適応(UDA)フレームワークは、クリーンデータ上の3次元点群セマンティックセグメンテーションモデルに対して、優れた汎化能力を示してきた。しかし、既存の研究では、ソースドメイン自体が侵害された場合の敵対的なロバスト性を見落としている。UDAフレームワークの頑健性を包括的に調査するために、我々はまず、点群表面へのわずかな摂動だけでデータセットを著しく汚染できる、敵対的な点群生成攻撃を設計する。それに基づいて、汚染されたLiDAR点群を合成した新しいデータセットAdvSynLiDARを提案する。生成された汚染データを用いて、我々はさらに対策としてAdversarial Adaptation Framework (AAF)を開発する。具体的には、キーポイントセンシティブ(KPS)損失をロバストロングテール損失(RLT損失)へと拡張し、デコーダブランチを利用することで、我々のアプローチは、事前学習フェーズにおいてモデルがロングテールクラスにフォーカスすることを可能にし、適応フェーズにおいて点群構造を復元するために高信頼度のデコードされた点群情報を活用する。我々のAAF手法をAdvSynLiDARデータセットで評価した結果、我々のAAF手法は、3D点群セグメンテーションアプリケーションにおけるUDAのソース敵対的摂動下での性能劣化を軽減できることが実証された。

要約(オリジナル)

Unsupervised domain adaptation (UDA) frameworks have shown good generalization capabilities for 3D point cloud semantic segmentation models on clean data. However, existing works overlook adversarial robustness when the source domain itself is compromised. To comprehensively explore the robustness of the UDA frameworks, we first design a stealthy adversarial point cloud generation attack that can significantly contaminate datasets with only minor perturbations to the point cloud surface. Based on that, we propose a novel dataset, AdvSynLiDAR, comprising synthesized contaminated LiDAR point clouds. With the generated corrupted data, we further develop the Adversarial Adaptation Framework (AAF) as the countermeasure. Specifically, by extending the key point sensitive (KPS) loss towards the Robust Long-Tail loss (RLT loss) and utilizing a decoder branch, our approach enables the model to focus on long-tail classes during the pre-training phase and leverages high-confidence decoded point cloud information to restore point cloud structures during the adaptation phase. We evaluated our AAF method on the AdvSynLiDAR dataset, where the results demonstrate that our AAF method can mitigate performance degradation under source adversarial perturbations for UDA in the 3D point cloud segmentation application.

arxiv情報

著者 Haosheng Li,Junjie Chen,Yuecong Xu,Kemi Ding
発行日 2025-04-03 02:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Robust Unsupervised Domain Adaptation for 3D Point Cloud Segmentation Under Source Adversarial Attacks はコメントを受け付けていません

Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting

要約

鳥瞰(BEV)知覚は、複数の視点画像を融合するための統一的な表現を提供し、予測や計画などの幅広い自律走行タスクを可能にするため、大きな注目を集めている。最近の最先端モデルは、投影ベースの手法を利用しており、BEV知覚をクエリ学習として定式化し、明示的な奥行き推定を回避している。このパラダイムでは有望な進歩が見られるが、不確実性モデリングの欠如と高価な計算要件のため、実世界への応用にはまだ不十分である。本研究では、非投影に基づく手法、特にLSS(Lift-Splat-Shoot)パラダイムを再検討し、奥行きの非確実性モデリングにより強化した、不確実性を考慮した新しいBEV知覚フレームワークであるGaussianLSSを紹介する。GaussianLSSは、ソフトな奥行き平均を学習し、奥行き分布の分散を計算することで、空間分散を表現する。次に、奥行き分布を3Dガウシアンに変換し、それらをラスタライズして、不確実性を考慮したBEV特徴を構築する。nuScenesデータセットでGaussianLSSを評価し、非投影ベースの手法と比較して最先端の性能を達成した。特に、GaussianLSSは、投影ベースの手法と比較して2.5倍高速に動作し、メモリ効率において0.3倍少ないメモリを使用しながら、わずか0.4%のIoU差で競争力のある性能を達成し、大きな利点を提供する。

要約(オリジナル)

Bird’s-eye view (BEV) perception has gained significant attention because it provides a unified representation to fuse multiple view images and enables a wide range of down-stream autonomous driving tasks, such as forecasting and planning. Recent state-of-the-art models utilize projection-based methods which formulate BEV perception as query learning to bypass explicit depth estimation. While we observe promising advancements in this paradigm, they still fall short of real-world applications because of the lack of uncertainty modeling and expensive computational requirement. In this work, we introduce GaussianLSS, a novel uncertainty-aware BEV perception framework that revisits unprojection-based methods, specifically the Lift-Splat-Shoot (LSS) paradigm, and enhances them with depth un-certainty modeling. GaussianLSS represents spatial dispersion by learning a soft depth mean and computing the variance of the depth distribution, which implicitly captures object extents. We then transform the depth distribution into 3D Gaussians and rasterize them to construct uncertainty-aware BEV features. We evaluate GaussianLSS on the nuScenes dataset, achieving state-of-the-art performance compared to unprojection-based methods. In particular, it provides significant advantages in speed, running 2.5x faster, and in memory efficiency, using 0.3x less memory compared to projection-based methods, while achieving competitive performance with only a 0.4% IoU difference.

arxiv情報

著者 Shu-Wei Lu,Yi-Hsuan Tsai,Yi-Ting Chen
発行日 2025-04-03 07:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting はコメントを受け付けていません

Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control

要約

セグメンテーション、深さ、エッジなどのさまざまなモダリティの複数の空間制御入力に基づいて世界シミュレーションを生成できる条件付き世界生成モデルであるCosmos-Transferを紹介します。
設計では、空間条件スキームは適応性があり、カスタマイズ可能です。
さまざまな空間位置で異なる条件付き入力を異なる重み付けすることができます。
これにより、非常に制御可能な世界生成が可能になり、SIM2REALを含むさまざまな世界から世界への転送ユースケースでの使用が見つかります。
提案されたモデルを分析するために広範な評価を実施し、ロボット工学SIM2REALや自律車両データの濃縮など、物理AIのアプリケーションを実証します。
さらに、NVIDIA GB200 NVL72ラックを使用してリアルタイムの世界生成を達成するための推論スケーリング戦略を実証します。
この分野での研究開発を加速するために、https://github.com/nvidia-cosmos/cosmos-transfer1でモデルとコードをオープンソーシングします。

要約(オリジナル)

We introduce Cosmos-Transfer, a conditional world generation model that can generate world simulations based on multiple spatial control inputs of various modalities such as segmentation, depth, and edge. In the design, the spatial conditional scheme is adaptive and customizable. It allows weighting different conditional inputs differently at different spatial locations. This enables highly controllable world generation and finds use in various world-to-world transfer use cases, including Sim2Real. We conduct extensive evaluations to analyze the proposed model and demonstrate its applications for Physical AI, including robotics Sim2Real and autonomous vehicle data enrichment. We further demonstrate an inference scaling strategy to achieve real-time world generation with an NVIDIA GB200 NVL72 rack. To help accelerate research development in the field, we open-source our models and code at https://github.com/nvidia-cosmos/cosmos-transfer1.

arxiv情報

著者 NVIDIA,:,Hassan Abu Alhaija,Jose Alvarez,Maciej Bala,Tiffany Cai,Tianshi Cao,Liz Cha,Joshua Chen,Mike Chen,Francesco Ferroni,Sanja Fidler,Dieter Fox,Yunhao Ge,Jinwei Gu,Ali Hassani,Michael Isaev,Pooya Jannaty,Shiyi Lan,Tobias Lasser,Huan Ling,Ming-Yu Liu,Xian Liu,Yifan Lu,Alice Luo,Qianli Ma,Hanzi Mao,Fabio Ramos,Xuanchi Ren,Tianchang Shen,Xinglong Sun,Shitao Tang,Ting-Chun Wang,Jay Wu,Jiashu Xu,Stella Xu,Kevin Xie,Yuchong Ye,Xiaodong Yang,Xiaohui Zeng,Yu Zeng
発行日 2025-04-01 21:14:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control はコメントを受け付けていません

VizFlyt: Perception-centric Pedagogical Framework For Autonomous Aerial Robots

要約

私たちの生活の中で自律的な航空ロボットが一般的になっています。
実践的な航空ロボットコースは、成長する市場の需要を満たすために、次世代の労働力を訓練する上で極めて重要です。
このような効率的で説得力のあるコースは、信頼できるテストベッドに依存します。
このホワイトペーパーでは、航空ロボットコースのオープンソースの知覚中心のハードウェア(HITL)フォトリアリスティックテストフレームワークであるVizflytを紹介します。
3Dガウスのスプラッティングを使用して、外部のローカリゼーションシステムからのポーズを活用して、リアルタイムおよびフォトリアリックな視覚センサーを幻覚させます。
これにより、障害物に衝突するリスクなしに、航空ロボットでの自律アルゴリズムのストレスのないテストが可能になります。
100Hz以上のシステムアップデートレートを達成します。
最後に、実践的な空中ロボットコースを提供する過去の経験に基づいて、将来のVizflytに基づいた新しいオープンソースとオープンハードウェアカリキュラムを提案します。
実際のHITL実験でさまざまなコースプロジェクトでフレームワークをテストし、そのようなシステムの有効性とその大きな潜在的なユースケースを示す結果を提示します。
コード、データセット、ハードウェアガイド、デモビデオはhttps://pear.wpi.edu/research/vizflyt.htmlで入手できます。

要約(オリジナル)

Autonomous aerial robots are becoming commonplace in our lives. Hands-on aerial robotics courses are pivotal in training the next-generation workforce to meet the growing market demands. Such an efficient and compelling course depends on a reliable testbed. In this paper, we present VizFlyt, an open-source perception-centric Hardware-In-The-Loop (HITL) photorealistic testing framework for aerial robotics courses. We utilize pose from an external localization system to hallucinate real-time and photorealistic visual sensors using 3D Gaussian Splatting. This enables stress-free testing of autonomy algorithms on aerial robots without the risk of crashing into obstacles. We achieve over 100Hz of system update rate. Lastly, we build upon our past experiences of offering hands-on aerial robotics courses and propose a new open-source and open-hardware curriculum based on VizFlyt for the future. We test our framework on various course projects in real-world HITL experiments and present the results showing the efficacy of such a system and its large potential use cases. Code, datasets, hardware guides and demo videos are available at https://pear.wpi.edu/research/vizflyt.html

arxiv情報

著者 Kushagra Srivastava,Rutwik Kulkarni,Manoj Velmurugan,Nitin J. Sanket
発行日 2025-04-01 22:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | VizFlyt: Perception-centric Pedagogical Framework For Autonomous Aerial Robots はコメントを受け付けていません

Emotion estimation from video footage with LSTM

要約

一般的な感情の推定は、長い間研究されてきた分野であり、機械学習を使用していくつかのアプローチが存在します。
このホワイトペーパーでは、カメラのライブストリームで検出された顔のためにライブラリメディアピペが生成するブレンド形状を処理するLSTMモデルを提示して、表情から主な感情を推定するために、このモデルはFER2013データセットでトレーニングされ、71%の精度と62%のF1%DATATEMESTを削減するために62%F1%のDATASEを削減する結果を提供します。
費用。
https://github.com/samir-atra/emotion_estimation_from_video_footage_with_lstm_ml_algorithm

要約(オリジナル)

Emotion estimation in general is a field that has been studied for a long time, and several approaches exist using machine learning. in this paper, we present an LSTM model, that processes the blend-shapes produced by the library MediaPipe, for a face detected in a live stream of a camera, to estimate the main emotion from the facial expressions, this model is trained on the FER2013 dataset and delivers a result of 71% accuracy and 62% f1-score which meets the accuracy benchmark of the FER2013 dataset, with significantly reduced computation costs. https://github.com/Samir-atra/Emotion_estimation_from_video_footage_with_LSTM_ML_algorithm

arxiv情報

著者 Samer Attrah
発行日 2025-04-01 23:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T40, cs.CV, cs.LG, cs.RO, I.2.9 | Emotion estimation from video footage with LSTM はコメントを受け付けていません