投稿者「jarxiv」のアーカイブ

Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

要約 スカラー報酬のような数値フィードバックを用いた強化学習(RL)の最近の進歩 … 続きを読む

カテゴリー: cs.AI, cs.CL | Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback はコメントを受け付けていません

UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

要約 既存の統一モデルは、視覚言語理解やテキストから画像への生成では高い性能を発 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation はコメントを受け付けていません

FlySearch: Exploring how vision-language models explore

要約 現実の世界は混乱しており、構造化されていない。重要な情報を発見するためには … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | FlySearch: Exploring how vision-language models explore はコメントを受け付けていません

On the class of coding optimality of human languages and the origins of Zipf’s law

要約 ここでは、符号化システムの最適性に関する新しいクラスを提示する。そのクラス … 続きを読む

カテゴリー: cs.CL, physics.soc-ph | On the class of coding optimality of human languages and the origins of Zipf’s law はコメントを受け付けていません

Multi Layered Autonomy and AI Ecologies in Robotic Art Installations

要約 バオヤン・チェン(baoyangchen.com)による大規模なインスタレ … 続きを読む

カテゴリー: cs.AI, cs.RO | Multi Layered Autonomy and AI Ecologies in Robotic Art Installations はコメントを受け付けていません

GL-LowPopArt: A Nearly Instance-Wise Minimax-Optimal Estimator for Generalized Low-Rank Trace Regression

要約 我々は、一般化された低ランクのトレース回帰のための新しいCatoniスタイ … 続きを読む

カテゴリー: cs.LG, stat.ML | GL-LowPopArt: A Nearly Instance-Wise Minimax-Optimal Estimator for Generalized Low-Rank Trace Regression はコメントを受け付けていません

DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors

要約 オープンベンチマークは、再現性と透明性を提供し、大規模な言語モデルの評価と … 続きを読む

カテゴリー: cs.CL | DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors はコメントを受け付けていません

MobCLIP: Learning General-purpose Geospatial Representation at Scale

要約 地理空間上の位置の表現学習は、一般的な地理空間知能を実現する上で、依然とし … 続きを読む

カテゴリー: cs.AI | MobCLIP: Learning General-purpose Geospatial Representation at Scale はコメントを受け付けていません

Learning Autonomous Surgical Irrigation and Suction with the da Vinci Research Kit Using Reinforcement Learning

要約 灌流-吸引プロセスは、低侵襲手術(MIS)において術野をすすぎ、清潔にする … 続きを読む

カテゴリー: cs.RO | Learning Autonomous Surgical Irrigation and Suction with the da Vinci Research Kit Using Reinforcement Learning はコメントを受け付けていません

One Policy but Many Worlds: A Scalable Unified Policy for Versatile Humanoid Locomotion

要約 従来の強化学習(RL)手法では、タスク固有の報酬が必要であり、訓練地形が増 … 続きを読む

カテゴリー: cs.LG, cs.RO | One Policy but Many Worlds: A Scalable Unified Policy for Versatile Humanoid Locomotion はコメントを受け付けていません