cs.LG」カテゴリーアーカイブ

LLaRA: Supercharging Robot Learning Data for Vision-Language Policy

要約 ビジョン言語モデル(VLM)は最近、ロボットアクションを生成するために活用 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | LLaRA: Supercharging Robot Learning Data for Vision-Language Policy はコメントを受け付けていません

Temporal Preference Optimization for Long-Form Video Understanding

要約 ビデオの大規模なマルチモーダルモデル(ビデオLMMS)の大幅な進歩にもかか … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Temporal Preference Optimization for Long-Form Video Understanding はコメントを受け付けていません

Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models

要約 実際のシナリオでは、モデルが未知のターゲット分布に適応または一般化する必要 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models はコメントを受け付けていません

Diffusion Autoencoders are Scalable Image Tokenizers

要約 画像をコンパクトな視覚表現にトークン化することは、効率的で高品質の画像生成 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Diffusion Autoencoders are Scalable Image Tokenizers はコメントを受け付けていません

Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models

要約 特定の医療スキャンで正確な病理学的領域を局在することは、従来、大量の境界の … 続きを読む

カテゴリー: cs.CV, cs.LG | Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models はコメントを受け付けていません

Improving Privacy Benefits of Redaction

要約 自然なテキストデータを消毒するために使用できる新しい編集方法論を提案します … 続きを読む

カテゴリー: cs.CL, cs.CR, cs.LG | Improving Privacy Benefits of Redaction はコメントを受け付けていません

Computing the gradients with respect to all parameters of a quantum neural network using a single circuit

要約 勾配を見つけることは、機械学習モデルをトレーニングする上で重要なステップで … 続きを読む

カテゴリー: cs.AI, cs.LG, quant-ph | Computing the gradients with respect to all parameters of a quantum neural network using a single circuit はコメントを受け付けていません

Boosting Weak Positives for Text Based Person Search

要約 大規模なビジョン言語モデルは、クロスモーダルオブジェクトの検索に革命をもた … 続きを読む

カテゴリー: cs.CV, cs.LG | Boosting Weak Positives for Text Based Person Search はコメントを受け付けていません

RLPP: A Residual Method for Zero-Shot Real-World Autonomous Racing on Scaled Platforms

要約 自律的なレースは、動的な条件下で迅速な決定を下すことができる堅牢なコントロ … 続きを読む

カテゴリー: 68T40, cs.LG, cs.RO | RLPP: A Residual Method for Zero-Shot Real-World Autonomous Racing on Scaled Platforms はコメントを受け付けていません

Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey

要約 マルチモーダルビジョン言語モデル(VLM)は、コンピュータービジョンと自然 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey はコメントを受け付けていません