cs.AI」カテゴリーアーカイブ

MetaUrban: A Simulation Platform for Embodied AI in Urban Spaces

要約 街並みや広場などの公共の都市空間は、住民にサービスを提供し、あらゆる活気に … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | MetaUrban: A Simulation Platform for Embodied AI in Urban Spaces はコメントを受け付けていません

Video Diffusion Alignment via Reward Gradients

要約 私たちは、基礎的なビデオ普及モデルの構築に向けて大きな進歩を遂げました。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Video Diffusion Alignment via Reward Gradients はコメントを受け付けていません

Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding

要約 大規模言語モデル (LLM) は、自然言語理解において大幅な進歩をもたらし … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding はコメントを受け付けていません

Toto: Time Series Optimized Transformer for Observability

要約 この技術レポートでは、Datadog によって開発された時系列予測のための … 続きを読む

カテゴリー: cs.AI, cs.LG | Toto: Time Series Optimized Transformer for Observability はコメントを受け付けていません

BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark

要約 モバイル双手動デモ駆動ロボット操作のための新しいベンチマークおよび学習環境 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark はコメントを受け付けていません

Missile detection and destruction robot using detection algorithm

要約 この研究は、世界の現在のミサイル探知技術と、バングラデシュでシステムを導入 … 続きを読む

カテゴリー: cs.AI, cs.RO | Missile detection and destruction robot using detection algorithm はコメントを受け付けていません

Tuning Vision-Language Models with Candidate Labels by Prompt Alignment

要約 ビジョン言語モデル (VLM) は、画像とテキストのペアの大規模なトレーニ … 続きを読む

カテゴリー: cs.AI, cs.CV | Tuning Vision-Language Models with Candidate Labels by Prompt Alignment はコメントを受け付けていません

Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard

要約 三目並べ、コネクトフォー、五目並べなどのグリッドベースのゲームを通じて、大 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE | Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard はコメントを受け付けていません

SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis

要約 歌声変換 (SVC) は、元の内容を維持したまま、特定の音楽作品内の歌手の … 続きを読む

カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7 | SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis はコメントを受け付けていません

RASP: A Drone-based Reconfigurable Actuation and Sensing Platform for Engaging Physical Environments with Foundation Models

要約 基礎モデルと大規模言語モデルは、テキストやデジタル メディアを生成するため … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.RO | RASP: A Drone-based Reconfigurable Actuation and Sensing Platform for Engaging Physical Environments with Foundation Models はコメントを受け付けていません