投稿者「jarxiv」のアーカイブ

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

要約 計算病理学においてマルチモーダルラージランゲージモデル(MLLMS)が行っ … 続きを読む

カテゴリー: cs.AI, cs.CV | SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding はコメントを受け付けていません

TULIP: Towards Unified Language-Image Pretraining

要約 ClipやSiglipなどの画像テキストコントラストモデルの最近の成功にも … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | TULIP: Towards Unified Language-Image Pretraining はコメントを受け付けていません

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

要約 創造性は知性の基本的な側面であり、多様なコンテキスト全体で斬新で適切なソリ … 続きを読む

カテゴリー: cs.CV | Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM はコメントを受け付けていません

Technical Report: Aggregation on Learnable Manifolds for Asynchronous Federated Optimization

要約 Federated Learning(FL)では、クライアントモデルのサー … 続きを読む

カテゴリー: cs.LG | Technical Report: Aggregation on Learnable Manifolds for Asynchronous Federated Optimization はコメントを受け付けていません

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

要約 視覚的理解と生成に必要な異なる表現スペースは、大規模な言語モデルの自己回帰 … 続きを読む

カテゴリー: cs.CL, cs.CV | DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies はコメントを受け付けていません

State Space Model Meets Transformer: A New Paradigm for 3D Object Detection

要約 マルチレイヤートランスデコーダーを使用してオブジェクトクエリを繰り返し改良 … 続きを読む

カテゴリー: cs.AI, cs.CV | State Space Model Meets Transformer: A New Paradigm for 3D Object Detection はコメントを受け付けていません

MoonCast: High-Quality Zero-Shot Podcast Generation

要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MoonCast: High-Quality Zero-Shot Podcast Generation はコメントを受け付けていません

EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment

要約 器用なロボットの手は、低ダイバーシティデータで訓練されたモデルの制限により … 続きを読む

カテゴリー: cs.CV | EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment はコメントを受け付けていません

Advances in 4D Generation: A Survey

要約 生成人工知能(AI)は、近年、さまざまなドメインで大きな進歩を遂げています … 続きを読む

カテゴリー: cs.CV | Advances in 4D Generation: A Survey はコメントを受け付けていません

Playful DoggyBot: Learning Agile and Precise Quadrupedal Locomotion

要約 四葉型動物は、実際のオブジェクトと対話しながら、アジャイルで遊び心のあるタ … 続きを読む

カテゴリー: cs.RO | Playful DoggyBot: Learning Agile and Precise Quadrupedal Locomotion はコメントを受け付けていません