月別アーカイブ: 2025年5月

Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch

投稿日: 2025年5月30日作成者: jarxiv

要約スケッチリサーチは時間とともに集合的に成熟しているため、AT-Massの商 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ZeroGUI: Automating Online GUI Learning at Zero Human Cost

投稿日: 2025年5月30日作成者: jarxiv

要約大規模なビジョン言語モデル（VLM）の迅速な進歩により、純粋なビジョンベー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

投稿日: 2025年5月30日作成者: jarxiv

要約空間インテリジェンスは、複雑な物理的世界で動作するマルチモーダル大手言語モ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Weight Space Representation Learning on Diverse NeRF Architectures

投稿日: 2025年5月30日作成者: jarxiv

要約ニューラル放射輝度フィールド（NERF）は、神経ネットワークの重みに形状と … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

投稿日: 2025年5月30日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）の最近の進歩は、視覚言語のタスクに … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models

投稿日: 2025年5月30日作成者: jarxiv

要約画像テキストモデルは、画像レベルのタスクに優れていますが、詳細な視覚的理解 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control

投稿日: 2025年5月30日作成者: jarxiv

要約強化学習（RL）はロボット工学の大きな進歩を遂げていますが、その複雑さと長 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.RO | コメントを受け付けていません

Maximizing Confidence Alone Improves Reasoning

投稿日: 2025年5月30日作成者: jarxiv

要約強化学習（RL）により、機械学習モデルが多くの分野で大きな進歩を達成できる … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

投稿日: 2025年5月30日作成者: jarxiv

要約世界モデルの最近の進歩は、動的環境シミュレーションに革命をもたらし、システ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages

投稿日: 2025年5月30日作成者: jarxiv

要約世界中の人々は、感情を表現するために微妙で複雑な方法で言語を使用しています … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

月別アーカイブ: 2025年5月

Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch

ZeroGUI: Automating Online GUI Learning at Zero Human Cost

MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

Weight Space Representation Learning on Diverse NeRF Architectures

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models

FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control

Maximizing Confidence Alone Improves Reasoning

GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages

最近の投稿

最近のコメント

アーカイブ

カテゴリー