投稿者「jarxiv」のアーカイブ

ExAct: A Video-Language Benchmark for Expert Action Analysis

投稿日: 2025年6月9日作成者: jarxiv

要約熟練した身体的人間の活動を専門レベルの理解のための新しいビデオ言語ベンチマ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CoMemo: LVLMs Need Image Context with Image Memory

投稿日: 2025年6月9日作成者: jarxiv

要約大規模な言語モデルに基づいて構築された大規模な視覚言語モデルの最近の進歩に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation

投稿日: 2025年6月9日作成者: jarxiv

要約現代の地球観測（EO）は、センサーと地域全体で衛星画像のスケールと多様性を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Exploring Diffusion Transformer Designs via Grafting

投稿日: 2025年6月9日作成者: jarxiv

要約モデルアーキテクチャの設計には、オペレーター（注意、畳み込みなど）や構成（ … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Kinetics: Rethinking Test-Time Scaling Laws

投稿日: 2025年6月9日作成者: jarxiv

要約実用的な効率の観点からテスト時間のスケーリング法則を再考し、小さなモデルの … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

Teaming in the AI Era: AI-Augmented Frameworks for Forming, Simulating, and Optimizing Human Teams

投稿日: 2025年6月9日作成者: jarxiv

要約効果的なチームワークは、多様なドメインで不可欠です。チームの形成段階では … 続きを読む →

カテゴリー: cs.AI, cs.HC, cs.MA | コメントを受け付けていません

Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh

投稿日: 2025年6月9日作成者: jarxiv

要約テクスチャメッシュと対応するマルチビューパノラマ画像として表される屋内スペ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Does It Make Sense to Speak of Introspection in Large Language Models?

投稿日: 2025年6月9日作成者: jarxiv

要約大規模な言語モデル（LLM）は、魅力的な言語行動を示し、時には自己報告を提 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting

投稿日: 2025年6月9日作成者: jarxiv

要約 NERFやGaussian Splatting（GS）を含むニューラルレン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction

投稿日: 2025年6月9日作成者: jarxiv

要約このペーパーでは、複雑な動きで動的な3Dシーンを再構築するという課題に取り … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

ExAct: A Video-Language Benchmark for Expert Action Analysis

CoMemo: LVLMs Need Image Context with Image Memory

TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation

Exploring Diffusion Transformer Designs via Grafting

Kinetics: Rethinking Test-Time Scaling Laws

Teaming in the AI Era: AI-Augmented Frameworks for Forming, Simulating, and Optimizing Human Teams

Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh

Does It Make Sense to Speak of Introspection in Large Language Models?

Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting

FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction

最近の投稿

最近のコメント

アーカイブ

カテゴリー