要約
伝統的に、近隣の研究では、身体障害、腐敗、街路安全、社会文化的シンボルなどの環境特性を特定し、発達および健康結果への影響を調べるために、詳細なプロトコルによって導かれたインタビュー、調査、および手動画像注釈を採用してきました。
これらの方法は豊富な洞察をもたらしますが、時間がかかり、集中的な専門家の介入が必要です。
ビジョン言語モデル(VLM)を含む最近の技術の進歩は、このプロセスの一部を自動化し始めています。
ただし、既存の取り組みは多くの場合、アドホックであり、研究デザインと地理的コンテキスト全体で適応性が欠けています。
このデモペーパーでは、スケーラブルな近隣環境評価のためにVLMに関連する社会科学の専門知識を埋め込む、人間中心の研究者で構成可能なワークフローであるStreetlensを紹介します。
Streetlensは、確立されたインタビュープロトコルから派生した質問に分析を接地し、関連するストリートビュー画像(SVI)を取得し、客観的な特徴(たとえば、車の数)から主観的な評価(例えば、障害の感覚)から幅広いセマンティック注釈を生成することにより、訓練された人間のコーダーのプロセスを模倣します。
研究者がドメインに基づいたプロンプトを通じてVLMの役割を定義できるようにすることにより、StreetLensは分析プロセスの中核にドメインの知識を配置します。
また、以前の調査データの統合をサポートして、堅牢性を高め、多様な設定で評価される特性の範囲を拡大します。
Streetlensがアクセスしやすく、公開またはカスタムSVIデータセットを扱う研究者が拡張可能にするためのGoogle Colabノートブックを提供しています。
Streetlensは、柔軟なエージェントAIシステムへのシフトを表しています。これは、研究者と緊密に連携して近隣の研究を加速および拡大することです。
要約(オリジナル)
Traditionally, neighborhood studies have employed interviews, surveys, and manual image annotation guided by detailed protocols to identify environmental characteristics, including physical disorder, decay, street safety, and sociocultural symbols, and to examine their impact on developmental and health outcomes. While these methods yield rich insights, they are time-consuming and require intensive expert intervention. Recent technological advances, including vision-language models (VLMs), have begun to automate parts of this process; however, existing efforts are often ad hoc and lack adaptability across research designs and geographic contexts. In this demo paper, we present StreetLens, a human-centered, researcher-configurable workflow that embeds relevant social science expertise in a VLM for scalable neighborhood environmental assessments. StreetLens mimics the process of trained human coders by grounding the analysis in questions derived from established interview protocols, retrieving relevant street view imagery (SVI), and generating a wide spectrum of semantic annotations from objective features (e.g., the number of cars) to subjective perceptions (e.g., the sense of disorder in an image). By enabling researchers to define the VLM’s role through domain-informed prompting, StreetLens places domain knowledge at the core of the analysis process. It also supports the integration of prior survey data to enhance robustness and expand the range of characteristics assessed across diverse settings. We provide a Google Colab notebook to make StreetLens accessible and extensible for researchers working with public or custom SVI datasets. StreetLens represents a shift toward flexible, agentic AI systems that work closely with researchers to accelerate and scale neighborhood studies.
arxiv情報
著者 | Jina Kim,Leeje Jang,Yao-Yi Chiang,Guanyu Wang,Michelle Pasco |
発行日 | 2025-06-17 16:06:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google