leaders2021

0

Описание

Хакатон "Лидеры цифровой трансформации" 2021

Языки

  • Jupyter Notebook100%
4 года назад
4 года назад
4 года назад
4 года назад
4 года назад
4 года назад
4 года назад
README.md

Хакатон "Лидеры цифровой трансформации"

Кейс №06. Рекомендательный сервис по размещению городской или частной социальной инфраструктуры Разработайте пользовательский интерфейс и модель определения оптимальных мест размещения городской или частной социальной инфраструктуры в городе Москве (больницы, сады, школы, МФЦ и др.) на основе анализа покрытия существующей инфраструктуры.


Введение

В рамках данного хакатона, была собрана команда Legio Cybernetica, в составе:

  • Александр Домичев (капитан)
  • Татьяна Андрейкина (дизайн)
  • Иван Князь (backend)
  • Хасан Амиров (frontend)
  • Я сам - Илья Хохлов (Data Science)

Общий сборный репозиторий располагается по адресу на GitHub, здесь же представлено только моё решение по анализу данных и машинному обучению (DS).

Данные

Подробное описание исходных данных и действий представлено собственно говоря в основном файле Jupyter Notebook, но работа выполнялась на следующих данных:

Предложенное решение

Задача решалась на примере одного из объектов социальной инфраструктуры, а именно - поликлинник, основная идея моего решения опиралась на следующее:

  1. Каждая поликлинника имеет зону обслуживания в соответствии с нормами (СП 42.13330.2016 "Градостроительство"), равный 1000 метров;
  2. Следовательно, задачу можно свести к задаче классификации, по признаку "обслуживается ли участок";
  3. В связи с неравномерностью данных о численности (плотность населения Старой Москвы значительно выше таковой у Новой Москвы), было принято следующее: Ввести новые признаки - относительную численность населения (отношение средней численности по всему району к численности населения в конкретной ячейке 500х500);
  4. С учётом неравномерности фактического расположения искомого признака (обслуживание поликлинниками) у Старой Москвы (равномерное) и у Новой (единичные участки), было принято выбрать тренировочную и тестовую выборки не случайным образом, а по территориальному признаку (Старая/Новая Москва);
  5. Для проверки тестовой модели были собраны данные с портала ИАИС ОГД о реальном местоположении строительства перспективных объектов здравоохранения;
  6. В качестве метрики была принята F-мера (f1_score из пакета scikit-learn);
  7. Принятая модель - LightGBM от Microsoft, как один из вариантов реализации градиентного бустинга. F-мера, полученная на ней составляла 0.78, и графически повторяла основные участки концентрации людей;
  8. Последним этапом работы принятого решения была фильтрация участков, на которых строительство невозможно или затруднено (парковые зоны, зоны охраны объектов культурного наследия).

Результат

По нашей задаче мы вошли в топ 10 (финал), но победителями, увы, не стали. (протокол)