leaders2021
Описание
Хакатон "Лидеры цифровой трансформации" 2021
Языки
- Jupyter Notebook100%
Хакатон "Лидеры цифровой трансформации"
Кейс №06. Рекомендательный сервис по размещению городской или частной социальной инфраструктуры Разработайте пользовательский интерфейс и модель определения оптимальных мест размещения городской или частной социальной инфраструктуры в городе Москве (больницы, сады, школы, МФЦ и др.) на основе анализа покрытия существующей инфраструктуры.
Введение
В рамках данного хакатона, была собрана команда Legio Cybernetica, в составе:
- Александр Домичев (капитан)
- Татьяна Андрейкина (дизайн)
- Иван Князь (backend)
- Хасан Амиров (frontend)
- Я сам - Илья Хохлов (Data Science)
Общий сборный репозиторий располагается по адресу на GitHub, здесь же представлено только моё решение по анализу данных и машинному обучению (DS).
Данные
Подробное описание исходных данных и действий представлено собственно говоря в основном файле Jupyter Notebook, но работа выполнялась на следующих данных:
- Исходные данные организаторов хакатона:
- 01_Location_July.csv и 01_CLocation_July.csv - Сгенерированные датасеты о численности населения на территории Москвы и с гранулярностью по районам города Москвы и секторами 500х500 метров;
- 04_Matrix_Home_Work_July; 04_CMatrix_Home_Work_July.csv - Сгенерированный датасет о динамике перемещения населения дом-работа на территории Москвы (Матрица корреспонденции дом-работа) и с гранулярностью по районам города Москвы и секторами 500х500 метров;
- Геоданные с границами районов (admzones2021.shp) и сеткой 500х500 метров (fishnet2021.shp)
- Информация Портала открытых данных правительства Москвы:
Предложенное решение
Задача решалась на примере одного из объектов социальной инфраструктуры, а именно - поликлинник, основная идея моего решения опиралась на следующее:
- Каждая поликлинника имеет зону обслуживания в соответствии с нормами (СП 42.13330.2016 "Градостроительство"), равный 1000 метров;
- Следовательно, задачу можно свести к задаче классификации, по признаку "обслуживается ли участок";
- В связи с неравномерностью данных о численности (плотность населения Старой Москвы значительно выше таковой у Новой Москвы), было принято следующее: Ввести новые признаки - относительную численность населения (отношение средней численности по всему району к численности населения в конкретной ячейке 500х500);
- С учётом неравномерности фактического расположения искомого признака (обслуживание поликлинниками) у Старой Москвы (равномерное) и у Новой (единичные участки), было принято выбрать тренировочную и тестовую выборки не случайным образом, а по территориальному признаку (Старая/Новая Москва);
- Для проверки тестовой модели были собраны данные с портала ИАИС ОГД о реальном местоположении строительства перспективных объектов здравоохранения;
- В качестве метрики была принята F-мера (f1_score из пакета scikit-learn);
- Принятая модель - LightGBM от Microsoft, как один из вариантов реализации градиентного бустинга. F-мера, полученная на ней составляла 0.78, и графически повторяла основные участки концентрации людей;
- Последним этапом работы принятого решения была фильтрация участков, на которых строительство невозможно или затруднено (парковые зоны, зоны охраны объектов культурного наследия).
Результат
По нашей задаче мы вошли в топ 10 (финал), но победителями, увы, не стали. (протокол)