femt0s/leaders2021: Хакатон "Лидеры цифровой трансформации" 2021

Хакатон "Лидеры цифровой трансформации"

Кейс №06. Рекомендательный сервис по размещению городской или частной социальной инфраструктуры Разработайте пользовательский интерфейс и модель определения оптимальных мест размещения городской или частной социальной инфраструктуры в городе Москве (больницы, сады, школы, МФЦ и др.) на основе анализа покрытия существующей инфраструктуры.

Введение

В рамках данного хакатона, была собрана команда Legio Cybernetica, в составе:

Александр Домичев (капитан)
Татьяна Андрейкина (дизайн)
Иван Князь (backend)
Хасан Амиров (frontend)
Я сам - Илья Хохлов (Data Science)

Общий сборный репозиторий располагается по адресу на GitHub, здесь же представлено только моё решение по анализу данных и машинному обучению (DS).

Данные

Подробное описание исходных данных и действий представлено собственно говоря в основном файле Jupyter Notebook, но работа выполнялась на следующих данных:

Исходные данные организаторов хакатона:
- 01_Location_July.csv и 01_CLocation_July.csv - Сгенерированные датасеты о численности населения на территории Москвы и с гранулярностью по районам города Москвы и секторами 500х500 метров;
- 04_Matrix_Home_Work_July; 04_CMatrix_Home_Work_July.csv - Сгенерированный датасет о динамике перемещения населения дом-работа на территории Москвы (Матрица корреспонденции дом-работа) и с гранулярностью по районам города Москвы и секторами 500х500 метров;
- Геоданные с границами районов (admzones2021.shp) и сеткой 500х500 метров (fishnet2021.shp)
Информация Портала открытых данных правительства Москвы:

Предложенное решение

Задача решалась на примере одного из объектов социальной инфраструктуры, а именно - поликлинник, основная идея моего решения опиралась на следующее:

Каждая поликлинника имеет зону обслуживания в соответствии с нормами (СП 42.13330.2016 "Градостроительство"), равный 1000 метров;
Следовательно, задачу можно свести к задаче классификации, по признаку "обслуживается ли участок";
В связи с неравномерностью данных о численности (плотность населения Старой Москвы значительно выше таковой у Новой Москвы), было принято следующее: Ввести новые признаки - относительную численность населения (отношение средней численности по всему району к численности населения в конкретной ячейке 500х500);
С учётом неравномерности фактического расположения искомого признака (обслуживание поликлинниками) у Старой Москвы (равномерное) и у Новой (единичные участки), было принято выбрать тренировочную и тестовую выборки не случайным образом, а по территориальному признаку (Старая/Новая Москва);
Для проверки тестовой модели были собраны данные с портала ИАИС ОГД о реальном местоположении строительства перспективных объектов здравоохранения;
В качестве метрики была принята F-мера (f1_score из пакета scikit-learn);
Принятая модель - LightGBM от Microsoft, как один из вариантов реализации градиентного бустинга. F-мера, полученная на ней составляла 0.78, и графически повторяла основные участки концентрации людей;
Последним этапом работы принятого решения была фильтрация участков, на которых строительство невозможно или затруднено (парковые зоны, зоны охраны объектов культурного наследия).

Результат

По нашей задаче мы вошли в топ 10 (финал), но победителями, увы, не стали. (протокол)

leaders2021

Описание

Языки

Ilia Khokhlov
Update README.md
4 года назад
1a5f164
Не верифицирован

Хакатон "Лидеры цифровой трансформации"

Введение

Данные

Предложенное решение

Результат

leaders2021

Описание

Языки

Ilia KhokhlovUpdate README.md4 года назад1a5f164Не верифицирован

Хакатон "Лидеры цифровой трансформации"

Введение

Данные

Предложенное решение

Результат

Ilia Khokhlov
Update README.md
4 года назад
1a5f164
Не верифицирован