training_projects
Выбор локации для скважины
Добывающей компании "ГлавРосГосНефть" нужно решить, где бурить новую скважину.
Цель исследования: Построить модель машинного обучения, которая поможет определить регион, где добыча принесет наибольшую прибыль. Проанализировать возможную прибыль и риски техникой Bootstrap
Контекст исследования: Пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Данные синтетические: детали контрактов и характеристики месторождений не разглашаются.
Шаги для выбора локации:
- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.
Условия задачи:
- Для обучения модели подходит только линейная регрессия (остальные — недостаточно предсказуемые).
- При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки.
- Бюджет на разработку скважин в регионе — 10 млрд рублей.
- При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.
- После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.
Описание данных:
-
Датасэты:
/datasets/geo_data_0.csv
/datasets/geo_data_1.csv
/datasets/geo_data_2.csv
-
Признаки:
id
— уникальный идентификатор скважины;f0, f1, f2
— три признака точек (неважно, что они означают, но сами признаки значимы);`product
— объём запасов в скважине (тыс. баррелей).
Вывод
В результате исследования была построена модель машинного обучения, способная определить регион, где добыча принесет наибольшую прибыль. В ходе анализа рисков и прибыли при помощи метода Bootstrap
были сделаны следующие выводы:
- Рекомендация по выбору региона -
регион номер 2
- В нем предсказан маленький
риск убытков - 0.3%%
(VS 2% в первом регионе и 3% в третьем регионе) - Регион может в среднем принести
~665 млн прибыли
(VS 600 млн в первом регионе и 615 млн в третьем регионе)
Исследование было разделено на несколько этапов:
1. Загрузка и подготовка данных:
- Изучение общей информации
-
Импортировали нужные библиотеки и загрузили 3 датасэта:
first_geo
,second_geo
иthird_geo
-
Написали функцию
get_info
для получения общей информации о данных -
Определили, что данные в порядке и готовы к дальнейшей работе
-
Пропущенные значения и явные дубликаты в данных не были обнаружены
-
Убраны неявные дубликаты из столбца
[id]
:- 20 строк из
first_geo
- 8 строк из
second_geo
- 8 строки из
third_geo
- 20 строк из
-
Типы данных - тоже в порядке
-
Наблюдали сильную зависимость между признаками
f2
иproduct
. Стоит разобраться в качестве предоставленных данных
-
- Подготовка данных для обучение модели:
- Выделили нецелевые и целевой признаки в данных
- Проиндексировали выборки
2. Обучение и проверка модели
- Написали функцию для обучения модели
LinearRegression
, которая:- убирает лишний столбец из нецелевых признаков
- разделяет загруженный набор данных на обучающую и валидационные выборки в соотношении 75:25
- применяет стандартизацию для всех выборок по количественным признакам
- обучает модель линейной регрессии
- записывает предсказания модели
- выводит на экран средний запас сырья в определенном регионе и среднюю квадратичную ошибку (RMSE) модели
- Лучше всех себя показала модель в предсказаниях на втором регионе:
RMSE
-0.8902801001028846
- Самое крупное значение среднего запаса сырья - в третьем регионе:
94.96504596800489
3. Подготовка к расчету прибыли
- Задали основные константы для выполнения условий исследования
- Необходимое кол-во единиц продукта для безубыточности:
111.11111111111111
- На данный момент, самое крупное предсказанное значение среднего запас сырья (в третьем регионе) - 94.96504596800489 - не дотягивает до безубыточного производства. В том числе и первый, и второй регион не приближаются по значению среднего запаса сырья к расчитанному безубыточному значению, что рискованно.
- Создали функцию
revenue_count
для подсчета прибыли в лучших отобранных скважинах
4. Расчет прибыли и рисков
- Применили метод
Bootstrap
:- 1000 раз создали выборки из 500 скважин и посчитали необходимые метрики
- Лучшим приняли для рекомендации
второй регион
, его показатели:- Средняя прибыль: 665.2410582210723 млн
- Нижняя граница: 157.98848131991573 млн
- Верхняя граница: 1197.641587463152 млн
- Риск убытка: 0.30%