Выбор локации для скважины

Добывающей компании "ГлавРосГосНефть" нужно решить, где бурить новую скважину.

Цель исследования: Построить модель машинного обучения, которая поможет определить регион, где добыча принесет наибольшую прибыль. Проанализировать возможную прибыль и риски техникой Bootstrap

Контекст исследования: Пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Данные синтетические: детали контрактов и характеристики месторождений не разглашаются.

Шаги для выбора локации:

В избранном регионе ищут месторождения, для каждого определяют значения признаков;
Строят модель и оценивают объём запасов;
Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
Прибыль равна суммарной прибыли отобранных месторождений.

Условия задачи:

Для обучения модели подходит только линейная регрессия (остальные — недостаточно предсказуемые).
При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки.
Бюджет на разработку скважин в регионе — 10 млрд рублей.
При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.
После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.

Описание данных:

Датасэты:
- /datasets/geo_data_0.csv
- /datasets/geo_data_1.csv
- /datasets/geo_data_2.csv
Признаки:
- id — уникальный идентификатор скважины;
- f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы);`
- product — объём запасов в скважине (тыс. баррелей).

Вывод

В результате исследования была построена модель машинного обучения, способная определить регион, где добыча принесет наибольшую прибыль. В ходе анализа рисков и прибыли при помощи метода Bootstrap были сделаны следующие выводы:

Рекомендация по выбору региона - регион номер 2
В нем предсказан маленький риск убытков - 0.3%% (VS 2% в первом регионе и 3% в третьем регионе)
Регион может в среднем принести ~665 млн прибыли (VS 600 млн в первом регионе и 615 млн в третьем регионе)

Исследование было разделено на несколько этапов:

1. Загрузка и подготовка данных:

Изучение общей информации
- Импортировали нужные библиотеки и загрузили 3 датасэта: first_geo, second_geo и third_geo
- Написали функцию get_info для получения общей информации о данных
- Определили, что данные в порядке и готовы к дальнейшей работе
- Пропущенные значения и явные дубликаты в данных не были обнаружены
- Убраны неявные дубликаты из столбца [id]:
  - 20 строк из first_geo
  - 8 строк из second_geo
  - 8 строки из third_geo
- Типы данных - тоже в порядке
- Наблюдали сильную зависимость между признаками f2 и product. Стоит разобраться в качестве предоставленных данных
Подготовка данных для обучение модели:
- Выделили нецелевые и целевой признаки в данных
- Проиндексировали выборки

2. Обучение и проверка модели

Написали функцию для обучения модели LinearRegression, которая:
- убирает лишний столбец из нецелевых признаков
- разделяет загруженный набор данных на обучающую и валидационные выборки в соотношении 75:25
- применяет стандартизацию для всех выборок по количественным признакам
- обучает модель линейной регрессии
- записывает предсказания модели
- выводит на экран средний запас сырья в определенном регионе и среднюю квадратичную ошибку (RMSE) модели
Лучше всех себя показала модель в предсказаниях на втором регионе: RMSE - 0.8902801001028846
Самое крупное значение среднего запаса сырья - в третьем регионе: 94.96504596800489

3. Подготовка к расчету прибыли

Задали основные константы для выполнения условий исследования
Необходимое кол-во единиц продукта для безубыточности: 111.11111111111111
На данный момент, самое крупное предсказанное значение среднего запас сырья (в третьем регионе) - 94.96504596800489 - не дотягивает до безубыточного производства. В том числе и первый, и второй регион не приближаются по значению среднего запаса сырья к расчитанному безубыточному значению, что рискованно.
Создали функцию revenue_count для подсчета прибыли в лучших отобранных скважинах

4. Расчет прибыли и рисков

Применили метод Bootstrap:
- 1000 раз создали выборки из 500 скважин и посчитали необходимые метрики
Лучшим приняли для рекомендации второй регион, его показатели:
- Средняя прибыль: 665.2410582210723 млн
- Нижняя граница: 157.98848131991573 млн
- Верхняя граница: 1197.641587463152 млн
- Риск убытка: 0.30%

training_projects

Выбор локации для скважины

Вывод

Использование cookies

training_projects

Mmaxtiandiupd: README.md 7 месяцев назад6d660d

Выбор локации для скважины

Вывод

Использование cookies