training_projects

Форк
0

..
/
well_location_selecting 
7 месяцев назад
README.md

Выбор локации для скважины

Добывающей компании "ГлавРосГосНефть" нужно решить, где бурить новую скважину.


Цель исследования: Построить модель машинного обучения, которая поможет определить регион, где добыча принесет наибольшую прибыль. Проанализировать возможную прибыль и риски техникой Bootstrap

Контекст исследования: Пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Данные синтетические: детали контрактов и характеристики месторождений не разглашаются.

Шаги для выбора локации:

  • В избранном регионе ищут месторождения, для каждого определяют значения признаков;
  • Строят модель и оценивают объём запасов;
  • Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
  • Прибыль равна суммарной прибыли отобранных месторождений.

Условия задачи:

  • Для обучения модели подходит только линейная регрессия (остальные — недостаточно предсказуемые).
  • При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки.
  • Бюджет на разработку скважин в регионе — 10 млрд рублей.
  • При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.
  • После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.

Описание данных:

  • Датасэты:

    • /datasets/geo_data_0.csv
    • /datasets/geo_data_1.csv
    • /datasets/geo_data_2.csv
  • Признаки:

    • id — уникальный идентификатор скважины;
    • f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы);`
    • product — объём запасов в скважине (тыс. баррелей).

Вывод


В результате исследования была построена модель машинного обучения, способная определить регион, где добыча принесет наибольшую прибыль. В ходе анализа рисков и прибыли при помощи метода Bootstrap были сделаны следующие выводы:

  • Рекомендация по выбору региона - регион номер 2
  • В нем предсказан маленький риск убытков - 0.3%% (VS 2% в первом регионе и 3% в третьем регионе)
  • Регион может в среднем принести ~665 млн прибыли (VS 600 млн в первом регионе и 615 млн в третьем регионе)

Исследование было разделено на несколько этапов:

1. Загрузка и подготовка данных:

  • Изучение общей информации
    • Импортировали нужные библиотеки и загрузили 3 датасэта: first_geo, second_geo и third_geo

    • Написали функцию get_info для получения общей информации о данных

    • Определили, что данные в порядке и готовы к дальнейшей работе

    • Пропущенные значения и явные дубликаты в данных не были обнаружены

    • Убраны неявные дубликаты из столбца [id]:

      • 20 строк из first_geo
      • 8 строк из second_geo
      • 8 строки из third_geo
    • Типы данных - тоже в порядке

    • Наблюдали сильную зависимость между признаками f2 и product. Стоит разобраться в качестве предоставленных данных

  • Подготовка данных для обучение модели:
    • Выделили нецелевые и целевой признаки в данных
    • Проиндексировали выборки

2. Обучение и проверка модели

  • Написали функцию для обучения модели LinearRegression, которая:
    • убирает лишний столбец из нецелевых признаков
    • разделяет загруженный набор данных на обучающую и валидационные выборки в соотношении 75:25
    • применяет стандартизацию для всех выборок по количественным признакам
    • обучает модель линейной регрессии
    • записывает предсказания модели
    • выводит на экран средний запас сырья в определенном регионе и среднюю квадратичную ошибку (RMSE) модели
  • Лучше всех себя показала модель в предсказаниях на втором регионе: RMSE - 0.8902801001028846
  • Самое крупное значение среднего запаса сырья - в третьем регионе: 94.96504596800489

3. Подготовка к расчету прибыли

  • Задали основные константы для выполнения условий исследования
  • Необходимое кол-во единиц продукта для безубыточности: 111.11111111111111
  • На данный момент, самое крупное предсказанное значение среднего запас сырья (в третьем регионе) - 94.96504596800489 - не дотягивает до безубыточного производства. В том числе и первый, и второй регион не приближаются по значению среднего запаса сырья к расчитанному безубыточному значению, что рискованно.
  • Создали функцию revenue_count для подсчета прибыли в лучших отобранных скважинах

4. Расчет прибыли и рисков

  • Применили метод Bootstrap:
    • 1000 раз создали выборки из 500 скважин и посчитали необходимые метрики
  • Лучшим приняли для рекомендации второй регион, его показатели:
    • Средняя прибыль: 665.2410582210723 млн
    • Нижняя граница: 157.98848131991573 млн
    • Верхняя граница: 1197.641587463152 млн
    • Риск убытка: 0.30%

Использование cookies

Мы используем файлы cookie в соответствии с Политикой конфиденциальности и Политикой использования cookies.

Нажимая кнопку «Принимаю», Вы даете АО «СберТех» согласие на обработку Ваших персональных данных в целях совершенствования нашего веб-сайта и Сервиса GitVerse, а также повышения удобства их использования.

Запретить использование cookies Вы можете самостоятельно в настройках Вашего браузера.