Включите исполнение JavaScript в браузере, чтобы запустить приложение.

Профессия Data Scientist - что это за специалист и чем он занимается

30 авг 2024
Рассказываем об одной из самых востребованных профессий последних лет - Data Scientist (дата-сайентист). Кто он такой, чем занимается, что должен знать и сколько зарабатывает.

Профессия Data Scientist — что это за специалист и чем он занимается

С каждым годом российская ИIT-индустрия развивается всё быстрее, что ведеёт к кадровому голоду. По словам главы Минцифры Максута Шадаева, нехватка квалифицированных специалистов в 2023 году составила до 700 000 человек. Одним из высоко востребованных направлений является Data Science.

Что такое Data Science

Информация — ценный ресурс, из которого можно извлечь много пользы. Например, анализ статистики продаж за несколько лет может показать:

  • сезонные всплески спроса;
  • периоды затишья;
  • систематические колебания цен у поставщиков.

На основании такого анализа можно скорректировать бизнес-процессы, оптимизировать закупки, заранее перераспределить ресурсы в соответствии с прогнозными пиками и спадами продаж.

Другой пример: изучая поведение тысяч пользователей на стриминговом сервисе, можно найти общие тенденции и предсказать поведение конкретного подписчика. В этом случае анализ помогает предлагать пользователям персональный релевантный контент, что способствует удержанию и росту лояльности аудитории.

Потенциально полезная информация генерируется ежедневно. Огромные массивы данных поступают из разных источников и хранятся в виде разрозненных баз. В исходном виде информация практически не упорядочена. Чтобы сделать ееё пригодной к использованию, нужно разложить всё по полочкам. В этом помогает наука Data Science.

Дата сайенс изучает процессы, методы и алгоритмы извлечения знаний из структурированных и неструктурированных больших данных. Основная цель — обработать big data так, чтобы извлечь важную информацию и использовать ееё для принятия решений, улучшения бизнес-процессов или других задач.

Проанализировать big data вручную, конечно, не под силу ни одному человеку. Обработкой информации занимается искусственный интеллект, а точнее —, программы на базе технологии машинного обучения. Но даже самой умной программе требуется «техзадание»:

  • постановка задачи; 
  • исходный объеём данных для аналитики;
  • признаковое описание — параметры, по которым ИИ будет систематизировать информацию, искать закономерности и тенденции. 

Эти функции выполняют Data Scientists.

Кто такой Data Scientist

Это специалист по Data Science. Он работает с прогнозными моделями — программными алгоритмами, которые умеют составлять прогнозы будущих событий. Такие модели можно использовать в разных областях: промышленности, медицине, экономике, бизнесе. Вот несколько примеров задач, которые помогают решать прогнозные модели от Data Scientists:

  • составление любых прогнозов — погоды, загруженности дорог, колебания цен на сырьеё, изменения ситуации на фондовых рынках;
  • анализ надеёжности клиентов при оценке рисков в страховании, банковском кредитовании;
  • поиск оптимальной стратегии для развития компании;
  • предугадывание потребностей и запросов пользователей в поисковых системах, таргетированной рекламе, интернет-маркетинге;
  • постановка медицинских диагнозов на основе сопоставления симптомов, жалоб, анамнеза, результатов МРТ и других исследований, факторов риска, статистики;
  • составление персональных рекомендаций в онлайн-торговле, информационных, музыкальных и видеосервисах.

Для создания прогнозных моделей датасаентист использует методы математического моделирования, статистической аналитики, программирования.

Чем занимается специалист по обработке данных

Функции зависят от отрасли, заказчика и конкретного проекта. Чтобы в общих чертах понять, что это за профессия, опишем примерную схему работы датасаентиста.

Первый этап — получение задачи. Постановщиком может быть проектный менеджер, владелец продукта, руководитель направления. Вместе с постановщиком задачи Data Scientist определяет, что нужно получить на выходе.

Пример задач в датасайнс:

  • построение оптимальных маршрутов для логистической компании;
  • кластеризация клиентов для маркетинговых целей;
  • прогнозирование спроса на товары или услуги;
  • определение вероятности брака на производстве;
  • предсказание вероятности отказа пользователя от подписки на сервис.

После определения цели проекта Data Scientist действует по следующему алгоритму:

  1. сбор исходных данных из разных источников;
  2. подготовка базы — удаление дублей, ошибок, опечаток; 
  3. определение пропусков — Data Scientist решает, каких параметров не хватает для полноценного анализа;
  4. предварительная аналитика — Data Scientist вручную составляет графики, диаграммы, таблицы, чтобы увидеть аномалии и примерные закономерности;
  5. разработка признакового описания — добавление расчеётных величин, определение параметров, которыми будет оперировать прогнозная модель;
  6. построение и обучение прогнозной модели;
  7. добавление визуализации для наглядного и понятного представления результатов программного анализа.

После создания модели обычно проводят backtesting — тестирование алгоритма на прошедших событиях. Для этого датасаентисты загружают в модель исходную информацию, получают прогноз и сравнивают его с реальной ситуацией, которая уже произошла. Backtesting в дата сайнс помогает оценить точность предсказаний и скорректировать параметры программы до введения в эксплуатацию.

Специалист по анализу данных может работать самостоятельно или в команде с frontend- и backend-разработчиками, бизнес-аналитиками, дизайнерами. Иногда в команду включают сотрудников со специализацией в той сфере, для которой строятся прогнозы:

  • в транспортной компании — логиста;
  • на производстве — технолога;
  • в медицине — врача.

Специалисты выполняют роль консультантов, а также проверяют результаты тестовых прогнозов. 

Что должен знать и уметь дата саентист

Дата-аналитику нужны:

  • знания матстата, матанализа, принципов машинного обучения;
  • понимание алгоритмов обработки информации;
  • навыки программирования.

Создавать прогнозные модели с нуля обычно не требуется, но нужно адаптировать ранее реализованную модель под ТЗ и обучить ееё работе с конкретными видами информации. Для этого нужно уметь:

  • программировать на Python, C, C++;
  • работать с фреймворками для machine learning;
  • применять библиотеки для визуализации аналитики;
  • использовать инструменты для работы с исходным кодом — например, платформу GitVerse.

Большую часть рабочего процесса занимает исследовательская деятельность: датасайнтисты экспериментируют с моделями, тестируют гипотезы, оценивают эффективность разных подходов.

Кроме этого, дата сайентист должен разбираться в той отрасли, для которой готовит прогнозные модели. Без понимания специфики бизнеса не получится качественно выполнить работу:

  • отобрать подходящие исходные данные;
  • определить, какой информации не хватает;
  • выбрать критерии и алгоритмы, по которым программа должна строить прогнозы.

Ещё один полезный скилл дата сайнтиста — знание английского для чтения технической литературы, использования фреймворков и приложений с англоязычным интерфейсом.

Требования к Junior, Middle и Senior Data Scientists

Junior в Data Science должен обладать базовыми знаниями математики, machine learning, статистики. Нужно хорошо знать Python, уметь писать SQL-запросы. Опыт необязателен, можно устроиться сразу после учеёбы. Junior выполняет отдельные задачи в рамках проекта: собирает, сортирует и проверяет исходную информацию, делает сводные таблицы. 

Middle Data Scientist должен отлично знать математику, разбираться в технологиях машинного обучения, уверенно программировать на Python, уметь проводить A/B-тесты. Опыт — до треёх успешных проектов. Middle работает самостоятельно с минимальным участием тимлида.

Senior Data Scientist должен обладать экспертными знаниями в своей нише, досконально знать математику, статистику, Python, SQL. Опыт — от пяти проектов. Такой специалист работает самостоятельно, дополнительно выполняет функции ментора для Junior и Middle. 

Востребованность и перспективы профессии

На портале вакансий hh.ru представлено более 400 предложений от работодателей (по состоянию на март 2024 года). Из них около 150 — из финансового сектора, более 100 — от ИIT-компаний, провайдеров связи, онлайн-сервисов.

Профессия предусматривает горизонтальный и вертикальный рост. Позиции, на которые можно перейти в будущем:

  • ведущий дата-инженер;
  • архитектор дата сайнс;
  • инженер по machine learning (ML-engineer).

С ростом опыта и экспертизы можно претендовать на место в топ-менеджменте в роли Chief Data Officer.

Сколько зарабатывает аналитик Data Science

Средняя зарплата в России — 125 000 ₽. Без опыта можно устроиться на позицию Junior с окладом от 70 000 до 120 000 ₽. Middle получают до 250 000 ₽. Сеньоры — до 300 000 ₽. Топ-менеджмент в дата саенс получает до 500 000 ₽.

Как стать дата сайнтистом

Часто в Data Science приходят из разработки, технических и научных профессий. Для старта карьеры с нуля нужно изучить математику, статистику, программирование на Python, алгоритмы машинного обучения — в вузе или на ИIT-курсах. Затем можно участвовать в проектах на позиции Junior, чтобы набрать опыт под руководством наставников.

Плюсы и минусы профессии

ПлюсыМинусы
Высокая востребованность на рынке трудаБольшая теоретическая база — без изучения математики и статистики освоить профессию не получится
Высокий доход — выше, чем в других ИIT-специальностяхПостоянное самообучение, осваивание новых инструментов и технологий 
Ощутимый вклад в индустрию, влияние на бизнесНет гарантии результата: нередко после создания модели тесты показывают ееё неэффективность, и всё приходится начинать заново