С каждым годом российская ИIT-индустрия развивается всё быстрее, что ведеёт к кадровому голоду. По словам главы Минцифры Максута Шадаева, нехватка квалифицированных специалистов в 2023 году составила до 700 000 человек. Одним из высоко востребованных направлений является Data Science.
Что такое Data Science
Информация — ценный ресурс, из которого можно извлечь много пользы. Например, анализ статистики продаж за несколько лет может показать:
- сезонные всплески спроса;
- периоды затишья;
- систематические колебания цен у поставщиков.
На основании такого анализа можно скорректировать бизнес-процессы, оптимизировать закупки, заранее перераспределить ресурсы в соответствии с прогнозными пиками и спадами продаж.
Другой пример: изучая поведение тысяч пользователей на стриминговом сервисе, можно найти общие тенденции и предсказать поведение конкретного подписчика. В этом случае анализ помогает предлагать пользователям персональный релевантный контент, что способствует удержанию и росту лояльности аудитории.
Потенциально полезная информация генерируется ежедневно. Огромные массивы данных поступают из разных источников и хранятся в виде разрозненных баз. В исходном виде информация практически не упорядочена. Чтобы сделать ееё пригодной к использованию, нужно разложить всё по полочкам. В этом помогает наука Data Science.
Дата сайенс изучает процессы, методы и алгоритмы извлечения знаний из структурированных и неструктурированных больших данных. Основная цель — обработать big data так, чтобы извлечь важную информацию и использовать ееё для принятия решений, улучшения бизнес-процессов или других задач.
Проанализировать big data вручную, конечно, не под силу ни одному человеку. Обработкой информации занимается искусственный интеллект, а точнее —, программы на базе технологии машинного обучения. Но даже самой умной программе требуется «техзадание»:
- постановка задачи;
- исходный объеём данных для аналитики;
- признаковое описание — параметры, по которым ИИ будет систематизировать информацию, искать закономерности и тенденции.
Эти функции выполняют Data Scientists.
Кто такой Data Scientist
Это специалист по Data Science. Он работает с прогнозными моделями — программными алгоритмами, которые умеют составлять прогнозы будущих событий. Такие модели можно использовать в разных областях: промышленности, медицине, экономике, бизнесе. Вот несколько примеров задач, которые помогают решать прогнозные модели от Data Scientists:
- составление любых прогнозов — погоды, загруженности дорог, колебания цен на сырьеё, изменения ситуации на фондовых рынках;
- анализ надеёжности клиентов при оценке рисков в страховании, банковском кредитовании;
- поиск оптимальной стратегии для развития компании;
- предугадывание потребностей и запросов пользователей в поисковых системах, таргетированной рекламе, интернет-маркетинге;
- постановка медицинских диагнозов на основе сопоставления симптомов, жалоб, анамнеза, результатов МРТ и других исследований, факторов риска, статистики;
- составление персональных рекомендаций в онлайн-торговле, информационных, музыкальных и видеосервисах.
Для создания прогнозных моделей датасаентист использует методы математического моделирования, статистической аналитики, программирования.
Чем занимается специалист по обработке данных
Функции зависят от отрасли, заказчика и конкретного проекта. Чтобы в общих чертах понять, что это за профессия, опишем примерную схему работы датасаентиста.
Первый этап — получение задачи. Постановщиком может быть проектный менеджер, владелец продукта, руководитель направления. Вместе с постановщиком задачи Data Scientist определяет, что нужно получить на выходе.
Пример задач в датасайнс:
- построение оптимальных маршрутов для логистической компании;
- кластеризация клиентов для маркетинговых целей;
- прогнозирование спроса на товары или услуги;
- определение вероятности брака на производстве;
- предсказание вероятности отказа пользователя от подписки на сервис.
После определения цели проекта Data Scientist действует по следующему алгоритму:
- сбор исходных данных из разных источников;
- подготовка базы — удаление дублей, ошибок, опечаток;
- определение пропусков — Data Scientist решает, каких параметров не хватает для полноценного анализа;
- предварительная аналитика — Data Scientist вручную составляет графики, диаграммы, таблицы, чтобы увидеть аномалии и примерные закономерности;
- разработка признакового описания — добавление расчеётных величин, определение параметров, которыми будет оперировать прогнозная модель;
- построение и обучение прогнозной модели;
- добавление визуализации для наглядного и понятного представления результатов программного анализа.
После создания модели обычно проводят backtesting — тестирование алгоритма на прошедших событиях. Для этого датасаентисты загружают в модель исходную информацию, получают прогноз и сравнивают его с реальной ситуацией, которая уже произошла. Backtesting в дата сайнс помогает оценить точность предсказаний и скорректировать параметры программы до введения в эксплуатацию.
Специалист по анализу данных может работать самостоятельно или в команде с frontend- и backend-разработчиками, бизнес-аналитиками, дизайнерами. Иногда в команду включают сотрудников со специализацией в той сфере, для которой строятся прогнозы:
- в транспортной компании — логиста;
- на производстве — технолога;
- в медицине — врача.
Специалисты выполняют роль консультантов, а также проверяют результаты тестовых прогнозов.
Что должен знать и уметь дата саентист
Дата-аналитику нужны:
- знания матстата, матанализа, принципов машинного обучения;
- понимание алгоритмов обработки информации;
- навыки программирования.
Создавать прогнозные модели с нуля обычно не требуется, но нужно адаптировать ранее реализованную модель под ТЗ и обучить ееё работе с конкретными видами информации. Для этого нужно уметь:
- программировать на Python, C, C++;
- работать с фреймворками для machine learning;
- применять библиотеки для визуализации аналитики;
- использовать инструменты для работы с исходным кодом — например, платформу GitVerse.
Большую часть рабочего процесса занимает исследовательская деятельность: датасайнтисты экспериментируют с моделями, тестируют гипотезы, оценивают эффективность разных подходов.
Кроме этого, дата сайентист должен разбираться в той отрасли, для которой готовит прогнозные модели. Без понимания специфики бизнеса не получится качественно выполнить работу:
- отобрать подходящие исходные данные;
- определить, какой информации не хватает;
- выбрать критерии и алгоритмы, по которым программа должна строить прогнозы.
Ещё один полезный скилл дата сайнтиста — знание английского для чтения технической литературы, использования фреймворков и приложений с англоязычным интерфейсом.
Требования к Junior, Middle и Senior Data Scientists
Junior в Data Science должен обладать базовыми знаниями математики, machine learning, статистики. Нужно хорошо знать Python, уметь писать SQL-запросы. Опыт необязателен, можно устроиться сразу после учеёбы. Junior выполняет отдельные задачи в рамках проекта: собирает, сортирует и проверяет исходную информацию, делает сводные таблицы.
Middle Data Scientist должен отлично знать математику, разбираться в технологиях машинного обучения, уверенно программировать на Python, уметь проводить A/B-тесты. Опыт — до треёх успешных проектов. Middle работает самостоятельно с минимальным участием тимлида.
Senior Data Scientist должен обладать экспертными знаниями в своей нише, досконально знать математику, статистику, Python, SQL. Опыт — от пяти проектов. Такой специалист работает самостоятельно, дополнительно выполняет функции ментора для Junior и Middle.
Востребованность и перспективы профессии
На портале вакансий hh.ru представлено более 400 предложений от работодателей (по состоянию на март 2024 года). Из них около 150 — из финансового сектора, более 100 — от ИIT-компаний, провайдеров связи, онлайн-сервисов.
Профессия предусматривает горизонтальный и вертикальный рост. Позиции, на которые можно перейти в будущем:
- ведущий дата-инженер;
- архитектор дата сайнс;
- инженер по machine learning (ML-engineer).
С ростом опыта и экспертизы можно претендовать на место в топ-менеджменте в роли Chief Data Officer.
Сколько зарабатывает аналитик Data Science
Средняя зарплата в России — 125 000 ₽. Без опыта можно устроиться на позицию Junior с окладом от 70 000 до 120 000 ₽. Middle получают до 250 000 ₽. Сеньоры — до 300 000 ₽. Топ-менеджмент в дата саенс получает до 500 000 ₽.
Как стать дата сайнтистом
Часто в Data Science приходят из разработки, технических и научных профессий. Для старта карьеры с нуля нужно изучить математику, статистику, программирование на Python, алгоритмы машинного обучения — в вузе или на ИIT-курсах. Затем можно участвовать в проектах на позиции Junior, чтобы набрать опыт под руководством наставников.
Плюсы и минусы профессии
Плюсы | Минусы |
Высокая востребованность на рынке труда | Большая теоретическая база — без изучения математики и статистики освоить профессию не получится |
Высокий доход — выше, чем в других ИIT-специальностях | Постоянное самообучение, осваивание новых инструментов и технологий |
Ощутимый вклад в индустрию, влияние на бизнес | Нет гарантии результата: нередко после создания модели тесты показывают ееё неэффективность, и всё приходится начинать заново |