Включите исполнение JavaScript в браузере, чтобы запустить приложение.
26 мар 2025

Что такое корреляция в аналитике данных и как ее интерпретировать

Разбираем, что такое корреляция данных, как ее использовать для аналитики взаимосвязей и как рассчитывать коэффициенты. Рассказываем, как автоматизировать поиск связей значений и величин, а также избежать ложных результатов.

Что такое корреляция в аналитике данных простыми словами

Корреляция в аналитике данных (от латинского correlatio — «соотношение») — взаимосвязь между разными величинами. В англоязычной литературе встречаются термины correlation или «dependence». Корреляция нужна, чтобы оценить зависимость двух переменных. 

Если два значения коррелируют друг с другом, они могут быть каким-то образом связаны. К примеру, одно зависит от другого, обе величины — от третьей переменной и так далее.

Виды коэффициентов корреляции

Коэффициент — это показатель, отражающий силу корреляции. Рассмотрим некоторые известные варианты и узнаем, для чего они используются.

Коэффициент r-Пирсона

Принимает значения от +1 (сильная положительная связь) до -1 (сильная отрицательная). 0 означает нейтральную связь. Например, с помощью формулы r-Пирсона можно рассчитать, какова связь роста и веса человека.

Основные особенности:

  1. Не подразумевает, что между переменными есть причинно-следственная связь.
  2. Чувствителен к аутлаерам (outlier, выбросам) — результатам измерений, которые выделяются из общей выборки. 
  3. Оценивает только линейную связь. Не используется для нелинейных.
  4. Используется для работы с количественными признаками.

Допустим, для расчета по формуле r-Пирсона исследователю  нужно ввести значения роста и веса. 

Данные для расчета коэффициента Пирсона
Данные для расчета коэффициента Пирсона

После применения формулы значение составляет 0,4049. Уровень связи между ростом и весом можно считать как «средний положительный» — естественно, делая поправку на небольшое количество данных (на самом деле в реальной аналитике приведенных шесть значений очень мало, и они попадают в статистическую погрешность).

ЗначениеИнтерпретация (связь)
0.75–1.00Очень высокая положительная
0.50–0.74Высокая положительная
0.25–0.49Средняя положительная
0.00–0.24Слабая положительная
0.00– -.0.24Слабая отрицательная
-0.25– -0.49Средняя отрицательная
-0.50– -0.74Высокая отрицательная
-0.75– -1.00Высокая положительная

Коэффициент ранговой корреляции Спирмена (Charles Edward Spearman)

Используется для отслеживания взаимосвязи между объектами, предварительно упорядоченными по возрастанию или по убыванию (получается два ранга). Как и в случае с коэффициентами r-Пирсона, может принимать значение от +1 до –1. 

Основные особенности:

  1. Показывает взаимозависимость между рядами (не между отдельными переменными и величинами).
  2. Требует наличие минимум двух рядов значений, которые должны быть проранжированы. 
  3. Используется для работы с качественными признаками.

Как работает формула Спирмена на примере взаимосвязи роста и веса человека? Группу людей, предварительно ранжируют: по увеличению роста и по увеличению веса. Дальше считают, как выглядит correlation. Система автоматически создает два «ранга»: упорядочивает значения по мере увеличения: 157 — первое место, 167 — второе место, 172 — третье и так далее. Значения второго показателя (веса) также упорядочиваются. Дальше происходит математический расчет по формуле. Результат — rs = 0.457. Связь заданных величин считают высокой положительной.

Пример расчета коэффициента Спирмана
Пример расчета коэффициента Спирмана

Коэффициент ранговой корреляции Кендалла

Свойства схожи с формулой Спирмена, позволяют получить дополнительные вычислительные мощности. Как и в примере выше, группу людей ранжируют по росту и весу (например, по увеличению). Дальше возможны варианты:

  • «совпадение» (однонаправленное изменение переменных) — рост и вес у одного будет больше, чем у другого;
  • «инверсия» (разнонаправленное изменение) — у второго рост больше, но вес меньше.

Kendall rank correlation coefficient — это разность вероятности совпадения и инверсии. Механизм позволяет рассчитать вероятность совпадений и инверсий.

Коэффициент Гудмена — Краскела

Известен как коэффициент «пропорциональной редукции ошибок» (Proportional Reduction in Error Measures, сокращенно PRE). Правило использования коэффициента — четкое разделение между зависимыми (Y) и независимыми (Х) переменными. К примеру, в качестве независимой Х-переменной может выступать строковая «уровень дохода», а зависимой Y — «степень удовлетворенности».

Какая бывает корреляция

Корреляция в статистике и анализе может быть разной в зависимости от критерия сравнения:

  • направление — прямая и обратная;
  • форма — линейная и нелинейная;
  • сила — –1, 0, +1.

Ниже разберем на примерах, как это работает.

Обратная и прямая

Прямая причинно-следственная связь — это когда переменная Х определяет значение переменной Y:

  • вода ускоряет рост растений;
  • повышение температуры влияет на скорость таяния льда.

Обратная причинно-следственная связь — это когда переменная Y определяет Х. Например, исследователь выдвигает гипотезу, что потребление кофе делает разработчика нервным. Но что, если нервный разработчик пьет кофе, чтобы отвлечься и успокоиться? Это как раз и становится обратной причинно-следственной связью.

Но существуют и другие виды связей.

Вызванная третьей переменной. Исследователь может проследить зависимость между увеличением продаж пуховиков и горячего кофе. Но на обе переменные повлиял третий фактор: просто наступила зима. Это важно учитывать в методах исследований. 

Вызванная несколькими скрытыми переменными. Ученый может попытаться найти взаимосвязь между зарплатой разработчика и успеваемостью в ВУЗе. Но влияют другие факторы: IQ, возраст, мотивация и иные. 

Связи нет, наблюдаемая зависимость случайна. Например, можно найти связь между поголовьем аистов и рождаемостью. Но в реальности птицы вряд ли влияют на появление детей, поэтому связь можно назвать случайной. Часто обнаруженные подобным образом зависимости называют «ложными» (spurious correlation). Есть даже специальный сайт, где собраны зависимости вроде «Расстояние между Юпитером и Солнцем» и «Количество секретарей на Аляске».

Положительная и отрицательная

Положительная и отрицательная корреляции — разновидности линейной.

Положительная — более низким значениям одного признака соответствуют более низкие значения другого и наоборот. Например, если снижается уровень доходов, уменьшаются затраты на предметы роскоши. Если увеличивается количество статей на сайте, растет трафик (число пользователей, которые заходят в блог из поисковой системы). 

Отрицательная, соответственно, работает наоборот: при росте одного показателя уменьшается второй. К примеру, статистика показывает, что при увеличении количества вакцинированного населения снижается число заболеваний гриппом и ОРВИ, а при повышении температуры погоды падают продажи обогревателей.

Как посчитать корреляцию

Вводить и рассчитывать данные вручную сложно и трудозатратно, поэтому стоит использовать инструменты и методы автоматизации. Среди них могут быть:

  • онлайн-калькуляторы для расчета простых задач по статистике и анализу. Такой вариант не всегда подходит для работы на крупных проектах — например, по аналитике продаж в ecommerce;
  • Excel или Google Таблицы. Чтобы создать графики, нужно выгрузить данные, прописать формулы и задать команду визуализации; 
  • языки программирования и библиотеки. Для работы в области Data Science и ML-обучения существуют специальные инструменты. Например, программисты на Python используют библиотеку Pandas: она позволяет строить кривые, диаграммы, графики. Для матриц, массивов и математических операций над ними часто нужна библиотека NumPy (Numerical Python). Чтобы строить красивые статистические графики на Python, используют библиотеки вроде seaborn и matplotlib.

Когда данных становится много, и все они требуют анализа, нужны специальные решения для хранения, упорядочивания, отчетности и принятия решений.

Чтобы визуализировать данные и обнаруживать correlation, аналитики используют средства автоматизации — программы и инструменты. Например, Platform V SDP Analytics в составе платформы Sber Data Platform (SDP). 

Platform V SDP Analytics поддерживает настраиваемые дашборды, возможность реализации ETL-сценариев на основе Apache Superset и Apache Airflow, изменение параметров под требования заказчика и многое другое. Например, с помощью сервиса можно построить отследить, как коррелируют потребительские расходы: 

  • снижаются расходы на все товары при повышении затрат на продовольственные; 
  • уменьшаются расходы на все товары с уменьшением расходов на непродовольственные и так далее.
Дашборды в Platform V SDP Analytics
Дашборды в Platform V SDP Analytics

С помощью Platform V SDP Analytics аналитики могут находить корреляции и взаимосвязи разных значений:

  • возраст покупателя и сумма заказов;
  • регион покупателей и доля заказов; 
  • количество заказов и время оформления и так далее.

Среди доступных типов визуализаций в SDP BI можно найти «Корреляция (Correlation)»: тепловая карта, пузырьковая диаграмма и иные виды.

Работа с корреляцией данных в Platform V SDP Analytics
Работа с корреляцией данных в Platform V SDP Analytics

Для крупных проектов Sber Data Platform (SDP) предлагает экосистему решений для работы с данными:

  • SDP DataFlow — загрузка и преобразование данных;
  • SDP Hadoop — хранение и обработка Big Data;
  • SDP DataLab — разработка ML-моделей;
  • SDP Data Quality — контроль качества данных;
  • SDP AnalyticDB — хранилище данных.
Экосистема решений для работы с данными
Экосистема решений для работы с данными

В каком случае может понадобиться корреляция

Сфер, где часто нужны данные и взаимосвязи между ними, достаточно много. Основные области:

  • статистика для научных работ и экспериментов (в том числе и методы коммерческих исследований);
  • обучение нейронных сетей и анализ эффективности/качества входных данных;
  • разработка маркетинговых стратегий и поиск точек роста бизнеса, а также многие другие.

Для принятия управленческих решений можно использовать специальные инструменты со статистикой и аналитикой — например, Platform V Навигатор. Он помогает управлять бизнесом на основе объективных данных с возможностью обновления в режиме реального времени (дашборды, презентации, работа с документами).