Что такое корреляция?

Корреляция (от лат. correlatio — соотношение) — это статистическая мера, описывающая степень и направление взаимосвязи между двумя переменными. Ключевой момент: корреляция указывает на взаимосвязь или сопутствующее изменение, но не доказывает причинно-следственную связь. То есть если две величины коррелируют, это не означает, что одна из них обязательно является причиной изменения другой. Между ними может существовать скрытый третий фактор, влияющий на обе, или связь может быть случайной.

Корреляция не есть causation (причинность). Это фундаментальное правило статистики.

Для количественной оценки силы и направления связи используется коэффициент корреляции. Его значения всегда лежат в диапазоне от -1 до +1.

Виды и классификация корреляции

Корреляционные связи классифицируют по нескольким признакам.

По направлению связи

  • Положительная корреляция (прямая): увеличение одной переменной сопровождается увеличением другой. Коэффициент стремится к +1. Пример: чем больше часов человек тренируется, тем выше его выносливость (в разумных пределах).
  • Отрицательная корреляция (обратная): увеличение одной переменной сопровождается уменьшением другой. Коэффициент стремится к -1. Пример: чем выше скорость автомобиля, тем меньше времени требуется на преодоление фиксированного расстояния.
  • Нулевая корреляция: связь между переменными отсутствует. Коэффициент близок к 0. Пример: номер телефона человека и его рост.

По силе (тесноте) связи

  • Сильная (тесная): |r| > 0.7 (значение коэффициента по модулю).
  • Умеренная (средняя): 0.3 < |r| < 0.7.
  • Слабая: |r| < 0.3.

По форме связи

  • Линейная корреляция: связь между переменными можно приблизительно описать прямой линией. Измеряется, например, коэффициентом корреляции Пирсона — самым распространённым методом.
  • Нелинейная корреляция: связь описывается кривой линией (параболой, гиперболой и т.д.). Для её оценки используют другие коэффициенты, например, корреляционное отношение или коэффициент Спирмена.

По количеству переменных

  • Парная корреляция: изучается связь между двумя переменными.
  • Множественная корреляция: изучается связь между одной зависимой переменной и несколькими независимыми одновременно.

Где встречается и применяется корреляционный анализ?

Корреляция — краеугольный камень многих научных и прикладных дисциплин.

  • Наука и исследования: в медицине (связь между дозой препарата и эффектом), психологии (связь между IQ и успеваемостью), социологии, экономике, биологии.
  • Финансы и экономика: анализ связи между курсами акций, уровнем инфляции и ключевой ставкой, спросом и ценой.
  • Технологии и Data Science: в машинном обучении для отбора признаков (features), в анализе больших данных для выявления скрытых закономерностей.
  • Контроль качества: выявление связи между параметрами производственного процесса и качеством готовой продукции.
  • Маркетинг: изучение связи между затратами на рекламу и объёмом продаж, активностью в соцсетях и лояльностью клиентов.

Важно помнить об ограничениях. Наличие корреляции может быть чисто случайным (особенно при малых выборках). Также классический пример ложной корреляции: статистическая связь между количеством утонувших, упав в воду, и количеством проданного мороженого. Оба показателя растут летом, но прямая причинная связь между ними, очевидно, отсутствует — их объединяет третий фактор (высокая температура воздуха).

Итог

Корреляция — мощный инструмент для обнаружения и количественной оценки статистических взаимосвязей между явлениями. Она отвечает на вопрос «Есть ли связь? И насколько она сильна?», но не на вопрос «Что является причиной?». Правильная интерпретация корреляционных результатов требует понимания предметной области и учёта возможных скрытых факторов.

Частые вопросы по теме

  1. Чем корреляция отличается от регрессии? Корреляция показывает силу и направление связи, а регрессия — её математическую формулу (уравнение), позволяющее прогнозировать значения одной переменной по другой.
  2. Что означает коэффициент корреляции Пирсона равный 0.9? Это указывает на очень сильную положительную линейную связь. При росте одной переменной вторая также демонстрирует уверенный рост.
  3. Может ли корреляция быть больше 1 или меньше -1? Нет, теоретические границы коэффициента корреляции Пирсона строго от -1 до +1.
  4. Что такое ложная (спуриосная) корреляция? Это статистически значимая связь между переменными, которая возникает не из-за прямого влияния, а из-за случайности или влияния общего третьего фактора.
  5. Какой коэффициент корреляции использовать для нелинейных связей? Часто используют ранговые коэффициенты, например, коэффициент корреляции Спирмена или Кендалла, которые оценивают монотонную (возрастающую или убывающую) связь, не обязательно линейную.