Что такое медиана?

Медиана (от латинского mediāna — «середина») — это одно из ключевых понятий в статистике и теории вероятностей, которое называют серединным значением. Если говорить простыми словами, то медиана — это число, которое находится ровно в середине упорядоченного по возрастанию или убыванию набора данных. Оно делит этот набор на две равные части: 50% значений находятся ниже медианы, а остальные 50% — выше.

Медиана — это значение, которое делит упорядоченный набор данных ровно пополам. Проще говоря, если выстроить все ваши числа от меньшего к большему, медианой будет то, что находится точно посередине.

В отличие от среднего арифметического, на которое сильно влияют экстремально большие или маленькие значения (выбросы), медиана является более устойчивой мерой центральной тенденции. Это делает её незаменимой в ситуациях, когда данные содержат аномалии или имеют несимметричное распределение.

Как найти медиану? Алгоритм и примеры

Чтобы вычислить медиану, необходимо выполнить несколько простых шагов:

  1. Расположить все числа в наборе данных в порядке возрастания (от меньшего к большему).
  2. Определить количество чисел в наборе (n).
  3. В зависимости от чётности или нечётности количества чисел найти медиану.

Случай 1: Нечётное количество чисел

Если количество чисел (n) нечётное, то медиана — это число, которое занимает центральную позицию в упорядоченном ряду. Его позиция вычисляется по формуле: (n + 1) / 2.

Пример: Набор данных: 5, 1, 3, 8, 4.

  1. Упорядочиваем: 1, 3, 4, 5, 8.
  2. Количество чисел n = 5 (нечётное).
  3. Позиция медианы = (5+1)/2 = 3-е место.
  4. На третьем месте в ряду стоит число 4. Это и есть медиана.

Случай 2: Чётное количество чисел

Если количество чисел (n) чётное, то медианой будет среднее арифметическое двух чисел, стоящих в середине упорядоченного ряда. Эти числа занимают позиции n/2 и (n/2)+1.

Пример: Набор данных: 7, 2, 10, 4.

  1. Упорядочиваем: 2, 4, 7, 10.
  2. Количество чисел n = 4 (чётное).
  3. Два средних числа — это 2-е (4) и 3-е (7) места.
  4. Медиана = (4 + 7) / 2 = 5.5.

Виды и классификация медиан

Хотя основное понятие медианы едино, в зависимости от контекста и типа данных можно выделить несколько её видов или способов применения:

  • Медиана для дискретных данных: Применяется к наборам отдельных чисел, как в примерах выше.
  • Медиана для сгруппированных данных (интервальный ряд): Когда данные представлены в виде интервалов (например, доходы населения по группам), медиана вычисляется по специальной формуле, учитывающей накопленные частоты.
  • Медиана в геометрии: В геометрии медианой называют отрезок, соединяющий вершину треугольника с серединой противоположной стороны. Это совершенно другое понятие, но оно также связано с идеей «середины».
  • Медианный фильтр: В обработке сигналов и изображений используется техника «медианной фильтрации» для подавления шумов, когда значение каждой точки заменяется медианой значений её соседей.

Где и для чего применяется медиана?

Медиана — не просто абстрактное математическое понятие. Она широко используется в самых разных сферах:

1. Статистика и анализ данных

Это основная область применения. Медиана помогает понять «типичное» значение в выборке, особенно когда распределение данных не является нормальным или симметричным. Например, при анализе доходов населения медиана зарплаты показывает, сколько получает «человек в середине», и она часто ниже средней арифметической, которую завышают доходы небольшой группы высокооплачиваемых людей.

2. Экономика и социология

Официальная статистика по доходам, ценам на жильё, времени в пути на работу часто публикует именно медианные значения, так как они лучше отражают ситуацию для большинства.

3. Финансы и инвестиции

При оценке доходности активов или рисков медиана может дать более реалистичную картину, чем среднее значение, которое может быть искажено единичными периодами экстремально высокой прибыли или убытка.

4. Медицина и биология

В клинических исследованиях медиану используют для описания таких показателей, как время выживания пациентов или уровень определённого гормона в крови.

5. Машинное обучение и Data Science

Медиана часто используется для предобработки данных, например, для заполнения пропущенных значений (imputation) в наборе данных, так как она менее чувствительна к выбросам, чем среднее.

Медиана vs Среднее арифметическое: в чём разница?

Важно не путать эти два показателя. Среднее арифметическое — это сумма всех чисел, делённая на их количество. Медиана — это серединное значение в упорядоченном ряду.

Ключевое отличие: Среднее арифметическое чувствительно к выбросам, а медиана — нет.

Наглядный пример: Рассмотрим зарплаты в отделе из 5 человек: 40 000, 45 000, 50 000, 55 000 и 300 000 руб. (зарплата руководителя).

  • Средняя зарплата: (40+45+50+55+300)/5 = 98 000 руб. Этот показатель создаёт впечатление, что все хорошо зарабатывают.
  • Медианная зарплата: Упорядочиваем: 40 000, 45 000, 50 000, 55 000, 300 000. Медиана = 50 000 руб. Это значение гораздо лучше отражает типичный доход большинства сотрудников.

Итог

Медиана — это мощный и простой статистический инструмент, который показывает значение, делящее упорядоченный набор данных пополам. Её главное преимущество — устойчивость к аномальным значениям, что делает её более репрезентативной мерой «центра» для несимметричных распределений, чем среднее арифметическое. Понимание медианы необходимо для грамотной интерпретации данных в экономике, социологии, финансах и многих других областях.

Частые вопросы по теме

1. Что показывает медиана на практике?
Медиана показывает «серединное» значение. Например, медианный возраст жителей города — это возраст, моложе и старше которого находится ровно половина населения. Медианная цена квартиры — это цена, выше и ниже которой продаётся 50% объектов.

2. Всегда ли медиана — это целое число из набора данных?
Нет, не всегда. Если в наборе чётное количество чисел, медиана будет равна среднему арифметическому двух центральных чисел и может быть дробной, даже если все исходные данные были целыми.

3. В каком случае медиана и среднее арифметическое равны?
Они равны или близки в симметричных распределениях данных, например, в идеальном нормальном распределении (колоколообразная кривая). В таком случае все меры центральной тенденции (среднее, медиана, мода) совпадают.

4. Как найти медиану в Excel или Google Таблицах?
Для этого существует простая функция =МЕДИАНА(диапазон_ячеек). Достаточно выделить диапазон с вашими числами, и программа автоматически вычислит значение.

5. Что важнее: медиана или среднее значение?
Оба показателя важны, но они отвечают на разные вопросы. Среднее показывает общий «уровень», но может искажаться. Медиана показывает «типичное» значение для человека/объекта в середине списка. Выбор зависит от цели анализа и характера данных. Часто их рассматривают вместе.

Источники