Основные статистические показатели: Среднее, медиана, мода, разброс

Мы переходим к этапу, когда гипотезы и подходы к анализу должны получить числовое подтверждение. Чтобы проверить предположения о росте выручки или эффективности логистики, нужно научиться описывать массивы данных с помощью компактных и точных метрик. Статистика помогает увидеть структуру там, где без подготовки виден лишь хаотичный набор цифр.

Меры центральной тенденции

Когда вы работаете с тысячами строк в Excel, вам нужно одно или несколько чисел, которые характеризуют всю выборку. Базовые показатели остаются фундаментом для принятия решений даже при использовании нейросетей.

Среднее арифметическое (Mean) — сумма всех значений, деленная на их количество. Самый популярный, но коварный показатель. Он подходит для стабильных процессов без резких скачков.

Медиана (Median) — значение, которое делит упорядоченный список данных пополам. 50% значений находятся ниже медианы, 50% — выше. В отличие от среднего, медиана устойчива к аномалиям (выбросам).

Мода (Mode) — самое часто встречающееся значение в наборе. Используется при работе с категориями (например, чтобы узнать, какой товар покупают чаще всего).

Как демонстрирует Сравнение 1, выбор между средним и медианой может кардинально изменить выводы аналитика.

В отделе маркетинга 5 человек с зарплатами: 80, 90, 100, 110 и 120 тысяч рублей.

  • Среднее: 100 000 руб.
  • Медиана: 100 000 руб.

В отдел нанимают руководителя с зарплатой 600 000 руб. Теперь зарплаты: 80, 90, 100, 110, 120, 600.

  • Среднее: 183 333 руб. (кажется, что все стали богаче).
  • Медиана: 105 000 руб. (среднее между 100 и 110 — точнее отражает реальность для большинства сотрудников).

Меры разброса

Знать «центр» данных недостаточно. Представьте два курьерских сервиса. У обоих среднее время доставки — 30 минут. Но первый возит заказы за 25–35 минут, а второй — то за 5 минут, то за 2 часа. Для бизнеса второй сервис — это риск и недовольные клиенты.

Для оценки этой вариативности используют меры разброса:

  1. Размах (Range) — разница между максимальным и минимальным значением. Простой, но грубый способ оценить границы.
  2. Дисперсия (Variance) — средний квадрат отклонений каждого значения от среднего арифметического. Показывает общую изменчивость, но её сложно интерпретировать, так как единицы измерения возводятся в квадрат (например, «квадратные рубли»).
  3. Стандартное отклонение (Standard Deviation) — корень из дисперсии. Основной показатель в работе аналитика. Он возвращает нас к исходным единицам измерения и показывает, насколько в среднем значения отклоняются от центра.

σ=(xixˉ)2n\sigma = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n}}

Вам не придется считать это вручную, но важно понимать логику: чем выше стандартное отклонение, тем менее предсказуем процесс 📉

Аналитик сообщает: «Средний чек в магазине — 3000 рублей». Руководство закупает товар под эту сумму. Но аналитик не учел, что стандартное отклонение составляет 2500 рублей. Это значит, что чеки распределены очень широко: много мелких покупок по 200 рублей и редкие по 15 000. Стратегия проваливается, так как «типичного» покупателя на 3000 рублей не существует.

Практика в Excel

Применим эти знания на практике. В ежедневной работе для быстрого аудита данных удобнее всего использовать встроенные функции Excel.

Создайте в Excel таблицу с 10 значениями времени ответа службы поддержки в минутах: 2, 3, 3, 4, 5, 5, 5, 6, 7, 45. (45 — это выброс, когда оператор забыл закрыть тикет).

  1. Рассчитайте среднее: =AVERAGE(диапазон)
  2. Рассчитайте медиану: =MEDIAN(диапазон)
  3. Рассчитайте моду: =MODE.SNGL(диапазон)
  4. Рассчитайте стандартное отклонение: =STDEV.P(диапазон)

Сравните среднее и медиану. Насколько сильно один выброс (45 мин) исказил общую картину?

Итоги и следующий шаг

Мы научились сводить массивы информации к нескольким понятным числам. Теперь мы знаем, где находится «центр» данных и насколько сильно они «разбросаны» вокруг него.

Однако сами по себе эти цифры — лишь точки. Чтобы видеть полную картину и делать прогнозы, нужно понять «форму» данных. В следующей теме мы разберем, что такое распределения, почему важна «нормальность» и как форма графика подсказывает аналитику верные методы анализа.

Понравился урок?

Сохраните прогресс и получите персональный курс по любой теме — без форм и паролей

Продолжить в Telegram