Всем привет!
По работе часто приходится слышать вопрос: «Сколько данных нужно для анализа возможностей данных?». На этот вопрос я много раз слышал ответы Алексея Жеглова, но в формализованном виде недавно нашел его на странице коллеги Алексея – Fernando Cuenca, Principal Consultant at SquirrelNorth.
Поскольку я сам довольно часто занимаюсь анализом и обзором сервисов поставки, захотелось иметь эту заметку под рукой. Ну а чтобы было удобнее пользоваться, я перевел ее на русский. Коллеги, приглашаю вас к совместному использованию и обсуждению.
«У меня недостаточно данных для проведения сколько-нибудь значимого анализа … Мне нужно подождать, пока я соберу больше данных…»
На самом деле вам нужно меньше данных, чем вы думаете:
💡 5 точек достаточно, чтобы знать порядок величины масштаба распределения (мы говорим о днях, неделях, месяцах, годах)?
💡 12 точек: возьмите 6 центральных, чтобы определить «диапазон медианы» («типичный случай», «то, сколько времени обычно занимает работа»).
💡 30 точек:
- возьмите 6 самых «быстрых» точек – диапазон «наилучшего случая» (10-й процентиль, «вот насколько мы можем быть быстрыми»);
- возьмите 6 самых «долгих» точек данных: диапазон «наихудшего случая» (90-й процентиль, «вот насколько это может быть плохо»);
- возьмите 10 центральных точек: диапазон «типичного случая» (медиана или 50-й процентиль).
👀 Во всех этих случаях вы можете сравнить полученные вами диапазоны данных с ожиданиями ваших клиентов или заинтересованных лиц и использовать в качестве руководства для стимулирования улучшений.
Закончить данных короткий пост можно «алексеизмом»: «Лучше улучшенный сервис, чем более точная модель неудовлетворительного сервиса» 😉 — Алексей Жеглов.
Оригинал записи.
Остались вопросы? Задайте их на странице публикации или нам на school@filipyev.ru.