Аналитик понимает задачу

Хороший аналитик полезнее не потому что быстро соображает, много знает, работает каждый день допоздна и не тупит в Фейсбуке. Он решает правильные задачи, которые увеличивают продажи, снижают расходы и делают мир добрее.

Прежде чем лезть за данными и расчехлять Эксель, давайте разберёмся, как правильно формулировать аналитические задачи.

Вот несколько примеров «должностных обязанностей» из вакансий по ключевому слову «аналитик» с Хедхантера:

  • Аналитика деятельности конкурентов, в том числе ценовой анализ.
  • Формирование отчетов по первичным и вторичным продажам.
  • Анализ данных продаж и отгрузок дистрибьюторов по брендам, упаковкам, SKU.
  • Автоматизация регулярной отчётности по веб-аналитике.
  • Разработка форм аналитической отчётности.
  • Подготовка ежедневных аналитических справок «Повестка дня» — обзор новостей рынка.

Все задачи из серии «иди, посмотри, что там и напиши отчет». Меня смущает, что они отвязаны от бизнеса. Ну узнаете вы цены конкурентов. Посмотрите динамику отгрузок по дистрибьюторам. И? Как это повлияет на бизнес?

Может быть, сильно повлияет, а может и никак. Из того, как сформулирована задача сейчас, это неясно.

☝️ Понять, что на самом деле от вас хотят — ваша первая задача.

Или вы рискуете потратить время и силы впустую.

Аналитик понимает задачу

Я стараюсь применять принцип «исполнитель понимает задачу», который я подсмотрел в Дизайн-бюро Артёма Горбунова.

В армии ответственность за постановку задачи лежит на командире. Если его приказы будут размытыми и нечёткими, солдаты вляпаются в болото или забредут на минное поле. Солдаты не имеют права на размышления и инициативу, а отвечать за неудачу будет командир. Командир — военный профессионал.

Сервис устроен иначе. Клиент ставит задачу профессионалу, но профессионал не имеет права рассчитывать на то, что клиент окажется хорошим командиром. Чаще всего клиент вовсе и не хочет им быть — он заказывает услугу и ждёт хороший сервис. Человеческие отношения построены на ожиданиях, и первым делом нужно узнать — чего же именно ждёт клиент.

Разберём на примере.

Начальник говорит: «Сформируй-ка мне, голубчик, отчёт по продажам».

Плохой аналитик открывает Эксель, вставляет в таблицу «вчера продаж было столько-то» и гордый несёт начальнику. Начальник его разворачивает: данные нужны не за вчера, а за прошлый год, ещё нужно добавить информацию по городам и товарным категориям, и вообще, результат нужен не ему, а закупщикам. Беготня и непонятный результат.

Хороший аналитик уточняет задачу:

— Василий Петрович, расскажите, пожалуйста чуть подробней, какую задачу вы хотите решить?

— Хочу понять, что происходит с продажами носков в Сыктывкаре.

— В каком смысле, что происходят?

— Ну они растут или падают?

— Ясно. Вас интересуют продажи в рублях или в штуках?

— И так, и так.

— Скажите, вас интересуют все носки или только какая-то категория?

— В первую очередь, шерстяные носки.

— Понял. За какой период вам нужен отчёт?

— За прошлый год. Хочу посмотреть, был ли рост после того, как выпал снег.

— Правильно ли я понял, что вы хотите на основе прошлых годов спрогнозировать продажи шерстяных носков в этом году?

— Верно.

— Когда вам нужен отчёт?

— Отдел закупок просил до конца дня сказать, какую партию им заказывать.

— Почему срок до конца дня?

— Потому что если не закажем сегодня, у нас сгорит скидка.

— А что будет, если прогноз окажется неточным?

— Если купим слишком мало, они быстро кончатся, и мы не сможем докупить. Ближе к новому году шерстяные носки становятся дефицитом. Приходится заказывать из Африки. Если купим слишком много — не сможем продать. К весне они уже никому не нужны.

— Понял. Покажу первый драфт к обеду.

Чувствуете разницу?

Хороший аналитик сначала разбирается в задаче, а потом начинает работать.

☝️ Как понять, что вы разобрались в задаче

  • Задача сформулирована в мире клиента и описывает пользу, а не способ получения этой пользы. Хорошо: «придумать, как увеличить продажи». Плохо: «построить регрессионную модель в Экселе».
  • Понятно действие, которое клиент сделает, получив ваши данные: скорректирует тарифы, остановит рекламу, уволит закупщика.
  • Вы сформулировали (лучше письменно), как поняли задачу. Клиент подтвердил: «да, это именно то, что нужно».

На всякий случай уточню: в примере с носками задача — не «спрогнозировать продажи», а понять, какую партию закупать. Прогноз — одно из возможных решений задачи.

Декомпозируем задачу

Теперь вы знаете, с чего начинать работу и как понимать задачу. Следующий шаг — разобраться, как ее решить. Поговорим про это.

Вы можете осмотреться по сторонам. Например узнать, какие партии носков заказали конкуренты. Или оглянуться назад и посмотреть, сколько вы заказывали в прошлый раз.

Оба способа относительно просты. И оба — плохие.

Смотреть на конкурентов вредно, потому что вы не знаете, в каких условиях они работают. Какой у них маркетинговый бюджет? Какую скидку им дали поставщики? Может быть, их закупщик ошибся?

Смотреть на собственные продажи в прошлом году тоже опасно. Рынок изменился. Доллар уже не тот. Санкции. Погода другая. Ну вы поняли.

☝️ Действовать по аналогии — опасно

Принцип пирамиды

Надежнее, хоть и сложнее, разобраться в том, от чего зависят продажи носков, измерить и спрогнозировать каждый показатель и после этого делать выводы.

Приём называется «построение пирамиды метрик».

Чтобы спрогнозировать продажи, нужно понять, сколько ожидать покупателей, и сколько пар каждый из них купит.

Продажи носков = сколько покупателей x сколько пар носков в одни руки

Продали 3600 пар носков
= 1200 покупателей x 3 пары на человека

Копаем дальше. Откуда берутся покупатели?

Покупатели = новые покупатели + повторные

1 200 покупателей = 800 новых + 400 повторных

Повторные = всего людей в базе x доля вернувшихся

400 повторных = 16 000 людей в базе x 2.5% вернулись

Новые = посетители сайта x конверсия

800 новых = 20 000 посетителей x 4% конверсия

Посетители сайта = количество рекламных каналов x переходы с канала

20 000 посетителей = 5 000 пришли сами + (5 рекламных каналов x 3 000 людей)

Переходы с канала = количество показов баннера x кликабельность

3 000 переходов = 50 000 показов x 6% CTR

В итоге у вас получится такая картинка:

На вершине пирамиды — искомая задача. Дальше в разные стороны спускаются метрики, влияющие на цель. Ещё на уровень ниже — метрики, влияющие на показатели второго уровня. И так дальше.

Взглянув на картинку, вы увидите, на какие части бизнеса вы можете повлиять, чтобы добиться результата.

Как строить пирамиду

На верху пирамиды всегда ставим целевой показатель. Например, прибыль, выручку, расходы, количество звонков в кол-центр. Главное, чтобы вы чётко понимали, какую задачу хотите решить. Поэтому мы и начали с урока «Понимание задачи».

На следующем уровне должны быть показатели, непосредственно влияющие на целевой показатель.

☝️ Простой способ проверить себя: попробуйте записать формулу

Например,

Прибыль = доход − расход — Легко!

Прибыль = покупатели (?) себестоимость — Умножить? Cложить? Непонятно.

Чем масштабней задача, тем больше нужно уровней в пирамиде.

Останавливайтесь, когда доберетесь до показателей, на которые вы можете непосредственно влиять.

Например, вы не можете «решить» увеличить посещаемость. Но запустить дополнительные рекламные каналы или увеличить затраты на привлечение посетителей — вполне.

Как работать с пирамидой

В начале урока я сказал, что не стоит строить прогнозы по данным прошлого года. Всё так, но с оговоркой.

Когда вы уже построили пирамиду и выяснили, как взаимосвязаны метрики, сравнение показателей с прошлогодними будет полезно.

1. Понимаете задачу.

Нужно понять, какую партию носков заказывать.

2. Строите пирамиду метрик.

Разбираемся, от чего зависят продажи носков. Сколько покупателей? Сколько продаж на покупателя? Какие конверсии?

3. Смотрите историю по каждой метрике.

За год в базе прибавилось 10 000 человек. Покупают по-прежнему 2% из них. Конверсия в покупку от новых пользователей выросла на 30%…

4. Делаете выводы.

От повторных покупателей должно прийти 2 000 заказов. В рекламу вложим миллион, на сайт прийдет 100 000 человек, еще 5 000 заказов получим от них. Итого нам понадобятся 7 000 пар носков.

Вероятность хотя бы одного события из нескольких возможных

🔗 Предыдущие серии

Бывает, что нам нужно принять решение, для чего надо оценить вероятность наступления какого-то сложного события. Сложного в смысле состоящего из комбинации других событий.

Например мы собираемся в поход на выходные. Вероятность дождя в субботу 30%, а в воскресенье — 65%. Нужно ли брать резиновые сапоги? Если возьмем, а дождя не будет, будем зря таскать их с собой. Если оставим дома, а дождь пойдет, мы промочим ноги.

Или другой пример.

Мы планируем путешествие в Аргентину. Чтобы сэкономить, хотим купить билет с пятью пересадками, но беспокоимся, что если хотя бы один рейс опоздает, порушится вся цепочка. Готовы ли мы рисковать?

С точки зрения теории вероятностей все эти задачи очень похожи: есть цепочка каких-то независимых случайных событий, мы хотим оценить вероятность наступления хотя бы одного из них, чтобы принять правильное решение.

Хорошая новость в том, что раз задачи похожи, то и решаются они одинаково. Давайте, покажу, как.

Будет ли дождь?

Решим первую задачу. Начнем с того, что выпишем все возможные варианты погоды на выходных:

  1. Дождя нет ни в один из дней.
  2. Дождь идет только в субботу.
  3. Дождь идет только в воскресенье.
  4. Дожди идут оба дня.

Какая-то погода на выходных будет в любом случае, поэтому если мы сложим вероятности всех вариантов, то получим 100%.

P(1) + P(2) + P(3) + P(4) = 100%

Кстати, обратите внимание, что из всех вариантов, только (1) не подходит под условие «на выходных идет дождь». Если мы перенесем вероятность P(1) в левую часть уравнения, в правой части получим прям почти решение:

P(2) + P(3) + P(4) = 100% − P(1)

P(2) + P(3) + P(4) — это и есть то, что нам надо посчитать. Но, блин, там целых три случайных события.

Правая часть уравнения выглядит намного проще: 100% — P(1). Там только одно событие. И ведь эти части равны, значит если мы посчитаем правую, автоматически узнает и левую и решим задачу.

☝️ Хитрость в том, что решить задачу проще, если ее «перевернуть»: думать не о том, пойдет ли дождь в какой-нибудь из дней, а, наоборот, какова вероятность, что ни в один из дней дождя не будет.

Проговорим решение словами: вероятность того, что хотя бы в один из дней пойдет дождь = 100% − вероятность того, что ни в один из дней дождя не будет.

Это все круто, но чему равна вероятность того, что дождя не будет ни в один из дней?

Чтобы не углубляться в метеорологию, будем считать, что погода каждый день не зависит от погоды предыдущих дней. А если так, то, чтобы посчитать вероятность отсутствия дождя на выходных, достаточно перемножить вероятности того, что дождя не будет в каждый из дней:

Вероятности дождя в каждый из дней мы знаем. Значит можем посчитать вероятности того, что дождя не будет:

День Дождь Не дождь
Суббота 30% 100% − 30% = 70%
Воскресенье 65% 100% − 65% = 35%

Теперь перемножим:

P(дождя не будет) = 0.7 × 0.35 = 0.245 = 24.5%.

Сведем все воедино:

P(дождь будет хотя бы в один из выходных) = 100% − 24.5% = 75.5%

В общем виде решение задачи можно представить в виде формулы:

Вероятность P(А или B или C) = 100% − P(не, А) x P(не B) x P(не C)

Кайф этой формулы в том, что она подходит для любой комбинации независимых событий.

☝️ Случайные события называются независимыми, если вероятность наступления одного не меняется в случае наступления другого.

Независимые события

  • Самолет Аэрофлота из Москвы в Сочи задержался на 20 минут. Самолет Quatar Airlines, из Каира в Дубай задержался на час. Рейсы вылетали из разных мест, поэтому задержки вряд ли как-то связаны между собой.
  • Наше мобильное приложение скачал один, а потом и еще один пользователь. Может быть, конечно, оба пользователя увидели одну и ту же рекламу, но решения об установке, наверное, они принимали независимо друг от друга.
  • Гость казино несколько раз играет в рулетку. Каждый розыгрыш начинается с нуля и не зависит от предыдущих.

Зависимые события

  • Мы попали в пробку по пути в аэропорт, а потом мы опоздали на рейс. Если бы мы выехали заранее, или выбрали другой маршрут, могли бы успеть. То есть вероятность опоздать на рейс меняется в зависимости от наших предыдущих решений.
  • Пользователь скачал приложение и оформил платную подписку. Очевидно, что не было бы установки, не было бы и подписки.
  • Гость казино несколько раз играет в блекджек. В каждом розыгрыше из колоды достают несколько кард, поэтому шансы на победу каждый раз чуть-чуть меняются.

Для оценки вероятности нескольких зависимых событий используются чуть другие формулы, о них я расскажу отдельно.

Закрепим навык и решим задачу про путешествие в Аргентину.

Долетим ли мы до Аргентины?

Допустим, мы планируем отпуск. Заходим на Авиасейлз находим там вот такой маршрут.

  1. Москва → Сочи (Аэрофлот). Пересадка 1:35 ⚠️
  2. Сочи → Каир (Аэрофлот). Пересадка 12:45
  3. Каир → Доха (Quatar). Пересадка 8:20
  4. Доха → Сан Паулу (Quatar). Пересадка 1:45 ⚠️
  5. Сан Паулу → Буэнос Айрес (Air Canada)

Меня смущают две стыковки: в Сочи и в Сан Паулу. На пересадку будет мало времени, если хотя бы один рейс в цепочке задержится, может поломаться весь маршрут.

Перед покупкой я хочу посчитать вероятность того, что хотя бы один рейс в цепочке задержится.

Я нашел в сети статистику задержек авиакомпаний. Аэрофлот задерживает в 28.2% рейсов. Quatar Airlines — 8%. В моем маршруте два рейса Аэрофлотом, затем еще два — Quatar. Посчитаем вероятность того, что каждый рейс прилетит вовремя.

Рейс Вероятность
Москва → Сочи (Aэрофлот) 100% − 28.2% = 71.8%
Сочи → Каир (Aэрофлот) 100% − 28.2% = 71.8%
Каир → Доха (Quatar) 100% − 8% = 92%
Доха → Сан Паулу (Quatar) 100% − 8% = 92%

Сначала посчитаем вероятность того, что все рейсы прибудут вовремя:

P(все рейсы приедутут вовремя) = 0.718 × 0.718 × 0.92 × 0.92 ≈ 0.436

Теперь посчитаем, вероятность, что хотя бы один рейс задержится:

P(хотя бы один рейс задержится) = 1 − 0.436 = 0.564 = 56%

Вероятность хотя бы одной задержки равна 56%, то есть, скорее всего, что-то где-то пойдет не так. Может, конечно, какой-то рейс задержат всего на несколько минут, и это не порушит весь маршрут. Но кажется, все-таки стоит поискать маршрут попроще.

Резюме

  1. Если есть несколько случайных событий, то вероятность наступления хотя бы одного из них равна 100% минус перемноженные вероятности того, что эти события не наступят.
  2. Принцип работает для любых независимых событий.

Какова вероятность встретить динозавра за углом? 🦖

Есть старый анекдот:

Блондинку спрашивают:
— Если ты зайдешь за угол, какова вероятность того, ты там встретишь динозавра?
— 50%. Либо встречу, либо нет.

Юмор в том, что, с одной стороны, блондинка дает наивный и абсурдный ответ. Но с другой стороны без погружение в теорию вероятностей сходу найти ошибку в рассуждениях может не получиться. Ведь правда, либо встретит, либо нет.

В прошлой заметке я рассказал про случайные события, случайные величины, пространства вариантов и про то, что вероятность — это свойство конкретного значения случайной величины.

Теперь давайте разберемся, что это за свойство такое, как его измерять. И, наконец, разберемся с динозаврами.

Для наглядности решим простую задачу.

Простая задача

🎲 Задача: какова вероятность получить четное число, если подбросить игральный кубик?

Обычно в учебниках вероятность объясняется на примерах из азартных игр: подбрасываниях монеты или игральных кубиков, доставания наугад цветных шариков из мешка. Это позволяет упростить понимание, не теряя при этом нужных деталей. А раз так, то не будем придумывать велосипед, и некоторое время поподбрасываем кубики.

Распакуем задачу в известные нам понятия:

Случайное событие

Cлучайное событие — подбрасывание кубика. Мы заранее не знаем, какое число мы получим.

Случайная величина

Случайная величина — полученное в результате подбрасывания число.

Пространство вариантов

Предположим, что у нашего кубика 6 граней. То есть пространство вариантов случайной величины: целые числа 1, 2, 3, 4, 5, 6.

В основе теории вероятностей лежит «классическое» определение вероятности.

ℹ️ Вероятность события A равна отношению количества равновозможных элементарных событий, составляющих событие А к числу всех возможных элементарных событий.

Формула: P(A) = m/n

P(A) — вероятность события A
m — количество равновозможных событий, входящих в, А
n — общее количество возможных событий

В определении встречаются несколько неизвестных нам фраз. Переведем их на русский.

Событие А

Так для краткости называют какое-то целевое событие, вероятность которого мы хотим посчитать. Например, в этой задаче «Событие А» — получение четного числа.

Элементарное событие

Элементарным событием называют выпадение любого значения из пространства вариантов. Например, выпадение 1, 2 или 5.

Целевое событие может состоять из какой-то комбинации элементарных событий. Например, выпадение четного числа означает выпадение 2, 4 или 6.

Равновозможность

Обычный игральный кубик может с равной вероятностью упасть любой стороной вверх. То есть возможность получить единицу, двойку и т. п. одинаковы. Или, другими словами, все исходы одного броска кубика равновозможны.

Окей, вроде, все определения есть. Теперь сформулируем решение задачи через классическое определение вероятности и решим ее.

Вероятность события А…

Вероятность выпадения четного числа при подбрасывании игральной кости.

…равна отношению количества равновозможных элементарных событий, составляющих событие А…

Равновозможные элементарные события, составляющие выпадение четного числа: выпадение 2, 4, 6.

Всего таких событий 3.

…к числу всех возможных элементарных событий.

Все элементарные события из пространства вариантов: 1, 2, 3, 4, 5, 6. Всего их 6.

Итого, вероятность P(четное число) = 3/6 = ½ = 50%

Вернемся к задаче про динозавра 🦖.

Как раз из классического определения вероятностей следует предложенное блондинкой решение про 50%.

Событие А — заходим за угол. Элементарных событий два: либо встречаем динозавра, либо нет. Удовлетворяет условию только одно. Значит итоговая вероятность P(встретить динозавра) = ½ = 50%.

Но теперь лучше видно, что мы упустили важное условие про равновозможность вариантов. Чтобы разобраться, решим еще одну задачу с кубиками, теперь посложнее.

Задача посложнее

🎲 Задача: какова вероятность получить число, от 6 и до 10 при броске двух игральных кубиков?

Побудем занудами и прежде, чем прыгать к решению, распакуем задачу в известные понятия. Поверьте, это хорошая практика.

Случайное событие

В этой задаче случайное событие — подбрасывание двух игральных кубиков.

Случайная величина

Тут без изменений. Случайная величина — полученное в результате подбрасывания число.

Пространство вариантов

Мы подбрасываем два кубика. Каждый может принять значения от 1 до 6. То есть совместно они могут дать от 2 до 12.

Событие А

Получение числа от 6 и до 10.

Элементарное событие

А вот тут интересно. Когда мы подбрасывали один кубик, мы могли получить каждое значение только одним способом. Например, чтобы получить 3, нужно было, чтобы кубик упал тройкой наверх.

Теперь мы бросаем два кубика и можем получить тройку, если на первом кубике выпадет 1, а на втором 2, или если на первом выпадет 1, а на втором 2.

То есть в этой задаче элементарное событие — не итоговое количество выпавших очков, а выпадение комбинации цифр на двух кубиках.

Равновозможность

Некоторые числа из пространства вариантов можно получить только одним способом. Например, чтобы получить двойку, нужно, чтобы на обоих кубиках выпали единички. А другие числа можно получить несколькими способами. Я выше описал способы получить число тройку. Считать выпадение двойки и тройки равновозможными — ошибка.

Но вот выпадение каждой комбинации из двух кубиков все еще равновозможна. Выпадение 1 и 4 случается с такой же частотой, как и выпадение 4 и 1 или 3 и 2.

Теперь сформулируем решение задачи через классическое определение вероятности.

Вероятность события А…

Вероятность выпадения числа от 6 и до 10 при бросании двух игральных кубиков.

…равна отношению количества равновозможных элементарных событий, составляющих событие А…

Выпадение 6, 7, 8, 9, 10.

Шестерка может выпасть пятью способами: 1+5, 2+4, 3+3, 4+2, 5+1. Семерка — шестью способами.

Всего нужные нам числа попадаются 23 раза.

…к числу всех возможных элементарных событий.

Все элементарные события из пространства вариантов: 1+1, 1+2, 1+3 и так далее. Всего элементарных событий в данном случае 36.

Итого, вероятность P(от 6 до 10) = 23/36 ≈ 63.9%.

Всего возможны 36 вариантов результата подбрасывания двух игральных кубиков.

Из всех вариантов нам подходят 23.

В принципе, при наличии данных, с помощью этого способа можно решить любую задачу на вероятность: cчитаем количество равновозможных элементарных событий, удовлетворяющих целевому событию, делим на общее их количество и вуаля — готово!

Но, сожалению, в реальной жизни нужных данных может не быть, и тогда приходится придумывать другие решения. Задача про динозавра как раз отлично подходит для иллюстрации этого ограничения. Давайте попробуем ее решить.

Задача про динозавра

🦖 Задача: какова вероятность, зайдя за угол, встретить динозавра?

Как обычно, распишем задачу на части.

Случайное событие

Заходим за угол.

Случайная величина

Кого мы встретим за углом.

Пространство вариантов

Вот тут начинаются проблемы. Зайдя за угол мы можем встретить динозавра, пришельца, Джастина Бибера, Ромку из 7 «Б», а можем и вообще никого не встретить. Пространство вариантов где-то между «поди разбери» и бесконечностью.

Событие А

Тут тоже неясно. Нас интересует какой-то конкретный динозавр? Он обязательно должен быть живым? А надувной подойдет? Говорят, что птицы — тоже динозавры. Они считаются?

Элементарное событие

Тут просто. Заходим за угол и смотрим, кто там.

Равновозможность

С равновозможностью вообще провал. Скорее всего, за углом никого. Может быть там кто-то есть. Но точно у всех возможных вариантов вероятность будет сильно отличаться.

Получается, что вероятность встретить динозавра за углом равна какому-то непонятному числу в числителе, деленному на еще более непонятное число в знаменателе.

К сожалению, решение «либо встречу, либо нет» из анекдота не подходит. К сожалению, ни при каких условиях варианты «динозавр» и «не динозавр» не могут быть равновозможными. Значит, классическое определение вероятности применять нельзя.

Более того, это значит, что, строго говоря, точное значение вероятности встретить динозавра неизвестно и никогда не будет известно. И похожая проблема распространяется практически на все события в реальном мире. Точно посчитать их вероятности невозможно потому что пространство вариантов у этих событий либо неопределено, либо бесконечно.

Но хорошая новость в том, что для принятия решений знать точную вероятность не обязательно. Достаточно прикинуть ее с какой-то комфортной погрешностью.

Например, интуитивно понятно, что за углом может быть кто угодно, пространство вариантов огромное и, вероятность встретить динозавра хоть и неизвестна, но, скорее всего, она где-то около нуля.

Забавно, что если сформулировать вопрос в своей изначальной форме, многие отвечают «50%». Но стоит чуть переформулировать вопрос, повысить ставки и добавить принятие решения, общественное мнение безошибочно смещается.

В следующей заметке мы поговорим о том, какие бывают способы оценивать вероятность событий в реальном мире. Подписывайтесь в Телеграме, обычно все анонсы пишу туда.

🔗 https://t.me/kulichevskiy

Случайные события

Это первая заметка из серии про теорию вероятностей, статистику и принятие решений в условиях неопределенности. Все заметки будут появляться в разделе probability.

Давайте разберемся, что такое вероятность и как ее правильно готовить. Любой разговор о вероятности стоит начинать с понятия «случайной величины».

Вот есть какое-то будущее, в нем могут произойти всякие события. Мы заранее не знаем, какие. Но знаем или нет, но нам надо как-то жить и принимать какие-то решения в условиях неопределенности.

Например, утром мы не знаем, какая погода будет в течение дня, но, не смотря на это, нам надо как-то одеться и пойти делать дела.

В момент принятия решения мы в думаем: «ну вообще сейчас июль, вчера на улице было +30, на небе ни облачка, по радио сказали, что сегодня будет такая же погода». И в итоге делаем вывод, что, снег, наверное, не пойдет, и лучше надеть шорты, чем шубу.

Наступление той или иной погоды или другие неизвестные заранее штуки называют случайными событиями.

Погода в течение дня состоит из набора величин: температуры, атмосферного давления количества осадков. Их значения нам не известны, поэтому, по аналогии с событием, их называют «случайными величинами».

ℹ️ Случайная величина — численное выражение случайного события.


У случайных значений есть всякие свойства. Например, они могут принимать значения в разных диапазонах: количество осадков не может быть отрицательным, температура воздуха не сможет опуститься ниже −273 °C. Эти диапазоны я называю «пространством вариантов».

ℹ️ Пространство вариантов — диапазон возможных значений случайной величины.


Более того, бывает, что одни значения случайной величины встречаются чаще, чем другие. Тогда говорят, что вероятность этих значений выше, чем вероятность других.

Например, на Земле температура 0 °C встречается чаще, чем 1 000 000 С. Если мы в случайном месте измерим температуру, скорее получим результат ближе к нулю, чем к миллиону.

То есть вероятность — это свойство случайной величины. Точнее не самой величины, а какого-то конкретного ее значения.

ℹ️ Вероятность — свойство конкретных значений случайной величины


Кстати, если взять весь диапазон возможных значений и добавить к каждому его вероятность, мы получим «вероятностное пространство» этой случайной величины.

Резюме

  1. В мире есть всякие случайные события, значения которых нам заранее не известны.
  2. Исходы случайных событий можно представить в виде чисел. Эти числа называются случайными величинами.
  3. Случайные величины могут принимать значения из разных диапазонов, которые называются пространствами вариантов.
  4. Бывает, что одни значения из пространства вариантов встречаются чаще других. Тогда говорят, что вероятность этих значений выше.

Мы ввели основные понятия, теперь можем переходить к тому, как измерять вероятность того или иного события и чему на самом деле равна вероятность встретить за углом динозавра. Об этом — в следующей части.

Делаем интерактивные аналитические дешборды в Google Sheets

Рассказываю о том, как собирать в Google Sheets удобные аналитические отчеты с помощью формулы =QUERY().

Получившийся дешборд

Интернационализация, локализация и запуск блога на английском языке

В начале февраля я подписался на челедндж «Content Hero Global» и обязался каждый день публиковать контент на английском языке. Начал с того. что зарегистрировался в Твиттере, но быстро понял, что мне интереснее писать более объемные заметки, например, разборы книг. В этой серии я адаптирую сайт для работы с несколькими языками и деплою англоязычную версию на новый домен.

Как локализовать сайт

  1. Пометьте элементы, которые надо будет локализовать с помощью утилиты gettext. Не забудьте установить саму утилиту.
  2. Создайте папку local и message-файл с помощью команды manage.py makemessages.
  3. Переведите помеченные элементы на нужный язык и запишите переводы в созданный message-file.
  4. Скопилируйте переводы с помощью manage.py combilemessages.
  5. При деплое не забудьте установить на сервер gettext и добавить команду, компилирующую переводы.

На этом все! Успехов,
Куличевский

P.S. Посмотрите, какой сайт кайфовый получился: https://alexchevsky.com

Рубрикатор категорий и социальные кнопки

На неделе я добавил несколько новых фичей на сайт. Теперь с любой страницы сайта можно вернуться на главную, кликнув по логотипу в шапке, в блоге появился рубрикатор категорий, а на в заметки теперь можно расшарить с помощью социальных кнопок.

Доска в Trello: https://smysl.io/trello

Код на Github: https://github.com/alexchevsky/smysl-io

Объединяем данные о расходах и доходах в Google Sheets

Представим, что у нас есть список заказов и выгрузка из рекламной системы. Нужно составить отчет, считающий количество заказов, выручку, стоимость заказа и окупаемость маркетинга. В видео рассказываю, как можно решить задачу и какие подводные камни могут встретиться на пути.

Как сводить данные в Google Sheets

Чтобы объединить данные только по одному критерию, подойдет формула VLOOKUP. Если параметров несколько, лучше использовать формулы агрегации с условиями: SUMIFS, COUNTIFS и другие.

Бывает, что некоторые значения колонки, по которой мы объединяем данные, отсутствуют в одной из таблиц. Это может привести к потере данных. Чтобы решить проблему, лучше вывести все нужные значения этой колонки в отдельную таблицу и оттуда уже все объединять.

Отчет, который получился на видео. Скопируйте его себе в аккаунт и используйте на здоровье.

Как загружать картинки в Django

Когда я, наконец, задеплоил сайт в продакшн, я сел писать пост о том, чем я научился в процессе. Чтобы пост был более наглядным, я подготовил иллюстрации. И тогда понял, что не знаю, как эти иллюстрации загрузить к статье.

Как загружать картинки на сайт

  1. В нужную модель данных надо добавить поле типа ImageField().
  2. Чтобы картинки загружались, надо указать в settings.py название папки, в которую их надо будет класть. Например, '/media/'.
  3. Чтобы картинки не только загружались, но и показывались на сайте, надо прописать путь к созданной папке в файле urls.py.

Об этих пунктах я рассказываю в видео. Помимо них есть еще два, которые я в видео упустил.

  1. Чтобы прогнать миграции, содержащие ImageField() нужна библиотека Pillow. Ее можно установить, выполнив pip install Pillow.
  2. При деплое на сервер, я обнаружил, что картинки не открываются. В итоге я разобрался, что папку /media/ надо прописать в конфиге Nginx. Мы ранее делали такую же операцию, когда настраивали папку /static/.

Как обычно, последнюю версию кода сайта можно посмотреть и скопировать из Гитхаба.

Чему я научился, делая сайт с нуля в прямом эфире

В двух словах

Я захотел научиться делать сайты с помощью Django и решил снять весь процесс на видео и опубликовать на Youtube, а код выложить в открытый доступ Github. В итоге снял 10 двухчасовых видео, а весь код выложил в открытый доступ.

Выводы: делать сайт с нуля сложно, но весело. Делать прямые эфиры сложно и не очень весело. Записанные и по-нормальному смонтированные видео и снимать, и смотреть гораздо удобнее.

Чтобы следить за следующими сериями, подписывайтесь на рассылку.

Предыстория

Писать в блог

В прошлом году мне в руки попалась книга Остина Клеона «Show Your Work». Это короткая, емкая и вдохновляющая книга о том, зачем и как вести блог.

«Представьте, что будущему работодателю не придется читать ваше резюме потому что он уже читает ваш блог. Представьте, что вы студент и получаете первую работу благодаря своему учебному проекту, который разместили в интернете. Представьте, что вас увольняют, но у вас уже есть контакты людей, осведомленных о вашей работе и готовых помочь отыскать новую. Представьте, что вы превращаете дополнительную работу или хобби в профессию, потому что ваше окружение вас поддерживает».

Я несколько раз пытался сформировать привычку делиться контентом. Например, завел канал в Телеграме, сделал сайт, принял участие в челендже Content Hero. Бывает, что находит вдохновение и контент дается легко. А бывает, что другие дела засасывают и блог отправляется на дальнюю полку.

Например, в блоге я написал две статьи о Pandas. Я уже не помню, когда это было. Кажется в 2017 году. В своём канале я сначала писал про аналитику, но потом идеи кончились. Подписался на Content Hero. Там все участники обязуются в течение 30 дней публиковать хотя бы по одному посту. Написал пару неплохих заметок про философию, но потом челендж закончился, и посты вместе с ним.

В общем, сформировать привычку не удалось.

Создавать продукты

Параллельно в моей голове давно крутится желание научиться делать цифровые продукты. Я начал карьеру продавцом, потом научился управлять баннерами и стал маркетологом. Постепенно научился считать метрики и строить когорты — я стал аналитиком. Но все это время я завидовал разработчикам.

Ну как завидовал. В принципе, именно работать программистом часто, вроде бы, довольно скучная работа. Но мне всегда казалось, что уметь прям взять и своими руками реализовать идею в продукте — очень крутая суперсила.

Я постепенно научился писать код и анализировать данные. В Osome вообще получилось собрать всю инфраструктуру работы с данными, на которой компания прожила первые 3 года. Но все это было не то. Как будто не хватало какого-то базового кирпичика.

Недавно я понял, что не хватает как раз умения просто брать и создавать, например, сайты.

Документировать процесс

В Show Your Work есть одна мощная идея:

Лучший способ начать делиться своей работой — подумать о том, чему вы хотите научиться и взять на себя обязательство делать это на глазах у других.

В декабре 2021, незадолго до начала новогодних праздников я подумал: «А почему бы мне не научиться делать сайты в прямом эфире?».

Еще полгода назад мне на глаза попалась другая книга, Test Driven Development with Django, в которой по шагам показывают, как написать сайт на Python. Я придумал, что могу идти по книге, делать задания, снимать процесс на видео и выкладывать на Youtube. Только, чтобы было интереснее, вместо примеров из книги, я решил сразу делать свой продукт. Например, переделать свой старый сайт.

С одной стороны, идея захватывающая, но с другой — страшная до ужаса.

Страшно опозориться

Я люблю нравиться. Поэтому мне некомфортно от мысли, что я вот так прям публично заявлю о том, что я чего-то не знаю. Вернее даже не заявлю, а очень наглядно продемонстрирую. Как же так, я весь такой эксперт, курс по Python продаю, а сайты делать не умею.

Но в книге и на эту мысль нашелся ответ:

Самое глупое творчество остается творчеством. Представьте линейку, измеряющую качество той или иной работы. Разница между посредственной и хорошей работой может быть огромна, но плохая работа хотя бы есть на этой линейке. Настоящая пропасть лежит между бездействием и действием, каким бы оно не было. Лучше сделать хоть что-нибудь, чем не делать ничего.

Ну не понравятся кому-нибудь мои видео, ну отпишутся они от меня. Ну что ж теперь поделать. В общем, сделать и пожалеть круче, чем не сделать и пожалеть.

Снимаем сериал

В конце декабря сделал анонс в телеграм-канале: за новогодние праздники хочу научиться делать сайты с помощью Python и Django и планирую показывать весь процесс в прямом эфире на Youtube.

Первый эфир вышел 2 января, как только закончилась активная часть новогодних праздников. Потом я старался держать темп и выпускать один эфир раз в два дня.

В итоге получилось 4 эфира по 2 часа каждый. Получилось написать основную логику работы блога. В конце праздников сайт умел создавать, хранить и отображать статьи, но внешне выглядел пока так себе.

Так выглядел сайт, когда я «доделал блог». Сайт умел сохранять статьи в базу данных и показывать их на экране. Но оформления сначала никакого не было.

Стало очевидно, что за праздники сайт доделать не получится, придется продолжать параллельно с моей работой. Но в будни делать и смотреть прямые эфиры сложно, ведь вернулась основная работа. Я, конечно рано встаю, и могу выходить в эфир в 8 утра, но, кажется, смотреть вживую это никто не будет. Поэтому решил отказаться от лайвов и вместо этого записывать прогресс на видео и продолжать выкладывать. Так получились 5 и 6, 8 и 9 эпизоды.

В итоге получилось 10 эпизодов: 6 лайвов и 4 в записи. Cуммарное время эфиров около 20 часов (там где-то час я отрезал при монтаже записанных видео). Я работал над сайтом только перед камерой. В оффлайне только иногда почитывал документацию, чтобы совсем уж не тупить.

За это время у меня получилось пройти путь от пустого экрана до полноценного блога, написанного на Django, полностью покрытого функциональными и unit-тестами, с автоматизированным деплоем. Собственно эту статью я уже опубликовал в новый блог, так что вы сейчас видите результат трудов.

Чему я научился

Делать сайты сложно, но весело

Конечно, пока сайт не то, чтобы технологическое чудо. Такого же (или даже лучшего) результата можно было добиться просто использовав какую-нибудь платформу типа Вордпресса.

Работая с готовыми платформами, привыкаешь к процессу «клик-клик, сохранить, готово, оно в интернете». Даже не задумываешься о том, что там происходит под капотом.

А тут, чтобы одну страничку сделать, надо базу поднять, вьюху написать, шаблон добавить, маршрутизацию настроить. И даже после всего этого страничка начнет работать на локальном компьютере. Чтобы она появилась в интернете, надо где-то раздобыть сервер, настроить его и каким-то образом задеплоить написанный код.

Но, знаете что, по мне так именно в этих деталях все веселье! Я теперь знаю, как именно сайт работает, он мне стал как будто родным. И, самое главное, теперь я знаю, что нужно делать, чтобы его развивать.

Делать прямые эфиры сложно и не очень весело

У меня есть некоторый опыт работы с камерой. Я веду курсы, читаю лекции. В сентябре я купил себе домой нормальную камеру, свет и микрофон и снял пару мини-курсов. Например, видео о том, как использовать регулярные выражения.

Я подумал, что, раз я говорить на камеру умею, то лайвы тоже смогу. Ну, в принципе, смог, но на деле все оказалось гораздо сложнее.

Мой сетап: Macbook Pro, камера Sony a6400 с телесуфлером Pixaero, микрофон Shure MV7, Elgato Stream Deck

Мой сетап состоит из ноутбука, камеры и микрофона. Когда в ходе лайва я показываю свой экран, я вижу этот же экран, но не вижу себя и финальную композицию, которую видят зрители. То есть, если с композицией что-то не так, я могу этого не заметить.

А эти «не так», естественно, постоянно возникали.

Например, при съемках второго эпизода, я пару раз забывал переключить экран. Объясняю: «а вот тут, смотрите, мы вводим такую команду и получаем такой-то результат». А зрители при этом видят просто мое лицо. Упс:(

В третьем эпизоде еще хуже. У меня, видимо, съехала камера и в течение почти всего стрима на экране помещалась только половина моего лица. Я это увидел только после эфира. Если это была бы запись, я пошел бы все переделывать, но лайв уже в интернете и его не вернешь.

Хорошо хоть, код видно

Ну и, конечно, то, что относится потом ко всем лайвам: больно смотреть видео со всеми этими паузами, мычанием и словарными паразитами. Наверное, надо будет нанять монтажера и вырезать лишнее. Но на будущее, все же, проще сначала снимать видео, монтировать и потом выкладывать. Мороки меньше, а результат получается гораздо лучше.

Cтрах опозориться

Когда планировал проект, я боялся опозориться. Оказалось, что я боялся не совсем безосновательно. Как только я начал публиковать видео в телеграм-канале, люди начали довольно активно отписываться.

За время эфиров от меня отписались 100 с лишним человек

Когда я смотрел на график, я, конечно же сразу рационализировал: «Это нормально! Я давно ничего не писал, за это время ко мне случайно подписались сколько-то людей, а теперь я начал активно постить, и они поняли, что контент не для них».

Рационализация — это, конечно, хорошо, но смотреть на растущий график гораздо кайфовее. В Телеграме в итоге отписалось чуть больше 100 человек то есть около 5% аудитории. Обидно!

Но, с другой стороны, на Youtube-канал добавилось тоже около 100 человек. Так что поди разберись.

На самом деле, я предполагал, что такой контент, наверняка, будет бесить 10%, оставит равнодушным 70–80% и очень хорошо зайдет другим 10%. Кажется, так и случилось. Я вижу по отзывам и комментариям к видео, что некоторым людям они очень даже полезны. Это самое кайфовое!

Что дальше

Этот пост — это как бы финал «первого сезона», в котором я прошел путь от полной пустоты до работающего в интернете блога.

Я вошел во вкус и планирую продолжать сериал. Во-первых, сам блог пока сыроват. Например, мне приходится вручную верстать все статьи в html, а картинки заливать через код. Так не пойдет, надо исправить. Ну и во-вторых, я хочу сделать на сайте каталог своих курсов с доступом по подписке.

Это большой проект, надо будет научиться делать закрытые разделы, регистрацию и логин пользователей, интегрировать платежную систему, настроить управление подписками.

Но спамить людей в Телеграме, наверное больше не буду, надо разнообразить контент. А для тех, кому интересно следить за прогрессом, лучше сделаю тематическую рассылку.

Кажется, Остин Клеон был прав про то, что публичная учеба — лучший способ начать делиться своей работой. Это точно помогает мне и, кажется, не только мне.

Аналитикам: большая шпаргалка по Pandas

Привет. Я задумывал эту заметку для студентов курса Digital Rockstar, на котором мы учим маркетологов автоматизировать свою работу с помощью программирования, но решил поделиться шпаргалкой по Pandas со всеми. Я ожидаю, что читатель умеет писать код на Python хотя бы на минимальном уровне, знает, что такое списки, словари, циклы и функции.

  1. Что такое Pandas и зачем он нужен
  2. Структуры данных: серии и датафреймы
  3. Создаем датафреймы и загружаем в них данные
  4. Исследуем загруженные данные
  5. Получаем данные из датафреймов
  6. Считаем производные метрики
  7. Объединяем несколько датафреймов
  8. Решаем задачу

Что такое Pandas и зачем он нужен

Pandas — это библиотека для работы с данными на Python. Она упрощает жизнь аналитикам: где раньше использовалось 10 строк кода теперь хватит одной.

Например, чтобы прочитать данные из csv, в стандартном Python надо сначала решить, как хранить данные, затем открыть файл, прочитать его построчно, отделить значения друг от друга и очистить данные от специальных символов.

> with open('file.csv') as f:
...    content = f.readlines()
...    content = [x.split(',').replace('\n','') for x in content]

В Pandas всё проще. Во-первых, не нужно думать, как будут храниться данные — они лежат в датафрейме. Во-вторых, достаточно написать одну команду:

> data = pd.read_csv('file.csv')

Pandas добавляет в Python новые структуры данных — серии и датафреймы. Расскажу, что это такое.

Структуры данных: серии и датафреймы

Серии — одномерные массивы данных. Они очень похожи на списки, но отличаются по поведению — например, операции применяются к списку целиком, а в сериях — поэлементно.

То есть, если список умножить на 2, получите тот же список, повторенный 2 раза.

> vector = [1, 2, 3]
> vector * 2
[1, 2, 3, 1, 2, 3]

А если умножить серию, ее длина не изменится, а вот элементы удвоятся.

> import pandas as pd
> series = pd.Series([1, 2, 3])
> series * 2
0    2
1    4
2    6
dtype: int64

Обратите внимание на первый столбик вывода. Это индекс, в котором хранятся адреса каждого элемента серии. Каждый элемент потом можно получать, обратившись по нужному адресу.

> series = pd.Series(['foo', 'bar'])
> series[0]
'foo'

Еще одно отличие серий от списков — в качестве индексов можно использовать произвольные значения, это делает данные нагляднее. Представим, что мы анализируем помесячные продажи. Используем в качестве индексов названия месяцев, значениями будет выручка:

> months = ['jan', 'feb', 'mar', 'apr']
> sales = [100, 200, 300, 400]
> data = pd.Series(data=sales, index=months)
> data
jan    100
feb    200
mar    300
apr    400
dtype: int64

Теперь можем получать значения каждого месяца:

> data['feb']
200

Так как серии — одномерный массив данных, в них удобно хранить измерения по одному. На практике удобнее группировать данные вместе. Например, если мы анализируем помесячные продажи, полезно видеть не только выручку, но и количество проданных товаров, количество новых клиентов и средний чек. Для этого отлично подходят датафреймы.

Датафреймы — это таблицы. У их есть строки, колонки и ячейки.

Технически, колонки датафреймов — это серии. Поскольку в колонках обычно описывают одни и те же объекты, то все колонки делят один и тот же индекс:

> months = ['jan', 'feb', 'mar', 'apr']
> sales = {
...    'revenue':     [100, 200, 300, 400],
...    'items_sold':  [23, 43, 55, 65],
...    'new_clients': [10, 20, 30, 40]
...}
> sales_df = pd.DataFrame(data=sales, index=months)
> sales_df
     revenue  items_sold  new_clients
jan      100          23           10
feb      200          43           20
mar      300          55           30
apr      400          65           40

Объясню, как создавать датафреймы и загружать в них данные.

Создаем датафреймы и загружаем данные

Бывает, что мы не знаем, что собой представляют данные, и не можем задать структуру заранее. Тогда удобно создать пустой датафрейм и позже наполнить его данными.

> df = pd.DataFrame()

А иногда данные уже есть, но хранятся в переменной из стандартного Python, например, в словаре. Чтобы получить датафрейм, эту переменную передаем в ту же команду:

> df = pd.DataFrame(data=sales, index=months))

Случается, что в некоторых записях не хватает данных. Например, посмотрите на список goods_sold — в нём продажи, разбитые по товарным категориям. За первый месяц мы продали машины, компьютеры и программное обеспечение. Во втором машин нет, зато появились велосипеды, а в третьем снова появились машины, но велосипеды исчезли:

> goods_sold = [
...     {'computers': 10, 'cars': 1, 'soft': 3},
...     {'computers': 4, 'soft': 5, 'bicycles': 1},
...     {'computers': 6, 'cars': 2, 'soft': 3}
... ]

Если загрузить данные в датафрейм, Pandas создаст колонки для всех товарных категорий и, где это возможно, заполнит их данными:

> pd.DataFrame(goods_sold)
   bicycles  cars  computers  soft
0       NaN   1.0         10     3
1       1.0   NaN          4     5
2       NaN   2.0          6     3

Обратите внимание, продажи велосипедов в первом и третьем месяце равны NaN — расшифровывается как Not a Number. Так Pandas помечает отсутствующие значения.

Теперь разберем, как загружать данные из файлов. Чаще всего данные хранятся в экселевских таблицах или csv-, tsv- файлах.

Экселевские таблицы читаются с помощью команды pd.read_excel(). Параметрами нужно передать адрес файла на компьютере и название листа, который нужно прочитать. Команда работает как с xls, так и с xlsx:

> pd.read_excel('file.xlsx', sheet_name='Sheet1')

Файлы формата csv и tsv — это текстовые файлы, в которых данные отделены друг от друга запятыми или табуляцией:

# CSV
month,customers,sales
feb,10,200

# TSV
month\tcustomers\tsales
feb\t10\t200

Оба читаются с помощью команды .read_csv(), символ табуляции передается параметром sep (от англ. separator — разделитель):

> pd.read_csv('file.csv')
> pd.read_csv('file.tsv', sep='\t')

При загрузке можно назначить столбец, который будет индексом. Представьте, что мы загружаем таблицу с заказами. У каждого заказа есть свой уникальный номер, Если назначим этот номер индексом, сможем выгружать данные командой df[order_id]. Иначе придется писать фильтр df[df[‘id’] == order_id ].

О том, как получать данные из датафреймов, я расскажу в одном из следующих разделов. Чтобы назначить колонку индексом, добавим в команду read_csv() параметр index_col, равный названию нужной колонки:

> pd.read_csv('file.csv', index_col='id')

После загрузки данных в датафрейм, хорошо бы их исследовать — особенно, если они вам незнакомы.

Исследуем загруженные данные

Представим, что мы анализируем продажи американского интернет-магазина. У нас есть данные о заказах и клиентах. Загрузим файл с продажами интернет-магазина в переменную orders. Раз загружаем заказы, укажем, что колонка id пойдет в индекс:

> orders = pd.read_csv('orders.csv', index_col='id')

Расскажу о четырех атрибутах, которые есть у любого датафрейма: .shape, .columns, .index и .dtypes.

.shape показывает, сколько в датафрейме строк и колонок. Он возвращает пару значений (n_rows, n_columns). Сначала идут строки, потом колонки.

> orders.shape
(5009, 5)

В датафрейме 5009 строк и 5 колонок.

Окей, масштаб оценили. Теперь посмотрим, какая информация содержится в каждой колонке. С помощью .columns узнаем названия колонок:

> orders.columns
Index(['order_date', 'ship_mode', 'customer_id', 'sales'], dtype='object')

Теперь видим, что в таблице есть дата заказа, метод доставки, номер клиента и выручка.

С помощью .dtypes узнаем типы данных, находящихся в каждой колонке и поймем, надо ли их обрабатывать. Бывает, что числа загружаются в виде текста. Если мы попробуем сложить две текстовых значения '1' + '1', то получим не число 2, а строку '11':

> orders.dtypes
order_date      object
ship_mode       object
customer_id     object
sales          float64
dtype: object

Тип object — это текст, float64 — это дробное число типа 3,14.

C помощью атрибута .index посмотрим, как называются строки:

> orders.index
Int64Index([100006, 100090, 100293, 100328, 100363, 100391, 100678, 100706,
            100762, 100860,
            ...
            167570, 167920, 168116, 168613, 168690, 168802, 169320, 169488,
            169502, 169551],
           dtype='int64', name='id', length=5009)

Ожидаемо, в индексе датафрейма номера заказов: 100762, 100860 и так далее.

В колонке sales хранится стоимость каждого проданного товара. Чтобы узнать разброс значений, среднюю стоимость и медиану, используем метод .describe():

> orders.describe()
         sales
count   5009.0
mean     458.6
std      954.7
min        0.6
25%       37.6
50%      152.0
75%      512.1
max    23661.2

Наконец, чтобы посмотреть на несколько примеров записей датафрейма, используем команды .head() и .sample(). Первая возвращает 6 записей из начала датафрейма. Вторая — 6 случайных записей:

> orders.head()
        order_date ship_mode customer_id    sales
id                                                                         
100006  2014-09-07  Standard    DK-13375  377.970
100090  2014-07-08  Standard    EB-13705  699.192
100293  2014-03-14  Standard    NF-18475   91.056
100328  2014-01-28  Standard    JC-15340    3.928
100363  2014-04-08  Standard    JM-15655   21.376

Получив первое представление о датафреймах, теперь обсудим, как доставать из него данные.

Получаем данные из датафреймов

Данные из датафреймов можно получать по-разному: указав номера колонок и строк, использовав условные операторы или язык запросов. Расскажу подробнее о каждом способе.

Указываем нужные строки и колонки

Продолжаем анализировать продажи интернет-магазина, которые загрузили в предыдущем разделе. Допустим, я хочу вывести столбец sales. Для этого название столбца нужно заключить в квадратные скобки и поставить после них названия датафрейма: orders['sales']:

> orders['sales']
id
100006     377.970
100090     699.192
100293      91.056
100328       3.928
100363      21.376
100391      14.620
100678     697.074
100706     129.440
...

Обратите внимание, результат команды — новый датафрейм с таким же индексом.

Если нужно вывести несколько столбцов, в квадратные скобки нужно вставить список с их названиями: orders[['customer_id', 'sales']]. Будьте внимательны: квадратные скобки стали двойными. Первые — от датафрейма, вторые — от списка:

> orders[['customer_id', 'sales']]
       customer_id     sales
id                                  
100006    DK-13375   377.970
100090    EB-13705   699.192
100293    NF-18475    91.056
100328    JC-15340     3.928
100363    JM-15655    21.376
100391    BW-11065    14.620
100363    KM-16720   697.074
100706    LE-16810   129.440
...

Перейдем к строкам. Их можно фильтровать по индексу и по порядку. Например, мы хотим вывести только заказы 100363, 100391 и 100706, для этого есть команда .loc[]:

> show_these_orders = ['100363', '100363', '100706']
> orders.loc[show_these_orders]
        order_date ship_mode customer_id    sales
id                                                             
100363  2014-04-08  Standard    JM-15655   21.376
100363  2014-04-08  Standard    JM-15655   21.376
100706  2014-12-16    Second    LE-16810  129.440

А в другой раз бывает нужно достать просто заказы с 1 по 3 по порядку, вне зависимости от их номеров в таблицемы. Тогда используют команду .iloc[]:

> show_these_orders = [1, 2, 3]
> orders.iloc[show_these_orders]
        order_date ship_mode customer_id    sales
id                                                             
100090  2014-04-08  Standard    JM-15655   21.376
100293  2014-04-08  Standard    JM-15655   21.376
100328  2014-12-16    Second    LE-16810  129.440

Можно фильтровать датафреймы по колонкам и столбцам одновременно:

> columns = ['customer_id', 'sales']
> rows = ['100363', '100363', '100706']
> orders.loc[rows][columns]
       customer_id    sales
id                                 
100363    JM-15655   21.376
100363    JM-15655   21.376
100706    LE-16810  129.440
...

Часто вы не знаете заранее номеров заказов, которые вам нужны. Например, если задача — получить заказы, стоимостью более 1000 рублей. Эту задачу удобно решать с помощью условных операторов.

Если — то. Условные операторы

Задача: нужно узнать, откуда приходят самые большие заказы. Начнем с того, что достанем все покупки стоимостью более 1000 долларов:

> filter_large = orders['sales'] > 1000
> orders.loc[filter_slarge]
        order_date ship_mode customer_id     sales
id                                                             
101931  2014-10-28     First    TS-21370  1252.602
102673  2014-11-01  Standard    KH-16630  1044.440
102988  2014-04-05    Second    GM-14695  4251.920
103100  2014-12-20     First    AB-10105  1107.660
103310  2014-05-10  Standard    GM-14680  1769.784
...

Помните, в начале статьи я упоминал, что в сериях все операции применяются по-элементно? Так вот, операция orders['sales'] > 1000 идет по каждому элементу серии и, если условие выполняется, возвращает True. Если не выполняется — False. Получившуюся серию мы сохраняем в переменную filter_large.

Вторая команда фильтрует строки датафрейма с помощью серии. Если элемент filter_large равен True, заказ отобразится, если False — нет. Результат — датафрейм с заказами, стоимостью более 1000 долларов.

Интересно, сколько дорогих заказов было доставлено первым классом? Добавим в фильтр ещё одно условие:

> filter_large = df['sales'] > 1000
> filter_first_class = orders['ship_mode'] == 'First'
> orders.loc[filter_large & filter_first_class]
        order_date ship_mode customer_id     sales
id                                                           
101931  2014-10-28     First    TS-21370  1252.602
103100  2014-12-20     First    AB-10105  1107.660
106726  2014-12-06     First    RS-19765  1261.330
112158  2014-12-02     First    DP-13165  1050.600
116666  2014-05-08     First    KT-16480  1799.970
...

Логика не изменилась. В переменную filter_large сохранили серию, удовлетворяющую условию orders['sales'] > 1000. В filter_first_class — серию, удовлетворяющую orders['ship_mode'] == 'First'.

Затем объединили обе серии с помощью логического ‘И’: filter_first_class & filter_first_class. Получили новую серию той же длины, в элементах которой True только у заказов, стоимостью больше 1000, доставленных первым классом. Таких условий может быть сколько угодно.

Язык запросов

Еще один способ решить предыдущую задачу — использовать язык запросов. Все условия пишем одной строкой 'sales > 1000 & ship_mode == 'First' и передаем ее в метод .query(). Запрос получается компактнее.

> orders.query('sales > 1000 & ship_mode == First')
        order_date ship_mode customer_id     sales
id                                                           
101931  2014-10-28     First    TS-21370  1252.602
103100  2014-12-20     First    AB-10105  1107.660
106726  2014-12-06     First    RS-19765  1261.330
112158  2014-12-02     First    DP-13165  1050.600
116666  2014-05-08     First    KT-16480  1799.970
...

Отдельный кайф: значения для фильтров можно сохранить в переменной, а в запросе сослаться на нее с помощью символа @: sales > @sales_filter.

> sales_filter = 1000
> ship_mode_filter = 'First'
> orders.query('sales > @sales_filter & ship_mode > @ship_mode_filter')
         order_date ship_mode customer_id     sales
id                                                           
101931  2014-10-28     First    TS-21370  1252.602
103100  2014-12-20     First    AB-10105  1107.660
106726  2014-12-06     First    RS-19765  1261.330
112158  2014-12-02     First    DP-13165  1050.600
116666  2014-05-08     First    KT-16480  1799.970
...

Разобравшись, как получать куски данных из датафрейма, перейдем к тому, как считать агрегированные метрики: количество заказов, суммарную выручку, средний чек, конверсию.

Считаем производные метрики

Задача: посчитаем, сколько денег магазин заработал с помощью каждого класса доставки. Начнем с простого — просуммируем выручку со всех заказов. Для этого используем метод .sum():

> orders['sales'].sum()
2297200.8603000003

Добавим класс доставки. Перед суммированием сгруппируем данные с помощью метода .groupby():

> orders.groupby('ship_mode')['sales'].sum()
ship_mode              
First      3.514284e+05
Same Day   1.283631e+05
Second     4.591936e+05
Standard   1.358216e+06

3.514284e+05 — научный формат вывода чисел. Означает 3.51 * 105. Нам такая точность не нужна, поэтому можем сказать Pandas, чтобы округлял значения до сотых:

> pd.options.display.float_format = '{:,.1f}'.format
> orders.groupby('ship_mode')['sales'].sum()
ship_mode            
First       351,428.4
Same Day    128,363.1
Second      459,193.6
Standard  1,358,215.7

Другое дело. Теперь видим сумму выручки по каждому классу доставки. По суммарной выручке неясно, становится лучше или хуже. Добавим разбивку по датам заказа:

> orders.groupby(['ship_mode', 'order_date'])['sales'].sum()
ship_mode order_date        
First     2014-01-06    12.8
          2014-01-11     9.9
          2014-01-14    62.0
          2014-01-15   149.9
          2014-01-19   378.6
          2014-01-26   152.6
...

Видно, что выручка прыгает ото дня ко дню: иногда 10 долларов, а иногда 378. Интересно, это меняется количество заказов или средний чек? Добавим к выборке количество заказов. Для этого вместо .sum() используем метод .agg(), в который передадим список с названиями нужных функций.

> orders.groupby(['ship_mode', 'order_date'])['sales'].agg(['sum', 'count'])
                       sum  count
ship_mode order_date             
First     2014-01-06  12.8      1
          2014-01-11   9.9      1
          2014-01-14  62.0      1
          2014-01-15 149.9      1
          2014-01-19 378.6      1
          2014-01-26 152.6      1
...

Ого, получается, что это так прыгает средний чек. Интересно, а какой был самый удачный день? Чтобы узнать, отсортируем получившийся датафрейм: выведем 10 самых денежных дней по выручке:

> orders.groupby(['ship_mode', 'order_date'])['sales'].agg(['sum']).sort_values(by='sum', ascending=False).head(10)
                          sum
ship_mode order_date         
Standard  2014-03-18 26,908.4
          2016-10-02 18,398.2
First     2017-03-23 14,299.1
Standard  2014-09-08 14,060.4
First     2017-10-22 13,716.5
Standard  2016-12-17 12,185.1
          2017-11-17 12,112.5
          2015-09-17 11,467.6
          2016-05-23 10,561.0
          2014-09-23 10,478.6

Команда разрослась, и её теперь неудобно читать. Чтобы упростить, можно разбить её на несколько строк. В конце каждой строки ставим обратный слеш \:

> orders \
... .groupby(['ship_mode', 'order_date'])['sales'] \
... .agg(['sum']) \
... .sort_values(by='sum', ascending=False) \
... .head(10)
                          sum
ship_mode order_date         
Standard  2014-03-18 26,908.4
          2016-10-02 18,398.2
First     2017-03-23 14,299.1
Standard  2014-09-08 14,060.4
First     2017-10-22 13,716.5
Standard  2016-12-17 12,185.1
          2017-11-17 12,112.5
          2015-09-17 11,467.6
          2016-05-23 10,561.0
          2014-09-23 10,478.6

В самый удачный день — 18 марта 2014 года — магазин заработал 27 тысяч долларов с помощью стандартного класса доставки. Интересно, откуда были клиенты, сделавшие эти заказы? Чтобы узнать, надо объединить данные о заказах с данными о клиентах.

Объединяем несколько датафреймов

До сих пор мы смотрели только на таблицу с заказами. Но ведь у нас есть еще данные о клиентах интернет-магазина. Загрузим их в переменную customers и посмотрим, что они собой представляют:

> customers = pd.read_csv('customers.csv', index='id')
> customers.head()
                     name    segment           state             city
id                                                                   
CG-12520      Claire Gute   Consumer        Kentucky        Henderson
DV-13045  Darrin Van Huff  Corporate      California      Los Angeles
SO-20335   Sean O'Donnell   Consumer         Florida  Fort Lauderdale
BH-11710  Brosina Hoffman   Consumer      California      Los Angeles
AA-10480     Andrew Allen   Consumer  North Carolina          Concord

Мы знаем тип клиента, место его проживания, его имя и имя контактного лица. У каждого клиента есть уникальный номер id. Этот же номер лежит в колонке customer_id таблицы orders. Значит мы можем найти, какие заказы сделал каждый клиент. Например, посмотрим, заказы пользователя CG-12520:

> cust_filter = 'CG-12520'
> orders.query('customer_id == @cust_filter')
                order_date ship_mode customer_id   sales
id                                                          
CA-2016-152156  2016-11-08    Second    CG-12520  993.90
CA-2017-164098  2017-01-26     First    CG-12520   18.16
US-2015-123918  2015-10-15  Same Day    CG-12520  136.72

Вернемся к задаче из предыдущего раздела: узнать, что за клиенты, которые сделали 18 марта заказы со стандартной доставкой. Для этого объединим таблицы с клиентами и заказами. Датафреймы объединяют с помощью методов .concat(), .merge() и .join(). Все они делают одно и то же, но отличаются синтаксисом — на практике достаточно уметь пользоваться одним из них.

Покажу на примере .merge():

> new_df = pd.merge(orders, customers, how='inner', left_on='customer_id', right_index=True)
> new_df.columns
Index(['order_date', 'ship_mode', 'customer_id', 'sales', 'name', 'segment',
       'state', 'city'],
      dtype='object')

В .merge() я сначала указал названия датафреймов, которые хочу объединить. Затем уточнил, как именно их объединить и какие колонки использовать в качестве ключа.

Ключ — это колонка, связывающая оба датафрейма. В нашем случае — номер клиента. В таблице с заказами он в колонке customer_id, а таблице с клиентами — в индексе. Поэтому в команде мы пишем: left_on='customer_id', right_index=True.

Решаем задачу

Закрепим полученный материал, решив задачу. Найдем 5 городов, принесших самую большую выручку в 2016 году.

Для начала отфильтруем заказы из 2016 года:

> orders_2016 = orders.query("order_date >= '2016-01-01' & order_date <= '2016-12-31'")
> orders_2016.head()
       order_date ship_mode customer_id   sales
id                                             
100041 2016-11-20  Standard    BF-10975   328.5
100083 2016-11-24  Standard    CD-11980    24.8
100153 2016-12-13  Standard    KH-16630    63.9
100244 2016-09-20  Standard    GM-14695   475.7
100300 2016-06-24    Second    MJ-17740 4,823.1

Город — это атрибут пользователей, а не заказов. Добавим информацию о пользователях:

> with_customers_2016 = pd.merge(customers, orders_2016, how='inner', left_index=True, right_on='customer_id')

Cруппируем получившийся датафрейм по городам и посчитаем выручку:

> grouped_2016 = with_customers_2016.groupby('city')['sales'].sum()
> grouped_2016.head()
city
Akron               1,763.0
Albuquerque           692.9
Amarillo              197.2
Arlington           5,672.1
Arlington Heights      14.1
Name: sales, dtype: float64

Отсортируем по убыванию продаж и оставим топ-5:

> top5 = grouped_2016.sort_values(ascending=False).head(5)
> print(top5)
city
New York City   53,094.1
Philadelphia    39,895.5
Seattle         33,955.5
Los Angeles     33,611.1
San Francisco   27,990.0
Name: sales, dtype: float64

Готово!

Попробуйте сами:

Возьмите данные о заказах и покупателях и посчитайте:

  1. Сколько заказов, отправлено первым классом за последние 5 лет?
  2. Сколько в базе клиентов из Калифорнии?
  3. Сколько заказов они сделали?
  4. Постройте сводную таблицу средних чеков по всем штатам за каждый год.

Через некоторое время выложу ответы в Телеграме. Подписывайтесь, чтобы не пропустить ответы и новые статьи.

До скорого!

Кстати, большое спасибо Александру Марфицину за то, что помог отредактировать статью.

Когортный анализ в Pandas

Привет! Продолжем изучать Pandas. В прошлый раз я рассказал о возможностях библиотеки, а сегодня покажу, как с её помощью делать когортный анализ.

Прежде всего, вспомним, что такое когорты и как их анализировать.

Когорта — это группа людей, которая совершила нужное действие в определенный промежуток времени.

Когортный анализ — это наблюдение за когортами. Выбираем одну или несколько метрик, измеряем их и делаем выводы.


Например, социологи могут отслеживать, сколько людей, родившихся в 1980 году, получили высшее образование. Когорта здесь — те, кто родились в 1980 году. Метрика — доля людей с высшим образованием.

Еще пример: маркетологи хотят узнать, сколько заказов и выручки принесли пользователи, совершившие свой первый заказ год назад. Теперь когорта — это прошлогодние покупатели, а метрики — количество заказов и выручка.

Получается, когортный анализ состоит из трех шагов: определения нужного действия и временного промежутка когорты и выбора метрик для отслеживания:

Действие Время Метрика
Родились В 1980 году % людей с высшим образованием
Впервые что-то купили Год назад Количество заказов и выручка
Установили приложение Неделю назад % пользователей, открывших приложение еще раз

Когорты можно сравнивать между собой. Например, маркетологи измеряют, сколько заказов обычно делают пользователи в течение месяца после первой покупки и смотрят динамику:

Месяц Клиенты Покупок в 1й месяц Покупок на клиента
Январь 2018 134 161 1.20
Февраль 2018 164 194 1.18
Март 2018 193 200 1.03

Общее количество клиентов и покупок выросло — приятно. Но, сравнив когорты, видим, что в среднем клиенты стали покупать реже — тревожный знак.

Ок, теперь мы готовы к тому, чтобы научиться делать когортный анализ с помощью Pandas. Для наглядности решим задачу.

Задача

Допустим, мы работаем в интернет-магазине и хотим понять, сколько заказов и денег клиенты приносят в течение года после первой покупки. Для этого у нас есть данные о заказах:

Каждая строка таблицы orders — это покупка. Мы знаем, когда она произошла, кто её сделал и сколько денег она принесла в магазин. Дата заказа лежит в поле order_date, номер покупателя — в customer_id, а выручка — в sales.

Часто бывает, что даты загружаются в виде текста. Преобразим колонку order_date из текста в дату:

Данные перед нами, теперь можно с ними работать. Начнем с простого: выясним, сколько всего в магазине было покупок и выручки.

Считаем покупки и выручку

Чтобы посчитать общую выручку, просуммируем колонку sales:

Количество заказов можно посчитать с помощью этой же колонки, но вместо суммы используем метод count():

Теперь посчитаем обе метрики для каждого пользователя. Сгруппируем датафрейм по полю customer_id:

Видим, например, что пользователь AA-10315 сделал 5 заказов и принес $5563 выручки.

Идём дальше. Чтобы построить когорты, нам нужно сгруппировать клиентов по дате их первой покупки. В данных нет такого поля, значит, нужно его посчитать.

Считаем дату первой покупки

Чтобы вычислить дату первой покупки каждого пользователя, сгруппируем данные по customer_id и найдем минимальное значение поля order_date. Результат сохраним в переменную first_orders:

Видим, что пользовать AA-10315 впервые что-то купил 31 марта 2014 года, а пользователь AA-10375 — 21 апреля того же года.

Зная даты первых покупок, можем строить когорты.

Строим когорты

Итак, когортами будем считать людей, сделавших первую покупку в тот или иной день. Метрики для отслеживания — количество заказов и выручка.

План такой: сначала добавим дату первой покупки пользователей в таблицу с заказами, затем сгруппируем по датам первой покупки и заказа и, наконец, посчитаем выручку и количество заказов каждой когорты.

Приступим. Добавим дату первой покупки с помощью метода merge() и сохраним получившийся датафрейм в переменную orders_merged:

В строках получившегося датафрейма всё еще покупки, но теперь в таблице появилась новая колонка: дата первой покупки пользователя.

Агрегируем по дате первой покупки и посчитаем нужные показатели:

Видим, что клиенты от 3 января 2014 года, всего сделали 9 заказов на $1050.6. Посмотрим, когда были эти заказы. Для этого добавим к группировке колонку order_date:

Ага, первый заказ этой когорты был 3 января на $16. В следующий раз клиент вернулся почти год спустя и купил что-то ещё, в этот раз на $153. Следующая покупка была уже в апреле 2015 и так далее.

Когорты готовы, теперь решим задачу.

Решаем задачу

Напомню, что мы хотим посчитать, сколько в среднем заказов и выручки приносят клиенты в течение года, после первой покупки.

Мы знаем, сколько магазин заработал с каждой когорты за всё время. Уточним метрику: посчитаем показатели за первый год жизни когорты.

Сначала узнаем, сколько дней прошло между первой покупкой и последующим заказом, и удалим те, которые случились позже 365 дней. Чтобы посчитать количество дней между заказами, вычтем из колонки order_date столбец first_order:

Вуаля. Видим, что, например, заказ 131884 случился 455 дней спустя первой покупки. 455 days — это тип данных под названием «Timedelta», его специально придумали, чтобы показывать временные промежутки.

Чтобы удалить поздние заказы, добавим условие <= '365 days':

Сохраним результат в переменную year_1_filter, отфильтруем ненужные заказы из когортного отчета и сохраним результат в переменную year_1_orders:

В датафрейме остались только заказы, сделанные когортами в первый год после первой покупки. Теперь сгруппируем заказы по дате первой покупки и посчитаем нужные метрики. Результат сохраним в переменную cohorts:

Последний шаг: посчитаем, сколько в среднем заказов и приносят клиенты в течение первого года. Для этого сначала просуммируем показатели каждой когорты, а затем усредним значения методом mean():

Готово! В среднем за первый год когорты делают по 4 заказа и приносят по $1949 долларов.

Есть много способов улучшить решение, например сгруппировать дневные когорты в недельные или месячные, визуализировать отчет в таблице или на графике. Наконец, интересно разбить когорты по каким-то признакам, например, отделить частных покупателей от компаний — наверняка их показатели существенно отличаются.

Обо всем этом в следующих сериях. Подписывайтесь на канал, чтобы не пропустить.

Адиос!