Помечено: Pandas

Pandas 7 функций для быстрого исследования датафрейма

Данные функции нужны для исследовательского анализа (EDA), чтобы быстро изучить ваш датафрейм, а уже потом выполнять более сложные задачи. 1. Для любого датафрейма функция .info () покажет сколько у вас записей, имена каждого столбца,...

Решение реальной проблемы при помощь MySQL, Pandas (pd.concat)

Проблема: пишет маркетолог — у нас перестали отправляться emails пользователям из CRM (!) Я сижу и думаю, ситуация странная — алерты о том что лежит сервис не приходит. Зашел в CRM, там тоже все спокойно и...

Pandas конвертировать Datetime в Date

Синтаксис функции: Пример использования: Демо-датасет Чтобы конвертировать колонку «datetime» небходимо воспользоваться встроенным to_datetime методом: Теперь колонка «date» содержит просто дату без времени Преведение колонки к правильному формату: Для начала следует проверить и понять какие...

Pandas отчет о продажах

В качестве источника данных используется — https://www.kaggle.com/carrie1/ecommerce-data. Для начала подключается Pandas и вычитывается файл: Теперь нужно найти пустые данные в датасете: Обратите внимание, что есть пустые значения в CustomerID. К сожалению метод groupby игнорирует NaN,...

3 Python пакета для каждого аналитика данных

Перевод статьи Medium Mito Mito (https://docs.trymito.io/) — это модуль электронных таблиц для Python. Работать с Mito можно в Jupyter Notebook, и каждая правка, сделанная во внешнем интерфейсе, будет генерировать эквивалент Python. С Mito не придется...

Pandas + Mito nginx accesslog

Продолжаю эксперементы с Pandas и Mito. В этот раз решил проанализировать nginx accesslog. Размер моего анализируемого лога составил 150 мб. Работаю на Macbook Air M1 16 GB Ram, процесс парсинга accesslog и создание дата-фрейма...

Pandas. Объединение DataFrames по именам столбцов

Есть два DataFrames со следующими именами столбцов: Необходимо получить DataFrame со следующими столбцами путем объединения (слева) по county_ID = countyid: Нужно использовать опции left_on и right_on в pd.merge следующим образом: Или при помощи DataFrame.merge:

Чем когорта отличается от сегмента?

Главное отличие — привязка ко времени. Допустим, у нас есть список клиентов. Мы можем его разбить (сегментировать) по городам или по рекламным источникам. Это нам позволит отвечать на вопросы: — сколько заказов делают пользователи...