Метка: Pandas

Pandas — программная библиотека на языке Python для обработки и анализа данных.

Работа Pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временны́ми рядами.

В разделе представлена полезная информация о том как использовать Pandas: анализ данных, подготовка и очистка данных

Pandas. Экспорт в CSV-файл без индексов и заголовков

pandas

Часто возникает необходимость при экспорте данных в CSV-файл с использованием Pandas исключить индексы, которые автоматически добавляются самим Pandas. Иногда требуется также пропустить заголовки. В данной заметке представлены краткие инструкции о том, как осуществить экспорт в CSV-файл без индексов и заголовков. Сохранение CSV без индексов По умолчаю Pandas сохраняет идексы в файл, ваш файл не содержал… Читать далее Pandas. Экспорт в CSV-файл без индексов и заголовков

Pandas как категоризировать возраст базы

pandas

Категоризация возраста в Pandas при помощи функции cut () или qcut (). cut () разбивает данные на интервалы по заданным границам, а qcut () разбивает данные на интервалы равного размера. Пример использования cut () для категоризации возраста на группы «дети», «подростки», «взрослые» и «пожилые»: Вывод: Таким образом, был создан новый столбец «возрастная группа», который содержит… Читать далее Pandas как категоризировать возраст базы

Pandas установка значения столбца на основе значений из другого столбца

pandas

Дня начала сделаем небольшой датафрейм при помощи метода .from_dict (): И посмотрим, что есть в данном датафрейме Использование Pandas.loc для установки столбца в Pandas Функция Pandas.loc невероятно мощная! Вот очень хорошая статья по loc с разбором данной функции. Pandas loc создает булеву маску на основе условия. Иногда этим условием может быть просто выбор строк и… Читать далее Pandas установка значения столбца на основе значений из другого столбца

Чем когорта отличается от сегмента?

Главное отличие — привязка ко времени. Допустим, у нас есть список клиентов. Мы можем его разбить (сегментировать) по городам или по рекламным источникам. Это нам позволит отвечать на вопросы: — сколько заказов делают пользователи из Харькова? — какой средний чек клиентов из Google Ads? А еще этот список мы можем разбить, например, по дате регистрации… Читать далее Чем когорта отличается от сегмента?

Pandas.crosstab () на реальном примере

pandas

Задача получить CSV в котором будут сгруппированны данные по USER_ID и DATE_PAYMENT_MONTH, чтобы в результате понять какой пользователь нам платит каждый месяц, сколько пользователь портатил на услугу и далее с ними как-то прокоммуницировать. Для решение задачи буду использовать Pandas.crosstab () Скачать можно здесь. Анонимный датасет из 3х колонок USER_ID — ИД пользователя DATE_PAYMENT_MONTH — месяц когда пользователь… Читать далее Pandas.crosstab () на реальном примере

Pandas решение проблемы SettingWithCopyWarning

pandas

Описание датасетов Датасет 1 (dataset-users_emails) — USER_ID, EMAIL. В нем USER_ID пользователя из CRM и EMAIL (далее будет выступать как ключ связки). Датасет 2 (dataset-emails_phones) — EMAIL, PHONE. Это набор данных, которые мы собирали из различных источников, целевой колонкой для бизнеса номер телефона. Задача — объеденить два датасета, импортировать полученный датасет в CRM и далее контакт центр должен… Читать далее Pandas решение проблемы SettingWithCopyWarning

Pandas. Объединение DataFrames по именам столбцов

pandas

Есть два DataFrames со следующими именами столбцов: Необходимо получить DataFrame со следующими столбцами путем объединения (слева) по county_ID = countyid: Нужно использовать опции left_on и right_on в pd.merge следующим образом: Или при помощи DataFrame.merge:

Pandas + Mito nginx accesslog

mito

Продолжаю эксперементы с Pandas и Mito. В этот раз решил проанализировать nginx accesslog. Размер моего анализируемого лога составил 150 мб. Работаю на Macbook Air M1 16 GB Ram, процесс парсинга accesslog и создание дата-фрейма у меня занял порядка 11 секунд. Итак, для того, чтобы распарсить nginx accesslog нужно использовать следующую команду (источник): Результат у меня… Читать далее Pandas + Mito nginx accesslog