Помечено: Pandas

Pandas — программная библиотека на языке Python для обработки и анализа данных.

Работа Pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временны́ми рядами.

В разделе представлена полезная информация о том как использовать Pandas: анализ данных, подготовка и очистка данных

Pandas установка значения столбца на основе значений из другого столбца

Дня начала сделаем небольшой датафрейм при помощи метода .from_dict (): И посмотрим, что есть в данном датафрейме Использование Pandas.loc для установки столбца в Pandas Функция Pandas.loc невероятно мощная! Вот очень хорошая статья по loc...

Pandas. Экспорт в CSV-файл без индексов и заголовков

Часто возникает необходимость при экспорте данных в CSV-файл с использованием Pandas исключить индексы, которые автоматически добавляются самим Pandas. Иногда требуется также пропустить заголовки. В данной заметке представлены краткие инструкции о том, как осуществить экспорт...

Установка Jupyter и Pandas в MacOS

Установка Jupyter и Pandas в MacOS

Это краткая инструкция по установке Jupyter Notebook в MacOS. Cразу будут установлены инструменты для аналитики данных. Требования — у вас на Mac должен быть установлен Python + Virtualenv, если таковых нет в системе — в этой...

Pandas. Подсчитать уникальные значения (обновлено)

Для подсчета уникальных значений в датафрейме необходимо использовать функцию nunique (). Синтаксис функции nunique () Функция nunique () в использовании достаточно проста: Пример функции nunique () В приведенном ниже примере показано, как использовать эту...

Pandas. Заполнить столбец с помощью условия (обновлено)

Есть файл с данными — https://github.com/Yorko/mlcourse.ai/blob/main/data/adult.data.csv Задача добавить новую колонку «is-german» и заполнить ее признаком  False, если в колонке «native-country» стоит признак Germany добавить новую колонку «age-group» (Возрастная группа, и запонить ее даннными исходя из...

Pandas.crosstab () на реальном примере

Задача получить CSV в котором будут сгруппированны данные по USER_ID и DATE_PAYMENT_MONTH, чтобы в результате понять какой пользователь нам платит каждый месяц, сколько пользователь портатил на услугу и далее с ними как-то прокоммуницировать. Для...

Pandas решение проблемы SettingWithCopyWarning

Описание датасетов Датасет 1 (dataset-users_emails) — USER_ID, EMAIL. В нем USER_ID пользователя из CRM и EMAIL (далее будет выступать как ключ связки). Датасет 2 (dataset-emails_phones) — EMAIL, PHONE. Это набор данных, которые мы собирали из различных...