Pandas 7 функций для быстрого исследования датафрейма

Данные функции нужны для исследовательского анализа (EDA), чтобы быстро изучить ваш датафрейм, а уже потом выполнять более сложные задачи.

1. Для любого датафрейма функция .info () покажет сколько у вас записей, имена каждого столбца, тип данных каждого столбца и количество ненулевых значений в каждом столбце. Вы можете сравнить количество ненулевых значений с общим количеством записей, чтобы определить, в каких столбцах есть нулевые значения.

df.info()

2. Поиск дублей. Существует множество способов поиска дубликатов строк. Приведенная функция является самой простой, поскольку она найдет все дубликаты и выведет их количество. Если она выведет «0», значит, дубликатов нет, и вы готовы к работе!

df.duplicated().sum()

3. Поиск уникальных значений в колонке. В большинстве случаев при проведении исследовательского анализа вы сосредотачиваетесь на нескольких ключевых колонках. Эта функция быстро выводит все уникальные значения столбца, чтобы вы могли понять широту и диапазон значений:

df["column_name"].unique()

4. Поиск количества уникальных значений в столбце. Данная функция основывается на предыдущей, предоставляя уникальные значения в столбце, которые имеют наибольшую и наименьшую частоты:

df["column_name"].value_counts()

5. Найти все значения Null в датафрейме. Данный метод объединяет .isnull () и .sum () и возвращает список каждого столбца в датафрейме с количеством нулевых значений в каждом столбце:

df.isnull().sum()

6. Заполнить значения Null. Эта функция берет весь набор данных и заполняет нулевые значения нулями или любым другим значением, которое вы вводите во второй аргумент функции. Это самый быстрый способ избавиться от нулевых значений и привести ваш набор данных в состояние, которое позволит избежать новых ошибок и тупиков в вашем анализе

df.replace(np.nan, "0", inplace = True)

7. Фильтрация значений в датафрейме. Данный код фильтрует значения «column_name» и полученный результат вставляет в новую переменную. Далее можно делать анализ полученного датафрейма

df2 = df[df["column_name"] > 100]