Python 利用pandas处理CSV文件（DataFrame的基础用法）

V1ncent Chen 2024-07-24 08:05:02 阅读 66

前面介绍过通过Python标准库中的CSV模块处理CSV文件：

Python 利用CSV模块处理数据

相比CSV模块，pandas的功能更加强大，本文将简单介绍如何通过pandas来处理CSV文件。

文章目录

一、pandas简介二、用法示例2.1 读取CSV文件2.1.1 read_csv参数2.1.2 "坏行"的处理

2.2 引用数据2.2.1 位置索引和标签索引2.2.2 使用[]引用数据2.2.3 使用.loc属性通过标签引用数据2.2.4 使用.iloc属性通过位置引用数据

2.3 数据过滤2.3 写回csv文件

一、pandas简介

pandas是一个第三方数据分析库，其集成了大量的数据分析工具，可以方便的处理和分析各类数据。这是一个第三方库，使用下面的命令可以安装pandas:

<code>pip install pandas

利用pandas处理CSV文件主要分为3步：

通过read_csv()函数，将数据转化为pandas的DataFrame（数据帧）对象，这是一个二维数据对象，集成了大量数据处理方法。操作DataFrame对象，通过自带的方法，完成各种数据处理。通过DataFrame对象的to_csv()方法将数据写回CSV文件。

二、用法示例

我们先创建一个示例文件，将下面的数据拷贝到文件employees.csv中并保存：

emp_no,birth_date,first_name,last_name,gender,salary

1,1953-09-02,Georgi,Facello,M,1000

2,1964-06-02,Bezalel,Simmel,F,2000

3,1959-12-03,Parto,Bamford,M,3000

4,1954-05-01,Chirstian,Koblick,M,4000

5,1955-01-21,Kyoichi,Maliniak,M,5000

6,1953-04-20,Anneke,Preusig,F,6000

7,1957-05-23,Tzvetan,Zielinski,F,7000

8,1958-02-19,Saniya,Kalloufi,M,8000

9,1952-04-19,Sumant,Peac,F,9000

数据对应的excel格式，作为参考：

在这里插入图片描述

2.1 读取CSV文件

保证employees.csv文件在当前目录下（或提供文件的绝对路径也可以），例如示例文件保存在d:\dir1目录下，先切换到该目录下：

<code>import os

os.chdir(r'd:\dir1')

在这里插入图片描述

pandas的read_csv函数可以读取CSV文件，并返回一个DataFrame对象，首次使用要先导入pandas模块，使用read_csv()函数读取csv文件，并将返回的DataFrame对象赋给变量名df：

<code>import pandas as pd

df = pd.read_csv('employees.csv')

df

在这里插入图片描述

2.1.1 read_csv参数

read_csv()在读取过程中有很多自定义设置，上面的示例中只提供了文件名，其他参数都采用了默认值。根据数据格式的不同，可能需要对某些参数进行调整，read_csv函数的常用参数如下：

sep/delimiter：分隔符，默认为逗号，相当于sep=‘,’，如果文件内容以非逗号分隔，需要显式指定此参数或者使用sep=None来让pandas自己判断分隔符。delim_whitespace：是否以空格作为分隔符，相当于sep=‘\s+’，当这个参数被设置为True时，不能使用sep参数。header：指定第几行作为列名，并指定数据的起始行，默认header=0，表示第1行作为列名（编号从0开始），数据从第二行开始。如果数据中没有列名，需要指定header=None，这样从第1行开始全部都会当成数据。names：用来自定义列名index_col：指定某一列作为行索引（默认是0开始的整数）usecols：选择列的子集，即只读取指定列

示例：仅选取部分列，只读取emp_no，first_name, salary 这3列，使用参数usecols指定这3列：

<code>df1 = pd.read_csv('employees.csv', usecols=['emp_no', 'first_name', 'salary'])

在这里插入图片描述

自定义列名：读取数据并使用col1~col6定义列名，由于原数据第一行为列名，使用header=0指定第一行为列名，这样第一行不会被读作数据。然后使用names参数重新指定列名：

<code>name_list = ['col1', 'col2', 'col3','col4','col5','col6']

df2 = pd.read_csv('employees.csv', header=0, names=name_list)

在这里插入图片描述

2.1.2 "坏行"的处理

很多时候我们得到数据格式并不规范，可能出现有些行数据缺失，有些行数据又多。read_csv函数在遇到数据缺失的列会自动用NaN（在pandas中代表空值）来填充（我们把文件中第七行的salary删除，重新读取后，可以看到会用自动用NaN填充）：

<code>df2 = pd.read_csv('employees.csv')

在这里插入图片描述

但是对于数据列多的行，默认是报错的。在文件第8行后多加一列数据，提示解析错误，期望6列，但是有7列：

<code>df3 = pd.read_csv('employees.csv')

在这里插入图片描述

对于这类错误，我们可以用on_bad_lines='skip’来跳过这些行，不影响其他数据的读取，从结果也上可以看到emp_no为8的数据被忽略了：

df3 = pd.read_csv('employees.csv', on_bad_lines='skip')code>

`2.2 引用数据`

 在完成文件的读取后我们就获得了一个DataFrame对象，利用其自带的方法可以快速进行数据预处理，相对于使用Python代码，可以节约大量逻辑编写的时间。
 
对数据进行处理的第一步就是引用数据，pandas常用的数据引用方法有：
 
使用[]对数据进行引用使用.loc属性通过标签对数据进行引用使用.iloc属性通过位置对数据进行引用 
2.2.1 位置索引和标签索引
 在引用数据前先弄清楚位置索引和标签索引：
 
位置索引：行/列的位置编号，从0开始，公差为1的等差数列，0,1,2,3,4….，一定是数字标签索引：行/列的"别名"，可以自定义。其中行的标签索引又叫"索引标签"，列的标签索引又叫"列标签"。
 标签索引如果未显式指定，则默认和位置索引相同。 
例如下面的df，红框中的都是标签索引：
 
列标签是emp_no, birth_date ……，索引标签由于未显式指定，所以和位置索引相同，为0,1,2,3,4….，但它不是位置索引。
 
 在标签索引中，可以通过df.index和df.columns属性来分别查看索引标签和列标签：