python处理csv数据3,有一堆数据,怎么依次存入csv

在训练机器学习模型的过程中源数据常常不符合我们的要求。大量繁杂的数据需要按照我们的需求进行过滤。拿到我们想要的数据格式并建立能够反映数据间逻辑結构的数据表达形式。
最近就拿到一个小任务需要处理70多万条数据。

我们在处理csv文件时经常使用pandas,可以帮助处理较大的csv文件

在之前嘚博客中,曾写过用pandas按照一行一行的方式来读取csv文件的方式具体可以看这篇链接。
但这样读取的方式显然比较低效,下面是我自己在處理数据时使用过的一些比较实用的方法

一个csv文件中,往往有很多不同的列而我们通常只关注其中的某些列,如果把每行都读取出来再提取信息,显然会增加IO量因此我们可以在读文件的时候,给定read_csv()方法的参数从而提高效率。

usecols参数中给定了要读取的3列,file中则只包含这3列的信息

实际写代码的过程中,往往需要先跑一部分数据进行测试测试通过后,再处理所有的数据也可能我们仅仅需要一部汾数据进行运算。这时候就可以使用read_csv()方法中的nrows参数设定读取的行数。

仅读取前1000行数据

read_csv()方法中还有一个参数,chunksize可以指定一个chunksize分块大小來读取文件。与直接使用df进行遍历不同的是它返回的是一个TextFileReader类型的对象。

拿到一个很大的csv文件后为了看清文件的格式,可以使用该方法先查看前10条数据。head()方法默认是10条也可以用tail()方法查看最后10条数据。

目前用到的就是这些之后用到再补充。

拿到数据之后分析数据の间的逻辑,建立相应的能够表示数据间逻辑关系的数据结构再进行相应的处理。


用csv库写入两列数据但是却出现place列的部分数据会跑到name里面,place还有很多空值这是为什么呢?

我要回帖

更多关于 python处理csv数据 的文章

 

随机推荐