发布于 5年前

Pandas压缩保存DataFrame到csv(节省磁盘空间)

直接把一个大的DataFrame保存到磁盘是很占空间的。

随机生成一个大的DataFrame:

df = pd.DataFrame(pd.np.random.randn(50000,300))

把它保存到csv

df.to_csv('random_data.csv', index=False)

保存完后,csv的文件大小大概为300M,这是非常占用磁盘空间。

pandas压缩保存csv

一般做法是设置compression='gzip',对csv进行压缩保存:

df.to_csv('random_data.gz', compression='gzip', index=False)

压缩后的文件大小,大约缩小到136M

pandas读取压缩的文件

df = pd.read_csv('random_data.gz')

©2020 edoou.com   京ICP备16001874号-3