Pandas压缩保存DataFrame到csv(节省磁盘空间)
直接把一个大的DataFrame保存到磁盘是很占空间的。
随机生成一个大的DataFrame:
df = pd.DataFrame(pd.np.random.randn(50000,300))
把它保存到csv
df.to_csv('random_data.csv', index=False)
保存完后,csv的文件大小大概为300M,这是非常占用磁盘空间。
pandas压缩保存csv
一般做法是设置compression='gzip',对csv进行压缩保存:
df.to_csv('random_data.gz', compression='gzip', index=False)
压缩后的文件大小,大约缩小到136M
pandas读取压缩的文件
df = pd.read_csv('random_data.gz')