Python中zipfile的文件压缩解压

ZIP 文件格式是一个常用的归档与压缩标准,
这篇文章我们介绍一下 zipfile 模块的使用,
这个模块提供了创建、读取、写入、添加及列出 ZIP 文件的工具,
下面就来介绍一下具体的使用方法。

首先引入 zipfile 模块:

import zipfile

一、文件压缩 ZipFile 文档

ZipFile = zipfile.ZipFile(file, mode='r', compression=ZIP_STORED, allowZip64=True, compresslevel=None, *, strict_timestamps=True)
ZipFile.write(filename, arcname=None, compress_type=None, compresslevel=None)
  • 参数file表示文件的路径或类文件对象(file-like object)
  • 参数mode指示打开zip文件的模式,默认值为'r',表示读已经存在的zip文件,也可以为'w'或'a',
  • 'w'表示新建一个zip文档或覆盖一个已经存在的zip文档,'a'表示将数据附加到一个现存的zip文档中
  • 参数compression表示在写zip文档时使用的压缩方法,它的值可以是zipfile. ZIP_STORED 或zipfile. ZIP_DEFLATED。
  • 如果要操作的zip文件大小超过2G,应该将allowZip64设置为True。

具体示例:

import zipfile
# 压缩文件位置
zipPath = './ceshi.zip'
# 打开一个 ZIP 文件(以w覆盖的方式写入)
ZipFile = zipfile.ZipFile(zipPath, 'w', zipfile.ZIP_DEFLATED)

filePath = './ceshi.txt' # 需要压缩文件路径
fileName = 'ceshi.txt' # 压缩到内部文件名称
ZipFile.write(filePath, fileName) # 写入压缩文件

# 关闭归档文件。 你必须在退出程序之前调用 close() 否则将不会写入关键记录数据。
ZipFile.close()

二、文件解压

1、从归档中提取出一个成员放入当前工作目录

ZipFile.extract(member, path=None, pwd=None)
  • member 必须为成员的完整名称或 ZipInfo 对象
  • path 指定一个要提取到的不同目录
  • pwd 是用于解密文件的密码

具体示例:

import zipfile
# 压缩文件位置
zipPath = './ceshi.zip'
ZipFile = zipfile.ZipFile(zipPath)
for file in ZipFile.namelist():
    ZipFile.extract(file, './ceshi/') # 解压文件到指定目录(默认当前目录)

2、从归档中提取出所有成员放入当前工作目录:

ZipFile.extractall(path=None, members=None, pwd=None)
  • path 指定一个要提取到的不同目录
  • members 为可选项且必须为 namelist() 所返回列表的一个子集
  • pwd 是用于解密文件的密码。

具体示例:

ZipFile.extractall('./ceshi/') # 和上面效果一样

三、ZipFile还提供了如下常用的方法和属性:

1、ZipFile.getinfo(name)
获取zip文档内指定文件的信息。返回一个zipfile.ZipInfo对象,它包括文件的详细信息。将在下面 具体介绍该对象。

2、ZipFile.infolist()
获取zip文档内所有文件的信息,返回一个zipfile.ZipInfo的列表。

3、ZipFile.namelist()
获取zip文档内所有文件的名称列表

4、ZipFile.printdir()
将zip文档内的信息打印到控制台上。

5、ZipFile.setpassword(pwd)
设置 pwd 为用于提取已加密文件的默认密码。

6、ZipFile.read(name, pwd=None)
返回归档中文件 name 的字节数据。 name 是归档中文件的名称,或是一个 ZipInfo 对象。 归档必须以读取或追加方式打开。 pwd 为用于已加密文件的密码,并且如果指定该参数则它将覆盖通过 setpassword() 设置的默认密码。

7、ZipFile.open(name, mode='r', pwd=None, /*, force_zip64=False)
以二进制文件类对象的形式访问一个归档成员。 name 可以是归档内某个文件的名称也可以是某个 ZipInfo 对象。 如果包含了 mode 形参,则它必须为 'r' (默认值) 或 'w'。 pwd 为用于解密已加密 ZIP 文件的密码。

四、Class ZipInfo

ZipFile.getinfo(name) 方法返回的是一个ZipInfo对象,表示zip文档中相应文件的信息。它支持如下属性:

  • ZipInfo.filename: 获取文件名称。
  • ZipInfo.date_time: 获取文件最后修改时间。返回一个包含6个元素的元组:(年, 月, 日, 时, 分, 秒)
  • ZipInfo.compress_type: 压缩类型。
  • ZipInfo.comment: 文档说明。
  • ZipInfo.extr: 扩展项数据。
  • ZipInfo.create_system: 获取创建该zip文档的系统。
  • ZipInfo.create_version: 获取 创建zip文档的PKZIP版本。
  • ZipInfo.extract_version: 获取 解压zip文档所需的PKZIP版本。
  • ZipInfo.reserved: 预留字段,当前实现总是返回0。
  • ZipInfo.flag_bits: zip标志位。
  • ZipInfo.volume: 文件头的卷标。
  • ZipInfo.internal_attr: 内部属性。
  • ZipInfo.external_attr: 外部属性。
  • ZipInfo.header_offset: 文件头偏移位。
  • ZipInfo.CRC: 未压缩文件的CRC-32。
  • ZipInfo.compress_size: 获取压缩后的大小。
  • ZipInfo.file_size: 获取未压缩的文件大小。

下面一个简单的例子说明这些属性的意思:

import zipfile, os
zipFile = zipfile.ZipFile(os.path.join(os.getcwd(), 'ceshi.zip'))
zipInfo = zipFile.getinfo('ceshi.txt')
print('filename:', zipInfo.filename) #获取文件名称
print('date_time:', zipInfo.date_time) #获取文件最后修改时间。返回一个包含6个元素的元组:(年, 月, 日, 时, 分, 秒)
print('compress_type:', zipInfo.compress_type) #压缩类型
print('comment:', zipInfo.comment) #文档说明
print('extra:', zipInfo.extra) #扩展项数据
print('create_system:', zipInfo.create_system) #获取创建该zip文档的系统。
print('create_version:', zipInfo.create_version) #获取 创建zip文档的PKZIP版本。
print('extract_version:', zipInfo.extract_version) #获取 解压zip文档所需的PKZIP版本。
print('extract_version:', zipInfo.reserved) # 预留字段,当前实现总是返回0。
print('flag_bits:', zipInfo.flag_bits) #zip标志位。
print('volume:', zipInfo.volume) # 文件头的卷标。
print('internal_attr:', zipInfo.internal_attr) #内部属性。
print('external_attr:', zipInfo.external_attr) #外部属性。
print('header_offset:', zipInfo.header_offset) # 文件头偏移位。
print('CRC:', zipInfo.CRC) # 未压缩文件的CRC-32。
print('compress_size:', zipInfo.compress_size) #获取压缩后的大小。
print('file_size:', zipInfo.file_size) #获取未压缩的文件大小。
zipFile.close()

五、解压zip文件乱码解压失败报错zipfile.BadZipFile解决方法

1、报错问题

  • zip_file = zipfile.ZipFile(zip_file),zip_file.extract()解压里面文件时报错如下
  • zipfile.BadZipFile: File name in directory '╡Ñ╥╗└┤╘┤▓╔╣║╜ß╣√╣½╕µ.doc' and header

2、解决方法 修改D:\Python\Python3.8\Lib\zipfile.py源码, 搜索 cp437, 1374行 冯奎博客 1553行 冯奎博客

注释掉源代码中 filename = filename.decode('cp437')fname_str = fname.decode("cp437"); 并分别改为如下代码

try:
    filename = filename.decode('utf-8')
except:
    filename = filename.decode('gbk')
try:
    fname_str = fname.decode('utf-8')
except:
    fname_str = fname.decode('gbk')

参考文档:
1、zipfile官方文档 --- 使用ZIP存档
2、python中zipfile模块实例化解析
3、Python中的zipfile模块使用详解
4、Python解压zip文件乱码解压失败报错zipfile.BadZipFile解决方法
冯奎博客

冯奎博客
请先登录后发表评论
  • latest comments
  • 总共0条评论