wake-up-neo.com

Wie kann ich einen gzip-Stream mit zlib dekomprimieren?

Dateien im Gzip-Format (die zum Beispiel mit dem Programm gzip erstellt wurden) verwenden den Komprimierungsalgorithmus "deflate". Dies ist derselbe Komprimierungsalgorithmus wie zlib . Wenn Sie jedoch zlib zum Aufblasen einer mit gzip komprimierten Datei verwenden, gibt die Bibliothek ein Z_DATA_ERROR.

Wie kann ich mit zlib eine gzip-Datei dekomprimieren?

102
Greg Hewgill

Um eine Datei im gzip-Format mit zlib zu dekomprimieren, rufen Sie inflateInit2 Mit dem Parameter windowBits als 16+MAX_WBITS Wie folgt auf:

inflateInit2(&stream, 16+MAX_WBITS);

Wenn Sie dies nicht tun, beschwert sich zlib über ein fehlerhaftes Stream-Format. Standardmäßig erstellt zlib Streams mit einem zlib-Header und erkennt beim Aufblasen die verschiedenen gzip-Header nur, wenn Sie dies angeben. Dies ist zwar ab Version 1.2.1 der Header-Datei zlib.h Dokumentiert, jedoch nicht im zlib-Handbuch . Aus der Header-Datei:

windowBits kann für die optionale gzip-Dekodierung auch größer als 15 sein. Fügen Sie 32 zu windowBits hinzu, um die ZLIB- und GZIP-Dekodierung mit automatischer Header-Erkennung zu aktivieren, oder fügen Sie 16 hinzu, um nur das GZIP-Format zu dekodieren (das ZLIB-Format gibt einen Z_DATA_ERROR Zurück). Wenn ein gzip-Stream dekodiert wird, ist strm->adler Ein crc32 anstelle eines adler32.

110
Greg Hewgill

python

zlib Bibliothek unterstützt :

Das python zlib -Modul unterstützt diese ebenfalls.

windowBits auswählen

Aber zlib kann all diese Formate dekomprimieren:

  • verwenden Sie wbits = -zlib.MAX_WBITS, um das deflate -Format zu (dekomprimieren).
  • verwenden Sie wbits = zlib.MAX_WBITS, um das zlib -Format zu (dekomprimieren).
  • verwenden Sie wbits = zlib.MAX_WBITS | 16, um das gzip -Format zu (dekomprimieren).

Siehe Dokumentation in http://www.zlib.net/manual.html#Advanced (Abschnitt inflateInit2)

beispiele

testdaten:

>>> deflate_compress = zlib.compressobj(9, zlib.DEFLATED, -zlib.MAX_WBITS)
>>> zlib_compress = zlib.compressobj(9, zlib.DEFLATED, zlib.MAX_WBITS)
>>> gzip_compress = zlib.compressobj(9, zlib.DEFLATED, zlib.MAX_WBITS | 16)
>>> 
>>> text = '''test'''
>>> deflate_data = deflate_compress.compress(text) + deflate_compress.flush()
>>> zlib_data = zlib_compress.compress(text) + zlib_compress.flush()
>>> gzip_data = gzip_compress.compress(text) + gzip_compress.flush()
>>> 

offensichtlicher Test für zlib:

>>> zlib.decompress(zlib_data)
'test'

test für deflate:

>>> zlib.decompress(deflate_data)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
zlib.error: Error -3 while decompressing data: incorrect header check
>>> zlib.decompress(deflate_data, -zlib.MAX_WBITS)
'test'

test für gzip:

>>> zlib.decompress(gzip_data)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
zlib.error: Error -3 while decompressing data: incorrect header check
>>> zlib.decompress(gzip_data, zlib.MAX_WBITS|16)
'test'

die Daten sind auch mit dem gzip Modul kompatibel:

>>> import gzip
>>> import StringIO
>>> fio = StringIO.StringIO(gzip_data)
>>> f = gzip.GzipFile(fileobj=fio)
>>> f.read()
'test'
>>> f.close()

automatische Headererkennung (zlib oder gzip)

das Hinzufügen von 32 zu windowBits löst die Header-Erkennung aus

>>> zlib.decompress(gzip_data, zlib.MAX_WBITS|32)
'test'
>>> zlib.decompress(zlib_data, zlib.MAX_WBITS|32)
'test'

verwenden Sie stattdessen gzip

Für gzip Daten mit gzip-Header können Sie das gzip Modul direkt verwenden. aber bitte denken Sie daran, dass unter der Haube , gzipzlib verwendet.

fh = gzip.open('abc.gz', 'rb')
cdata = fh.read()
fh.close()
91
dnozay

Die Struktur von zlib und gzip ist unterschiedlich. zlib verwendet RFC 195 und gzip verwendet RFC 1952 , haben also unterschiedliche Header, aber der Rest hat dieselbe Struktur und folgt dem RFC 1951 .

2
josep fon