Data/Text/Knowledge Analysis & Mining/Python
[python] gzip 압축 파일 읽기/쓰기 (utf-8 인코딩)
manager@
2013. 3. 22. 19:32
gzip 파일을 읽기/쓰기 위해서는 기본 패키지에 있는 gzip을 이용하면 된다.
아래는 utf-8로 구성되어 있는 파일이 gzip 으로 압축된 경우에 읽고,
처리 결과를 다시 utf-8 형식으로 출력하고 gzip 으로 압축하여 파일을 쓰는 예시이다.
import sys
import codecs
import gzip
# read/write gzip file
reader=codecs.getreader("utf-8")
writer=codecs.getwriter("utf-8")
# two input files given, one output file given
A=reader(gzip.open(sys.argv[1], 'rb'))
B=reader(gzip.open(sys.argv[2], 'rb'))
C=writer(gzip.open(sys.argv[3], 'wb'))
gzip 압축이 아닌, 일반 text 파일이 utf-8 로 encoding된 경우의 읽기, 쓰기 방법은 아래와 같다.
#A=codecs.open(sys.argv[1], 'rb', encoding='utf-8')
#B=codecs.open(sys.argv[2], 'rb', encoding='utf-8')
#C=codecs.open(sys.argv[3], 'wb', encoding='utf-8')