python 및 머신러닝 교육, 슬로우캠퍼스

gzip 파일을 읽기/쓰기 위해서는 기본 패키지에 있는 gzip을 이용하면 된다.


아래는 utf-8로 구성되어 있는 파일이 gzip 으로 압축된 경우에  읽고,
처리 결과를 다시 utf-8 형식으로 출력하고 gzip 으로 압축하여 파일을 쓰는  예시이다.


import sys
import codecs
import gzip

# read/write gzip file
reader=codecs.getreader("utf-8")
writer=codecs.getwriter("utf-8")

# two input files given, one output file given
A=reader(gzip.open(sys.argv[1], 'rb'))
B=reader(gzip.open(sys.argv[2], 'rb'))
C=writer(gzip.open(sys.argv[3], 'wb'))



gzip 압축이 아닌, 일반 text 파일이 utf-8 로 encoding된 경우의 읽기, 쓰기 방법은 아래와 같다.

#A=codecs.open(sys.argv[1], 'rb', encoding='utf-8')
#B=codecs.open(sys.argv[2], 'rb', encoding='utf-8')
#C=codecs.open(sys.argv[3], 'wb', encoding='utf-8')



WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,