[python] gzip 압축 파일 읽기/쓰기 (utf-8 인코딩)
Data/Text/Knowledge Analysis & Mining/Python 2013. 3. 22. 19:32gzip 파일을 읽기/쓰기 위해서는 기본 패키지에 있는 gzip을 이용하면 된다.
아래는 utf-8로 구성되어 있는 파일이 gzip 으로 압축된 경우에 읽고,
처리 결과를 다시 utf-8 형식으로 출력하고 gzip 으로 압축하여 파일을 쓰는 예시이다.
import sys
import codecs
import gzip
# read/write gzip file
reader=codecs.getreader("utf-8")
writer=codecs.getwriter("utf-8")
# two input files given, one output file given
A=reader(gzip.open(sys.argv[1], 'rb'))
B=reader(gzip.open(sys.argv[2], 'rb'))
C=writer(gzip.open(sys.argv[3], 'wb'))
gzip 압축이 아닌, 일반 text 파일이 utf-8 로 encoding된 경우의 읽기, 쓰기 방법은 아래와 같다.
#A=codecs.open(sys.argv[1], 'rb', encoding='utf-8')
#B=codecs.open(sys.argv[2], 'rb', encoding='utf-8')
#C=codecs.open(sys.argv[3], 'wb', encoding='utf-8')
'Data/Text/Knowledge Analysis & Mining > Python' 카테고리의 다른 글
[python] gzip, bzip 파일 부분 해제 (0) | 2013.04.23 |
---|---|
[python] proxy 설정, urllib2 (0) | 2013.04.18 |
[python] 나눗셈 구현 (divide operator with bit-operations) (0) | 2013.03.22 |
Damerau-Levenshtein Distance (Edit distance) 구하기 (0) | 2013.03.18 |
[python] utf-8로 stdin 및 stdout 입출력 하기 (0) | 2013.03.18 |
WRITTEN BY
- manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform
,