python 및 머신러닝 교육, 슬로우캠퍼스



python 

웹페이지의 chatset값 구하기. http response header에 포함된 경우

import urllib2

request = "http://daum.net"

fp = urllib2.urlopen(request)

charset = fp.headers.getparam('charset')

print "***", charset

print "===\n", fp.headers



http://www.voidspace.org.uk/python/articles/urllib2.shtml#introduction




CharDet 패키지

어떤 파일이 어떠한 문자셋으로 구성되어 있는지 판단하는 기능

http://www.minvolai.com/blog/2009/11/chardet-detecting-unknown-string-encodings/


$ sudo pip install chardet


Unicode and Character Sets


http://www.joelonsoftware.com/articles/Unicode.html

'Data/Text/Knowledge Analysis & Mining > Python' 카테고리의 다른 글

python pdf library 비교  (0) 2013.07.26
mongoDB, python, twitter Oauth  (0) 2013.07.25
python map reduce lambda  (0) 2013.07.20
google app engine urlfetch, urllib2  (0) 2013.07.16
python - JSON 데이타 load 하기  (0) 2013.07.16

WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,