python
웹페이지의 chatset값 구하기. http response header에 포함된 경우
import urllib2
request = "http://daum.net"
fp = urllib2.urlopen(request)
charset = fp.headers.getparam('charset')
print "***", charset
print "===\n", fp.headers
http://www.voidspace.org.uk/python/articles/urllib2.shtml#introduction
CharDet 패키지
어떤 파일이 어떠한 문자셋으로 구성되어 있는지 판단하는 기능
http://www.minvolai.com/blog/2009/11/chardet-detecting-unknown-string-encodings/
$ sudo pip install chardet
Unicode and Character Sets
'Data/Text/Knowledge Analysis & Mining > Python' 카테고리의 다른 글
python pdf library 비교 (0) | 2013.07.26 |
---|---|
mongoDB, python, twitter Oauth (0) | 2013.07.25 |
python map reduce lambda (0) | 2013.07.20 |
google app engine urlfetch, urllib2 (0) | 2013.07.16 |
python - JSON 데이타 load 하기 (0) | 2013.07.16 |
WRITTEN BY
- manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform
,