unicode의 값 영역이 어떤 문자셋(script)에 속하는지 나타내는 표이다.
http://www.unicode.org/Public/UNIDATA/Scripts.txt
전 세계 문자셋의 목록 (list of writing systems (or scripts))
문자셋의 이름의 ISO 표준이 있다. ISO_15924
실제 이름 (영어식 이름, 4자리 코드 이름, 숫자 이름) 목록은 여기에서 !!
http://unicode.org/iso15924/iso15924-num.html
- Table 1. Alphabetical list of four-letter script codes
- Table 2. Numeric list of script codes
- Table 3. Alphabetical list of English script names
- Table 4. Alphabetical list of French script names
- Table 5. Alphabetical list of four-letter script names (normative plain-text data file)
unicode block 개념
https://github.com/handol/language-guess/blob/master/src/main/scala/unicode.scala
unicde를 언어로 매핑한 것
'Data/Text/Knowledge Analysis & Mining > 한글처리' 카테고리의 다른 글
한글처리 오픈 소스 (0) | 2013.07.24 |
---|---|
한글 코드값 (유니코드), 초성/중성/종성 분리 (0) | 2013.07.24 |
WRITTEN BY
- manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform
,