한국어 개체명 인식 기술
한국어 개체명 인식 시스템은 텍스트로부터 인명, 지명, 기관명 등과 같은 개체명을 인식하여 해당 개체명 태그를 달아주는 시스템을 말한다. 본 개체명 인식기는 147개의 개체명 태그셋을 인식한다. 인식된 개체명은 정보검색, 정보추출, 질의응답 등에 바로 사용이 가능하다.
① 한국어 개체명 인식 시스템
-한국어 개체명 인식 기능
-사용자 사전 기능
② 기계 학습 도구
-학습 데이터로부터 개체명 인식 모델 생성 기능
③ 한국어 개체명 사전
-한국어 개체명 사전 (200만 엔트리)
④ 한국어 개체명 학습 코퍼스
-한국어 개체명이 태깅된 학습 코퍼스 (8000 문서)
⑤ 학습 데이터 구축 도구
-개체명 인식 학습 데이터 수동 도구
-개체명 인식 학습 데이터 반자동 도구
-한국어 개체명 인식 기능
-사용자 사전 기능
② 기계 학습 도구
-학습 데이터로부터 개체명 인식 모델 생성 기능
③ 한국어 개체명 사전
-한국어 개체명 사전 (200만 엔트리)
④ 한국어 개체명 학습 코퍼스
-한국어 개체명이 태깅된 학습 코퍼스 (8000 문서)
⑤ 학습 데이터 구축 도구
-개체명 인식 학습 데이터 수동 도구
-개체명 인식 학습 데이터 반자동 도구
http://voice.etri.re.kr/
한국어 어휘 사전 DB - 기술이전
한국어 형태소 기분석 사전: 대기업 12백만원 중소기업 6백만원
한국어 세부분류 개체명 사전: 대기업 20백만원 중소기업 10백만원
한국어 이형태 정규화 사전: 대기업 8백만원 중소기업 4백만원
한국어 세부분류 개체명 사전: 대기업 20백만원 중소기업 10백만원
한국어 이형태 정규화 사전: 대기업 8백만원 중소기업 4백만원
A. 기술명 : 한국어 형태소 기분석 사전
- 한국어 기분석 사전 원문 (141만 엔트리)
B. 기술명 : 한국어 세부분류 개체명 사전
- 한국어 세부분류 개체명 사전 (360만 엔트리)
C. 기술명 : 한국어 이형태 정규화 사전
- 공공/기업/스마트폰/자동차/제품명 등의 도메인에 대해서 수작업으로 구축한 이형태 어휘 사전(약 57,000 어휘쌍)
- 웹에서 자동 추출한 이형태 어휘 사전 (약 90,000 어휘쌍)
대분류 15개
– PERSON, STUDY_FIELD, THEORY, ARTIFACTS,
ORGANIZATION, LOCATION, CIVILIZATION, DATE, TIME,
QUANTITY, EVENT, ANIMAL, PLANT, MATERIAL, TERM
소분류 180개
– ARTIFACTS 소분류 예
• AF_CULTURAL_ASSET, AF_BUILDING, AF_MUSICAL_INSTRUMENT,
AF_ROAD, AF_WEAPON, AF_TRANSPORT, AF_WORKS,
AFW_GEOGRAPHY, AFW_MEDICAL_SCIENCE, AFW_RELIGION,
AFW_PHILOSOPHY, AFW_ART, AFWA_DANCE, AFWA_MOVIE,
AFWA_LITERATURE, AFWA_ART_CRAFT, AFWA_THEATRICALS,
AFWA_MUSIC
|
'Data/Text/Knowledge Analysis & Mining' 카테고리의 다른 글
How to Write a Spelling Corrector - Peter Norvig (사본) (0) | 2013.07.24 |
---|---|
오타 교정 (0) | 2013.07.24 |
한글 및 한국어 정보처리 학술대회 (0) | 2013.07.15 |
Web Science (웹 사이언스, KAIST) (0) | 2013.07.15 |
Taxonomy, Folksonomy, Ontology (0) | 2013.07.11 |
WRITTEN BY
- manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform
,