요즘 루씬 코드 리딩을 하고 있다. 루씬 core 패키지는 예전에 한번 분석 해본 경험이 있어서 이번엔 contrib 패키지를 중점적으로 살펴보고 있다. 그중에서도 spellcheck 모듈은 가장 최근에 성능좋은 라이브러리로 구현한 경험이 있어서 관심이 갔다. 이 패키지 내에서는 Jaro Winkler Distance 라는 짧은 이름에서 사용 가능한 string 비교 클래스가 구현이 되어 있었으며 n-gram 기반의 string 비교 클래스도 있었다. 그러나 메인으로는 예상대로 edit distance가 사용되고 있었다.
manager@
2013. 7. 24. 10:59
오타교정 :
- correction of misspelled words, suggesting the corrected word.
- 구글의 'Did you mean', 'Show results for' 기능
한글 오타교정 참고 사례
야후코리아 오타 교정 기능 비디오 (전희원)
http://www.youtube.com/watch?v=c7YEcYjEFgk
야후코리아 오타 교정 노문 (전희원, 한국정보공학회)
한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축
http://www.slideshare.net/gogamza/ss-6265729
전희원씨 (고감자) 블로그
http://freesearch.pe.kr/archives/tag/speller
How to Write a Spelling Corrector - Peter Norvig