python 및 머신러닝 교육, 슬로우캠퍼스

오타교정 :   

    • correction of misspelled words, suggesting the corrected word.
    • 구글의  'Did you mean',  'Show results for' 기능




한글 오타교정 참고 사례

야후코리아 오타 교정 기능 비디오 (전희원)

http://www.youtube.com/watch?v=c7YEcYjEFgk


야후코리아 오타 교정 노문 (전희원, 한국정보공학회)


한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축 

http://www.slideshare.net/gogamza/ss-6265729


전희원씨 (고감자) 블로그

http://freesearch.pe.kr/archives/tag/speller 



Lucene spellcheck package

요즘 루씬 코드 리딩을 하고 있다. 루씬 core 패키지는 예전에 한번 분석 해본 경험이 있어서 이번엔 contrib 패키지를 중점적으로 살펴보고 있다. 그중에서도 spellcheck 모듈은 가장 최근에 성능좋은 라이브러리로 구현한 경험이 있어서 관심이 갔다.  이 패키지 내에서는 Jaro Winkler Distance 라는 짧은 이름에서 사용 가능한 string 비교 클래스가 구현이 되어 있었으며 n-gram 기반의 string 비교 클래스도 있었다. 그러나 메인으로는 예상대로 edit distance가 사용되고 있었다.


Damerau-Levenshtein distance



How to Write a Spelling Corrector - Peter Norvig





WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,