python 및 머신러닝 교육, 슬로우캠퍼스


http://www.saltlux.com/blog-ko/product/%ED%95%98%EC%9D%B4%EB%B8%8C%EB%A6%AC%EB%93%9C-%EB%AC%B8%EC%84%9C-%EB%B6%84%EB%A5%98-hybrid-document-classification/

원본 - 솔트룩스 (Saltlux)


하이브리드 문서 분류 (Hybrid Document Classification)

1. 개요

새로운 정보가 매일 끊임없이 생겨나며 많은 양의 정보가 다양한 분야에서 생산되고 있어, 수작업을 필요로 하는 지식기반 시스템으로 문서 분류를 처리하기는 한계가 있습니다.
하이브리드 자동분류는 방대한 양의 다양한 비정형 문서들을 정의된 분류체계로 자동 분류해 주는 기술입니다. 그리하여 정제되지 않은 자료들이 분류기를 통해 가공된 후에는 체계적으로 자동 분류되어, 문서들간의 관계를 명시할 수 있으며 지식 자산의 활용도 및 정보로의 접근 속도를 높여줍니다.
 
하이브리드 자동분류는 기본적으로 다음과 같은 기능을 제공합니다.
수집된 문서들을 기반으로 특성들을 자동 학습하여, 자동으로 분류하는 기능을 제공합니다.
사람이 문서내의 규칙을 정의하여, 그 규칙을 기반으로 하는 분류 기능을 지원합니다.
문서 분류에 학습 및 규칙 기반을 동시에 사용할 수 있는 혼합형 분류 기능을 지원합니다.
 
2. 정의
하이브리드 문서 분류는 문서를 범주화 하는데 있어서 기계학습에 의한 통계적인 확률 정보와 사용자가 정의한 규칙의 확률값을 결합하여 문서를 범주 (Category)에 할당합니다. 그 결과 일반적으로 통계 또는 규칙기반의 분류에 비해 높은 정확도를 나타냅니다. 분류결과를 표현하는 방법도 특정 범주에 대한 적합성 값의 크기에 따라 이 범주에 배정할 것인지 여부를 결정하는 이원 분류 방법과 적합성 값이 정도에 따라 범주들의 순위를 매겨 n개의 범주를 적합 범주로 제공하는 순위 제공 방법이 있습니다. 
분류기법에 따라 다음과 같이 두가지 방법으로 나눠질 수 있습니다.
1.     지식공학적 접근 방법
A.     분류 규칙, expert system: DNF 형식의 규칙 서술
2.     기계학습적 접근 방법
A.     Probabilistic classifier: Naïve Bayes 분류
B.      Instance-based classifier: KNN (1NN, KNN, distance-weighted)
C.      Linear classifier: 로치오 및 SVM 분류
D.     Symbolic classifier: Decision tree, Decision rule
3. 설명
자동 분류 알고리즘들은 문서에 표현되는 단어로부터 문서 벡터를 생성하고, 벡터화된 훈련 문서들을 예제로 사용하여 학습함으로써 관련된 문서에 범주를 할당합니다. 일반적으로 자동 문서 분류는 자질 추출과정과 분류과정으로 나눌 수 있습니다. 추출과정은 전처리 과정과 자원 축소 과정을 거쳐서 문서에 나타나는 단어들을 기반으로 문서벡터를 만듭니다. 전처리 과정은 문서에서 태그와 불용어를 제거하고 형태소 분석 및 어간화 작업을 통해서 특정한 용어들을 추출합니다. 그리고 전처리 과정을 통해 추출된 자질을 축소하여 벡터 형식으로 표현하는데 사용하며, 차원 축소 과정을 거쳐 추출된 단어들은 문서를 얼마만큼 대표하는지에 대한 가중치와 같이 문서를 벡터 형식으로 표현됩니다. 문서 분류에 활용되는 여러 기법들 중에 널리 사용되고 있는 SVM과 TFIDF에 대해 간략하게 설명하겠습니다. .
 1) SVM (Support Vector Machines)
통계학습 중에서 널리 사용되고 있는 모델로는 신경망(Neural Network), KNN(K-Nearest Neighbor), 단일 및 복수 결정 나무(Decision Tree), Naïve Bayse, 지지벡터기계(Support Vector Machine) 등의 모델들이 있으며, 이 중 SVM은 감독 기계 학습 기법의 한 종류로써 우수한 데이터의 분류 성능을 보입니다. 그 가장 큰 이유는 학습 시에는 매우 많은 특징(Features)을 다루어야 하나 SVM은 특징 수에 의존하지 않는 over-fitting 방지 알고리즘을 가지고 있어 많은 수의 특징 공간을 다룰 수 있기 때문입니다. 많은 통계 학습 모델 중에서 가장 높은 성능 결과값을 가지고 있는 모델입니다. 지지벡터기계(SVM) 모델은 두 개의 클래스의 구성 테이터들을 가장 잘 분리 할 수 있는 결정면(Decision surface)을 찾는 모델입니다. SVM분류 방법은 Positive 와 Negative 문서를 트레이닝 셋트로 사용하여, 각각의 문서를 미리 분류된 기준으로 카테고리의 토픽으로부터 범주로 지정하는 방법이며 구조적 리스크 최소화를 통해 벡터공간에서의 최적의 결정 경계영역을 찾아내는 방법입니다.
 
 2) TFIDF (Term Frequency Inverse Document Frequency)
  TFIDF는 각 문서에 존재하는 단어에 대해 가중치를 부여함으로써 문서의 특징을 표현한 후, 단어들 가중치의 벡터로 표현되는 두 문서간의 유사도 비교를 가능하게 하는 방법입니다. 벡터 모델 중의 하나로서 불리안 (Boolean) 모델의 0 또는 1의 가중치 한계를 극복하고, 질의문서와 검색문서 간의 부분 일치를 가능하게 하는 모델입니다. 다시 말하면, 질의문서와 검색문서의 단어들에 연속 형 수치의 가중치를 부여하고, 이 가중치를 이용하여 유사도를 계산합니다. 이 후 상위의 유사도를 갖는 문서들을 검색해오는 방법으로 정확하게 사용자의 정보 요구사항에 부합하는 문서들을 검색할 수 있다는 장점으로 널리 쓰이고 있습니다. TFIDF 모델이란 TF (Term Frequency) 와 IDF (Inverse Document Frequency)의 곱을 의미합니다. TF는 문서에서 단어가 나타나는 빈도를 의미합니다. 예를 들어, 한 검색 문서에서 가장 많이 나타난 단어인 ‘농사’가 25번 나왔고, 그 문서에서 ‘벼’ 라는 단어가 10번 나왔다면 그 검색 문서에서 ‘벼’의 TF 값은 10/25=0.4가 됩니다.
  
  DF (Document Frequency)는 보유한 전체 문서 중 해당 단어를 갖고 있는 문서의 빈도를 의미합니다. 예를 들어, 보유 문서 1000개 중 ‘벼’라는 단어를 포함한 문서가 모두 550개라고 하면, ‘벼’의 DF값은 550/1000=0.55가 됩니다. TF의 경우에는 그 값이 크면 해당 단어가 그 문서에서 중요도가 높다고 할 수 있지만, DF는 해당 단어가 여러 문서에서 나타나므로 어떤 특정 문서를 분류할 때에 사용할 수 있는 단어로서의 가치는 떨어져 역수에 log를 취한 IDF를 사용합니다.
 
4. 장점
하이브리드 자동분류는 각각 학습 및 규칙 기반 분류 그리고 혼합분류 기능을 지원합니다. 하이브리드 분류는 통계기반의 기계학습을 통한 주제 자동 분류를 통해 분류의 범위를 확대 하고 분류 별 규칙 정의에 기반한 분류를 통해 정확도를 확보함으로써 지속적인 개선 및 보완이 가능한 구조를 제공합니다.
 
5. 사례 
가장 간단하게 이를 적용해 볼 수 있는 사례는 스팸 필터입니다. 메일의 헤더와 내용을 기반으로 문서가 스팸인지 아닌지에 대한 이항 (Binary) 분류를 적용하여 접근할 수 있으며, 뉴스그룹 문서의 분류에도 사용 될 수 있습니다. 또한, 사내 지식 자산을 통합하고 재 분류하고 초기에 구축한 분류체계에 따른 자료 검색이 어려운 정보에도 사용될 수 있습니다. Saltlux의 자동분류 기술은 KOTRA , LG전자, 특허청에 적용된 사례가 있습니다.
 
6. 활용 분야
1.     뉴스 및 블로그의 자동 분류
매일 지속적으로 새로운 내용이 생성되고 업데이트가 되는 뉴스 및 블로그의 문서를 카테고리 별로 정확하게 분류를 할 수 있습니다.
2.     평판 분석 자동 분류
제품의 평판, 경쟁사 소식, 회사 이미지, 시장 뉴스, 정치적 의견등의 네티즌 의견을 신속하게 분류하여, 시기 적절하게 온라인 상의 다양한 이슈, 의견, 루머, 불만사항, 트랜드 등에 효과적으로 대응할 수 있습니다.
3.     기업 문서 자동 분류
정형화된 기업의 문서 분류체계를 구성하고 자동으로 적절한 범주로 분류하므로써 문서의 접근 속도와 활용성을 높일 수 잇습니다.
4.     게시판 자동 분류
기업의 CRM 및 게시판에 접수 등록된 의견을 자동분류하여 고객들의 주 문의 분야 및 니즈를 파악 할 수 있습니다.
5.     특허/학술자료 자동 분류
많은 기업 및 단체에서 출원하는 특허/학술 자료의 내용을 분석하여 분류할 수 있어 사용자의 접근성을 높일 수가 있습니다. 
 
7. 참조 문헌
1)     Bao, Y abd Ishii, N., “Combining Multiple K-Nearest Neighbor Classifiers for Text Classification by Reducts.” In proceeding of the fifth International Conference on Discovery Science, pp 340-347, 2002
3)     이재식, 이종운, “사례기반 추론을 이용한 한글 문서분류 시스템”, 경영정보학연구, 제12권 제 2호, 2002년 6월
4)     김진상, 신양규, “베이지안 학습을 이용한 문서의 자동분류”, Journal of the Korean, Data & Information Science Society, 2000, Vol. 11, No. 1, pp 19 ~ 30

[솔트룩스 전략사업본부 박진규]



WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,