python 및 머신러닝 교육, 슬로우캠퍼스



https://developer.expectlabs.com/docs/crawlerConfiguration



{ "uri": "http://www.techcrunch.com", "whitelist": [ { "starts-with" : "/2014/" } ], "blacklist": [ { "contains" : "evernote" } ] }



  • { "uri": "http://www.techcrunch.com",
      "whitelist": [ { "starts-with": "/2013/" },
                     { "matches-regex": "^/[0-9]{4}/(04|05|06)/" } ],
      "blacklist": [ { "contains": "google" } ] }



WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,

python 및 머신러닝 교육, 슬로우캠퍼스


HTTP redirect 처리하기

curl 명령어로 redirect가 발생하는 지 확인할 수 있다.  --head 옵션을 사용한다.

curl --head  http://j.mp/174gpKP

HTTP/1.1 301 Moved Permanently
Server: nginx
Date: Thu, 05 Jun 2014 04:21:44 GMT
Content-Type: text/html; charset=utf-8
Connection: keep-alive
Cache-Control: private; max-age=90
Content-Length: 153
Location: http://nolboo.github.io/blog/2013/10/17/start-blog-with-harp/
Mime-Version: 1.0
Set-Cookie: _bit=538ff058-00317-06caf-3b1cf10a;domain=.j.mp;expires=Tue Dec  2 04:21:44 2014;path=/; HttpOnly



http://j.mp/174gpKP 이라는 short URL의 원본 URL을 알고 싶다면

HTTP 301 redirect를 처리할 수 있어야 한다.  (302, 303 등도 있음)



>>> import urllib

>>> a = urllib.urlopen("http://j.mp/174gpKP")

>>> a.geturl()
'http://nolboo.github.io/blog/2013/10/17/start-blog-with-harp/'


urllib2를 이용한 방법도 있지만, 조금 복잡하다. class 정의 필요.

http://www.diveintopython.net/http_web_services/redirects.html




'Data/Text/Knowledge Analysis & Mining > Python' 카테고리의 다른 글

mechanize 예시  (0) 2013.10.18
[Git] 기본 설정 및 사용  (0) 2013.07.30
python pdf - reportlab  (0) 2013.07.26
OCR + python  (0) 2013.07.26
python pdf library 비교  (0) 2013.07.26

WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,

python 및 머신러닝 교육, 슬로우캠퍼스

잘 설명된 곳

http://www.pythonforbeginners.com/cheatsheet/python-mechanize-cheat-sheet/




간단 코드


import mechanize
import urllib
import random

class Transaction(object):
        def run(self):
                br = mechanize.Browser()
                br.set_handle_robots(False)
                resp = br.open('http://aaa.com/')
                resp.read()

'Data/Text/Knowledge Analysis & Mining > Python' 카테고리의 다른 글

python 에서 http redirect 처리하기 (short url 처리)  (0) 2014.03.20
[Git] 기본 설정 및 사용  (0) 2013.07.30
python pdf - reportlab  (0) 2013.07.26
OCR + python  (0) 2013.07.26
python pdf library 비교  (0) 2013.07.26

WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,

python 및 머신러닝 교육, 슬로우캠퍼스



Protovis


http://mbostock.github.io/protovis/ex/force.html



D3


http://d3js.org/


http://www.jasondavies.com/wordcloud/#http%3A%2F%2Fen.wikipedia.org%2Fwiki%2F%7Bword%7D=cloud



WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,

python 및 머신러닝 교육, 슬로우캠퍼스


http://www.saltlux.com/blog-ko/product/%ED%95%98%EC%9D%B4%EB%B8%8C%EB%A6%AC%EB%93%9C-%EB%AC%B8%EC%84%9C-%EB%B6%84%EB%A5%98-hybrid-document-classification/

원본 - 솔트룩스 (Saltlux)


하이브리드 문서 분류 (Hybrid Document Classification)

1. 개요

새로운 정보가 매일 끊임없이 생겨나며 많은 양의 정보가 다양한 분야에서 생산되고 있어, 수작업을 필요로 하는 지식기반 시스템으로 문서 분류를 처리하기는 한계가 있습니다.
하이브리드 자동분류는 방대한 양의 다양한 비정형 문서들을 정의된 분류체계로 자동 분류해 주는 기술입니다. 그리하여 정제되지 않은 자료들이 분류기를 통해 가공된 후에는 체계적으로 자동 분류되어, 문서들간의 관계를 명시할 수 있으며 지식 자산의 활용도 및 정보로의 접근 속도를 높여줍니다.
 
하이브리드 자동분류는 기본적으로 다음과 같은 기능을 제공합니다.
수집된 문서들을 기반으로 특성들을 자동 학습하여, 자동으로 분류하는 기능을 제공합니다.
사람이 문서내의 규칙을 정의하여, 그 규칙을 기반으로 하는 분류 기능을 지원합니다.
문서 분류에 학습 및 규칙 기반을 동시에 사용할 수 있는 혼합형 분류 기능을 지원합니다.
 
2. 정의
하이브리드 문서 분류는 문서를 범주화 하는데 있어서 기계학습에 의한 통계적인 확률 정보와 사용자가 정의한 규칙의 확률값을 결합하여 문서를 범주 (Category)에 할당합니다. 그 결과 일반적으로 통계 또는 규칙기반의 분류에 비해 높은 정확도를 나타냅니다. 분류결과를 표현하는 방법도 특정 범주에 대한 적합성 값의 크기에 따라 이 범주에 배정할 것인지 여부를 결정하는 이원 분류 방법과 적합성 값이 정도에 따라 범주들의 순위를 매겨 n개의 범주를 적합 범주로 제공하는 순위 제공 방법이 있습니다. 
분류기법에 따라 다음과 같이 두가지 방법으로 나눠질 수 있습니다.
1.     지식공학적 접근 방법
A.     분류 규칙, expert system: DNF 형식의 규칙 서술
2.     기계학습적 접근 방법
A.     Probabilistic classifier: Naïve Bayes 분류
B.      Instance-based classifier: KNN (1NN, KNN, distance-weighted)
C.      Linear classifier: 로치오 및 SVM 분류
D.     Symbolic classifier: Decision tree, Decision rule
3. 설명
자동 분류 알고리즘들은 문서에 표현되는 단어로부터 문서 벡터를 생성하고, 벡터화된 훈련 문서들을 예제로 사용하여 학습함으로써 관련된 문서에 범주를 할당합니다. 일반적으로 자동 문서 분류는 자질 추출과정과 분류과정으로 나눌 수 있습니다. 추출과정은 전처리 과정과 자원 축소 과정을 거쳐서 문서에 나타나는 단어들을 기반으로 문서벡터를 만듭니다. 전처리 과정은 문서에서 태그와 불용어를 제거하고 형태소 분석 및 어간화 작업을 통해서 특정한 용어들을 추출합니다. 그리고 전처리 과정을 통해 추출된 자질을 축소하여 벡터 형식으로 표현하는데 사용하며, 차원 축소 과정을 거쳐 추출된 단어들은 문서를 얼마만큼 대표하는지에 대한 가중치와 같이 문서를 벡터 형식으로 표현됩니다. 문서 분류에 활용되는 여러 기법들 중에 널리 사용되고 있는 SVM과 TFIDF에 대해 간략하게 설명하겠습니다. .
 1) SVM (Support Vector Machines)
통계학습 중에서 널리 사용되고 있는 모델로는 신경망(Neural Network), KNN(K-Nearest Neighbor), 단일 및 복수 결정 나무(Decision Tree), Naïve Bayse, 지지벡터기계(Support Vector Machine) 등의 모델들이 있으며, 이 중 SVM은 감독 기계 학습 기법의 한 종류로써 우수한 데이터의 분류 성능을 보입니다. 그 가장 큰 이유는 학습 시에는 매우 많은 특징(Features)을 다루어야 하나 SVM은 특징 수에 의존하지 않는 over-fitting 방지 알고리즘을 가지고 있어 많은 수의 특징 공간을 다룰 수 있기 때문입니다. 많은 통계 학습 모델 중에서 가장 높은 성능 결과값을 가지고 있는 모델입니다. 지지벡터기계(SVM) 모델은 두 개의 클래스의 구성 테이터들을 가장 잘 분리 할 수 있는 결정면(Decision surface)을 찾는 모델입니다. SVM분류 방법은 Positive 와 Negative 문서를 트레이닝 셋트로 사용하여, 각각의 문서를 미리 분류된 기준으로 카테고리의 토픽으로부터 범주로 지정하는 방법이며 구조적 리스크 최소화를 통해 벡터공간에서의 최적의 결정 경계영역을 찾아내는 방법입니다.
 
 2) TFIDF (Term Frequency Inverse Document Frequency)
  TFIDF는 각 문서에 존재하는 단어에 대해 가중치를 부여함으로써 문서의 특징을 표현한 후, 단어들 가중치의 벡터로 표현되는 두 문서간의 유사도 비교를 가능하게 하는 방법입니다. 벡터 모델 중의 하나로서 불리안 (Boolean) 모델의 0 또는 1의 가중치 한계를 극복하고, 질의문서와 검색문서 간의 부분 일치를 가능하게 하는 모델입니다. 다시 말하면, 질의문서와 검색문서의 단어들에 연속 형 수치의 가중치를 부여하고, 이 가중치를 이용하여 유사도를 계산합니다. 이 후 상위의 유사도를 갖는 문서들을 검색해오는 방법으로 정확하게 사용자의 정보 요구사항에 부합하는 문서들을 검색할 수 있다는 장점으로 널리 쓰이고 있습니다. TFIDF 모델이란 TF (Term Frequency) 와 IDF (Inverse Document Frequency)의 곱을 의미합니다. TF는 문서에서 단어가 나타나는 빈도를 의미합니다. 예를 들어, 한 검색 문서에서 가장 많이 나타난 단어인 ‘농사’가 25번 나왔고, 그 문서에서 ‘벼’ 라는 단어가 10번 나왔다면 그 검색 문서에서 ‘벼’의 TF 값은 10/25=0.4가 됩니다.
  
  DF (Document Frequency)는 보유한 전체 문서 중 해당 단어를 갖고 있는 문서의 빈도를 의미합니다. 예를 들어, 보유 문서 1000개 중 ‘벼’라는 단어를 포함한 문서가 모두 550개라고 하면, ‘벼’의 DF값은 550/1000=0.55가 됩니다. TF의 경우에는 그 값이 크면 해당 단어가 그 문서에서 중요도가 높다고 할 수 있지만, DF는 해당 단어가 여러 문서에서 나타나므로 어떤 특정 문서를 분류할 때에 사용할 수 있는 단어로서의 가치는 떨어져 역수에 log를 취한 IDF를 사용합니다.
 
4. 장점
하이브리드 자동분류는 각각 학습 및 규칙 기반 분류 그리고 혼합분류 기능을 지원합니다. 하이브리드 분류는 통계기반의 기계학습을 통한 주제 자동 분류를 통해 분류의 범위를 확대 하고 분류 별 규칙 정의에 기반한 분류를 통해 정확도를 확보함으로써 지속적인 개선 및 보완이 가능한 구조를 제공합니다.
 
5. 사례 
가장 간단하게 이를 적용해 볼 수 있는 사례는 스팸 필터입니다. 메일의 헤더와 내용을 기반으로 문서가 스팸인지 아닌지에 대한 이항 (Binary) 분류를 적용하여 접근할 수 있으며, 뉴스그룹 문서의 분류에도 사용 될 수 있습니다. 또한, 사내 지식 자산을 통합하고 재 분류하고 초기에 구축한 분류체계에 따른 자료 검색이 어려운 정보에도 사용될 수 있습니다. Saltlux의 자동분류 기술은 KOTRA , LG전자, 특허청에 적용된 사례가 있습니다.
 
6. 활용 분야
1.     뉴스 및 블로그의 자동 분류
매일 지속적으로 새로운 내용이 생성되고 업데이트가 되는 뉴스 및 블로그의 문서를 카테고리 별로 정확하게 분류를 할 수 있습니다.
2.     평판 분석 자동 분류
제품의 평판, 경쟁사 소식, 회사 이미지, 시장 뉴스, 정치적 의견등의 네티즌 의견을 신속하게 분류하여, 시기 적절하게 온라인 상의 다양한 이슈, 의견, 루머, 불만사항, 트랜드 등에 효과적으로 대응할 수 있습니다.
3.     기업 문서 자동 분류
정형화된 기업의 문서 분류체계를 구성하고 자동으로 적절한 범주로 분류하므로써 문서의 접근 속도와 활용성을 높일 수 잇습니다.
4.     게시판 자동 분류
기업의 CRM 및 게시판에 접수 등록된 의견을 자동분류하여 고객들의 주 문의 분야 및 니즈를 파악 할 수 있습니다.
5.     특허/학술자료 자동 분류
많은 기업 및 단체에서 출원하는 특허/학술 자료의 내용을 분석하여 분류할 수 있어 사용자의 접근성을 높일 수가 있습니다. 
 
7. 참조 문헌
1)     Bao, Y abd Ishii, N., “Combining Multiple K-Nearest Neighbor Classifiers for Text Classification by Reducts.” In proceeding of the fifth International Conference on Discovery Science, pp 340-347, 2002
3)     이재식, 이종운, “사례기반 추론을 이용한 한글 문서분류 시스템”, 경영정보학연구, 제12권 제 2호, 2002년 6월
4)     김진상, 신양규, “베이지안 학습을 이용한 문서의 자동분류”, Journal of the Korean, Data & Information Science Society, 2000, Vol. 11, No. 1, pp 19 ~ 30

[솔트룩스 전략사업본부 박진규]



WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,

python 및 머신러닝 교육, 슬로우캠퍼스

http://schema.org


웹을 통한 서비스라는 것은  Database에 담겨 있는 데이타를 끄집어 내어, 그 데이타를 HTML 형태로 제공하는 것이다.   HTML은  데이타를 일반 사용자들의 컴퓨터(스마트폰) 화면 상에서 표현하기 위하여,  텍스트, 이미지, 영상의  크기, 위치, 색상 등을 지정하는 방법(언어)이다.  즉, HTML은 presentation의 방법이 된다.


이 Presentation의 과정에서 DB에 담긴 구조화된 데이타(Structured Data)는  비구조화된 데이타(Unstructured Data)로 변화된다. 이것을  컴퓨터 엔지니어 관점에서는 '데이타가 훼손된 것'이라고 표현할 만 하다.


이 훼손을 만회하기 위하여 RDF, semantic web 등의 기술이 예전부터 추진되어 왔으나, 현실 웹 세상에 별로 적용이 못 되고 있는 것 같다. 현실의 HTML 기술과 너무 괴리가 있기 때문일까.


schema.org는 div태그에 itemscope와  itemtype를 지정하여, HTML5의 규격 범위내에서 할 수 있는 수준이다. 이렇게 지정해주면 검색엔진(crawler)가 내 웹페이지의 데이타가 무엇인지, 어떤 타입인지 잘 이해할 수 있게 된다.




div itemscope itemtype="http://schema.org/Movie">
  <h1>Avatar</h1>
  <span>Director: James Cameron (born August 16, 1954)</span>
  <span>Science fiction</span>
  <a href="../movies/avatar-theatrical-trailer.html">Trailer</a>
</div>

Here's a set of commonly used item types:

You can also see a full list of all item types, listed on a single page.


WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,

python 및 머신러닝 교육, 슬로우캠퍼스


unicode의 값 영역이 어떤 문자셋(script)에 속하는지 나타내는 표이다.

http://www.unicode.org/Public/UNIDATA/Scripts.txt



전 세계 문자셋의 목록 (list of writing systems (or scripts))


문자셋의 이름의 ISO 표준이 있다.   ISO_15924  


실제 이름 (영어식 이름, 4자리 코드 이름, 숫자 이름) 목록은 여기에서 !!

http://unicode.org/iso15924/iso15924-num.html






unicode block 개념


https://github.com/handol/language-guess/blob/master/src/main/scala/unicode.scala



unicde를 언어로 매핑한 것

https://github.com/typekit/speakeasy/blob/master/data/


WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,

python 및 머신러닝 교육, 슬로우캠퍼스


git repository 다운로드 받기 - 방법 1 

$ git clone  https://github.com/user/aaa.git

$ git remote -v


git repository 다운로드 받기 - 방법 2

$ mkdir aaa

$ cd aaa

$ git init

$ git remote add origin https://github.com/user/aaa.git

$ git pull origin

$ git remote -v



기본 환경 설정하기


$ git config --global user.name "John Doe" $ git config --global user.email johndoe@example.com


# git commit 시의 editor를 뭘로 할지 설정

$ git config --global core.editor vi



git commit 시에 add에서 제외할 파일 확장자 지정하기

git config --global core.excludesfile ~/.gitignore_global



~/.gitignore_global 을 편집하여 아래와 같은 확장자들을 지정할 수 있다.
#Compiled source #
###################
*.com
*.class
*.dll
*.exe
*.o
*.so

# Packages #
############
# it's better to unpack these files and commit the raw source
# git has its own built in compression methods
*.7z
*.dmg
*.gz
*.iso
*.jar
*.rar
*.tar
*.zip

# Logs and databases #
######################
*.log
*.sql
*.sqlite

# OS generated files #
######################
.DS_Store
.DS_Store?
._*
.Spotlight-V100
.Trashes
ehthumbs.db
Thumbs.db


git 소스 파일 추가 & Commit & Push 


$ vi xxx

$ git add xxx

$ git commit -a

vi로 commit log 편집후에 


$ git push origin master




http://git-scm.com/book/en/Customizing-Git-Git-Configuration


'Data/Text/Knowledge Analysis & Mining > Python' 카테고리의 다른 글

python 에서 http redirect 처리하기 (short url 처리)  (0) 2014.03.20
mechanize 예시  (0) 2013.10.18
python pdf - reportlab  (0) 2013.07.26
OCR + python  (0) 2013.07.26
python pdf library 비교  (0) 2013.07.26

WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,

python 및 머신러닝 교육, 슬로우캠퍼스



머신러닝 인 액션 : 기계 학습 알고리즘으로 데이터 마이닝하기    (Python)

피터 해링턴 저/김영진 역 | 제이펍 |

원서 : Machine Learning IN ACTION

http://www.yes24.com/24/goods/9046762?CategoryNumber=001001003016002&Pcode=012

 

 

 


 

집단지성 프로그래밍            (Python)

토비 세가란 저/윤종완 역 | 한빛미디어

Programming Collective Intelligence (2007, Oreilly)

http://www.yes24.com/24/goods/2917663?scode=029

 

저자 : 토비 세가란

 계산 생명공학 회사인 젠스트럭트에서 약제 발현 원리 이해를 위한 알고리즘을 설계하고 데이터마이닝 기법을 적용하는 소프트웨어 개발 부서를 맡고 있으며, 수집된 데이터 세트들을 분석해 원하는 값을 찾도록 돕는 오픈 소스 프로젝트에도 참여하고 관련된 여러 다른 회사와도 일하고 있다. 이 밖에도 인기 있는 태스크토이(www.tasktoy.com)와 레이지베이스(www.lazybase.com) 같은 다수의 무료 웹 서비스도 만들었다. 토비 세가란은 스노우보드와 와인에 푹 빠져있으며, 저자의 블로그는 blog.kiwitobes.com다. 현재 샌프란시스코에 거주한다.


역자 : 윤종완 

KAIST에서 운영체제를 전공한 윤종완씨는 정보검색분야 분야 전문가로 현대전자, 현재정보기술 연구소 연구원, 코리아와이즈넛 기술이사를 거쳐 현재 오픈마루 검색팀 팀장으로 재직 중이다. 관심 분야는 인터넷 정보 검색, 웹 마이닝이고 검색기술에 많은 경험을 가지고 있다. 최근에는 웹2.0 서비스의 집단지성에 관한 연구를 활발히 하고 있다.

 

 

Programming the Semantic Web

 

앞표지
O'Reilly Media, Inc., 2009. 10. 6. - 302페이지

With this book, the promise of the Semantic Web -- in which machines can find, share, and combine data on the Web -- is not just a technical possibility, but a practical realityProgramming the Semantic Web demonstrates several ways to implement semantic web applications, using current and emerging standards and technologies. You'll learn how to incorporate existing data sources into semantically aware applications and publish rich semantic data.

Each chapter walks you through a single piece of semantic technology and explains how you can use it to solve real problems. Whether you're writing a simple mashup or maintaining a high-performance enterprise solution,Programming the Semantic Web provides a standard, flexible approach for integrating and future-proofing systems and data.

This book will help you:

  • Learn how the Semantic Web allows new and unexpected uses of data to emerge
  • Understand how semantic technologies promote data portability with a simple, abstract model for knowledge representation
  • Become familiar with semantic standards, such as the Resource Description Framework (RDF) and the Web Ontology Language (OWL)
  • Make use of semantic programming techniques to both enrich and simplify current web applications


소셜 웹 마이닝

:페이스북, 트위터, 링크드인 등의 소셜 미디어 데이터 분석하기

 

저자: 매튜 러셀

역자: 김상정

출간일: 2012 10 25()

정가: 24,000

페이지: 336p

판형: 175 x 230

ISBN: 978-89-94774-22-0 (93560)

원서정보: Mining the Social Web



소셜 네트워크 데이터 마이닝

 

“《소셜 웹 마이닝》은 자연스럽게 집필된 《Programming Collective Intelligence》의 속편이나 다름없다.

제프 햄머바허 | 클라우데라의 수석 과학자

 

 

“구조화되거나 구조화되지 않은 데이터를 분석하기 위한 많은 툴, 기술, 이론에 대해 풍부하고 유용하고 실질적인 내용을 다루고 있다.

알렉스 마르텔리 | 구글의 선임 엔지니어, Python in a Nutshell》의 저자




 

데이터의 미학 Beautiful Data : 빅데이터 기술에서 데이터 과학자까지, 데이터에 관한 모든 것

토비 세가란,제프 해머바커 등저/공상휘 역 | 에이콘출판사 |

원서 : Beautiful Data: The Stories Behind Elegant Data Solutions

http://www.yes24.com/24/goods/9104610?scode=029

 

 

  


 

실전 예제로 살펴보는 집단지성 프로그래밍   (Java)

사트남 알랙 저/전희원 역 | 인사이트(insight)

Collective Intelligence in Act (Satnam Alag)


저자 : 사트남 알랙

 알랙 박사는 생명과학 커뮤니티를 위한 버티컬 검색 엔진과 웹 2.0 사용자 중심 애플리케이션을 개발하는 넥스트바이오(www.nextbio.com)의 엔지니어링 부사장이다. 15년 동안 기계학습(machine learning) 분야에서 경험을 쌓았으며, 10년이 넘도록 상업적 소프트웨어를 개발/관리했고, Johnson & Johnson’s BabyCenter에서 컨설턴트로, Rearden Commerce에서는 최고 소프트웨어 아키텍트로 재직하기도 했다. 자바 플랫폼의 SCEA(Sun Certified Enterprise Architect) 자격을 가지고 있다.


역자 : 전희원 

인하대학교 학사, 고려대학교 석사를 졸업하였다. 대학원에서 검색과 기계학습을 수학했으며, 『월간 마이크로소프트웨어』 『eWeek』 『IBM developerworks』 등에 검색, 데이터 마이닝, 기계학습, 분산처리에 대한 기고를 해왔다. 현재 야후!에서 기계학습이나 데이터 마이닝이 가미된 검색 관련 지능형 소프트웨어를 개발하고 있다. 블로그(http://freesearch.pe.kr)에서 고감자라는 아이디로 활동 중이다.

 


WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,

python 및 머신러닝 교육, 슬로우캠퍼스


텍스트 처리, 텍스트 마이닝, 의미 검색, 지식 마이닝 관련 기술 및 솔루션 기업인 솔트룩스(http://www.saltlux.com/)의 동영상인데,

(text mining, semantic search, knowledge mining)


관련 기술에 대한 이해를 돕는 자료가 됩니다.



 솔트룩스의 시맨틱 웹 소개동영상 (시맨틱웹의 원리에 대한 설명)
- 시맨틱웹의 소개 (일반웹&시맨틱웹, 시맨틱웹정의, 강한시맨틱웹&약한시맨틱웹 )
- Ontology의 소개 (아리스토텔레스, 온톨로지정의, 온톨로지사례)
- Data Base와 Knowledge Base의 차이점 (구조의차이, 검색의차이)
- 시맨틱웹의 적용 (온톨로지 설계, KB 구축, 시맨틱 검색)
- 시맨틱웹의 미래 (문서&데이터, Linked Data, 지식소통)


동영상 #1 http://www.youtube.com/watch?v=6bXnI9zHImo

동영상 #2 http://www.youtube.com/watch?v=6q7q1tBqTZg  (솔트룩스 김태현 부장 발표)









검색의 미래(Beyond the Search)

http://www.youtube.com/watch?v=_cDZ8-NKc_I   (명승은 벤처스퀘어 대표)



http://www.youtube.com/watch?v=6e-ogxSrEuw  남상협 버즈니 대표 - 신뢰 기반의 의견 검색




빅데이타 관점에서는 아래와 같이 분류할 수 있습니다.


Big-Data 분류 

① 정형 Data : 정의된 필드에 저장된 데이터 (시스템 로그, RDBMS, 제조 공정 로그 등) 

② 반정형 Data : 스키마(schema)를 포함하는 데이터 (XML , HTML ) 

③ 비정형 Data : 형식 및 길이의 변수가 있는 데이터 (메일 본문텍스트이미지댓글 등) 

 

Big-Data 분석 종류 

기존의 분석 방법보다 복잡성과 데이터량의 방대함으로 인하여 유연성 있는 분석 기법이 적용되어야 한다. 

① Text Mining 

비정형 텍스트 데이터에서 가치와 의미를 찾아내는 기술이다. 

자연어로 이루어진 텍스트에서 의미를 찾아내는 기술로 데이터 마이닝과 차별화 된 분석 기술이다. 

② Option Mining 

Text Mining, 자연어 처리비정형 분석형태소 분석등이 적용된다. 

이는 SNS, 블로그 카페게시판 등 소비자의 의견을 분석하여 

제품 개발서비스 향상  기업 활동에 도움되는 결과를 도출하는 기술이다.  

③ Social Network Analytics 

감성 분석이 대표적. 

감성 분석은 소셜 네트워크에서 생성된 비정형 텍스트 데이터에서 감정을 파악. 

           SNS에서 내 영향력관심사성향 및 행동 패턴을 분석, 추출하는 기술.

④ Cluster Analysis 

데이터 간의 유사도 및 친밀도(거리)를 분석. 

계층적 기법과 비계층적 기법. 



http://blog.naver.com/qrrmaa112?Redirect=Log&logNo=120173965001



WRITTEN BY
manager@
Data Analysis, Text/Knowledge Mining, Python, Cloud Computing, Platform

,