Programming/(Python)(Ubuntu)
NLP Tools / 자연어처리 툴 소개
$choice
2020. 6. 5. 17:25
출처 : https://github.com/datanada/Awesome-Korean-NLP#11-morpheme%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84%9D%EA%B8%B0---part-of-speechpos%ED%92%88%EC%82%AC-tagger
1. Tools
(Korean-specific tools are listed ahead of language-agnostic tools.)
1.1. Morpheme/형태소 분석기 + Part of Speech(PoS)/품사 Tagger
- Hannanum (한나눔) (Java, C) [link]
- KoNLPy (Python) [link]
- Kkma (꼬꼬마) (Java) [link] [paper]
- KoNLPy (Python) [link]
- Komoran (Java) [link]
- KoNLPy (Python) [link]
- Mecab-ko (C++) [link]
- KoNLPy (Python) [link]
- Twitter (Scala, Java) [link]
- KoNLPy (Python) [link]
- .NET, Node.js, Python, Ruby, Elasitc Search bindings
- dparser (REST API) [link]
- UTagger [link]
- Arirang (Lucence, Java) [link]
- Rouzeta [link] [slide] [video]
- seunjeon (Scala, Java) [link]
- RHINO (라이노) [link]
- KTS [paper]
- 깜짝새 [link]
1.2. Named Entity(NE) Tagger / 개체명 인식기
- annie [link]
1.3. Spell Checker / 맞춤법 검사기
1.4. Syntax Parser / 구문 분석기
1.5. Sentimental Analysis / 감정 분석기
1.6. Translator / 번역기
1.7. Packages
- KoNLP (R) [link]
- KoNLPy (Python) [link] [paper]
- KoalaNLP (Scala) [link]
- NLTK (Python) [link] [paper]
- gensim (Python) [link]
- FastText (C) [link]
- FastText.py (Python) [link]
1.8. Others / 기타
- Hangulpy (Python) [link]
- 자동 조사/접미사 첨부, 자모 분해 및 결합
- Hangulize (Python) [link]
- 외래어 한글 변환
- Hanja (Python) [link]
- 한자 한글 변환
- kroman [link]
- Hangul Romanization
- Ruby, Python, NodeJS, Objective-C, Swift
- hangul (Perl) [link]
- Hangul Romanization
- textrankr (Python) [link] [demo]
- TextRank 기반 한국어 문서 요약
- 한국어 Word2Vec [demo] [paper]
- 한국어 Word2Vec의 analogy test 데모
- 나쁜 단어 사전 [link]
- crowdsourced dic about badword in korean
2. Dataset
- Sejong Corpus [link]
- KAIST Corpus [link]
- Yonsei Univ. Corpus
- Korea Univ. Corpus
- Ulsan Univ. Corpus [link]
- Wikipedia Dump [link] [Extractor]
- NamuWiki Dump [link] [Extractor]
- Naver News Archive [link]
- Chosun Archive [link]
- Naver sentiment movie corpus [link]
- sci-news-sum-kr-50 [link]
3. Blogs / Slides / Researchers
3.1. Blogs
- dsindex's blog [link]
- 엑사젠, "혼자 힘으로 한국어 챗봇 개발하기" [link]
- Beomsu Kim, "word2vec 관련 이론 정리" [link]
- CPUU, "Google 자연어 처리 오픈소스 SyntaxNet 공개" (Korean tranlsation of Google blog) [link]
- theeluwin, "python-crfsuite를 사용해서 한국어 자동 띄어쓰기를 학습해보자" [link]
- Jaesoo Lim, "한국어 형태소 분석기 동향" [link]
3.2. Slides
- Lucy Park, "한국어와 NLTK, Gensim의 만남" (PyCon APAC 2015) [link]
- Jeongkyu Shin, "Building AI Chat bot using Python 3 & TensorFlow" (PyCon APAC 2016) [link]
- Changki Lee, "RNN & NLP Application" (Kangwon Univ. Machine Learning course) [link]
- Kyunghoon Kim, "뉴스를 재미있게 만드는 방법; 뉴스잼" (PyCon APAC 2016) [link]
- Hongjoo Lee, "Python 으로 19대 국회 뽀개기" (PyCon APAC 2016) [link]
- Kyumin Choi,"word2vec이 추천시스템을 만났을 때" (PyCon APAC 2015) [link]
- 進藤裕之 (translated by Hongbae Kim), "딥러닝을 이용한 자연어처리의 연구동향" [link]
- Hongbae Kim, "머신러닝의 자연어 처리기술(I)" [link]
- Changki Lee, "자연어처리를 위한 기계학습 소개" [link]
- Taeil Kim, Daeneung Son, "기계 번역 모델 기반 질의 교정 시스템" (Naver DEVIEW 2015) [link]
4. Papers
4.1. Korean
김동준, 이연수, 장정선, 임해창, 고려대학교, (주)엔씨소프트, "한국어 대화 화행 분류를 위한 어휘 자질의 임베딩(2015년 동계학술발표회 논문집)" [paper]link dead
4.2. English
5. Lectures
5.1. Korean Lectures
5.2. English Lectures
- Stanford CS224n: Natural Language Processing [link] [YouTube]
- Stanford CS224d: Deep Learning for Natural Language Processing [link] [YouTube]
- NLTK with Python 3 for NLP (by Sentdex) [YouTube]
- LDA Topic Models [link]
6. Conferences / Institutes / Events
6.1. Conferences
6.2. Institutes
6.3. Events / Contests
- 국어 정보 처리 시스템 경진 대회 [link]
7. Online Communities
- Tensorflow KR (Facebook Group) [link]
- AI Korea (Facebook Group) [link]
- Bot Group (Facebook Group) [link]
- 바벨피쉬 (Facebook Group) [link]
- Reddit Machine Learning Top posts [link]
8. How to contribute
-
Fork this Repository, by clicking on "fork" icon at the top right corner.
-
Get the link for the forked repo, by clicking on the green button on your page. something like, "https://github.com/[username]/Awesome-Korean-NLP.git"
-
On your local machine, "git clone https://github.com/[username]/Awesome-Korean-NLP.git"
-
"cd Awesome-Korean-NLP"
-
open "README.md" with your favorite text editor.
-
Edit.
-
git commit -a -m "added section 8: emoticons"
-
git push, and verify on your fork
-
goto https://github.com/datanada/Awesome-Korean-NLP and create pull request.
-
"compare across forks" with base: datanada/Awesome.. and head: [username]/Awesome..
반응형