Search
😲

카카오가 공개한 자연어 처리 플랫폼: Pororo

작성일
2021/02/20
태그
NLP
작성자
Empty
1 more property
한국어 자연어처리를 위한 데이터셋이나 도구가 부족하던 일도 이젠 옛일이 되어버렸다. 형태소 분석을 위해서 사용되던 라이브러리도 이젠 KoNLPy로 끝나지 않는 시대가 되었고, 2018년 12월 카카오에서 만들어낸 딥러닝 기반의 형태소 분석기 khaii는 굉장히 준수한 성능을 보여주고 있는 상황에서, 카카오가 다시 한 번 자연어 처리와 관련된 파이썬 패키지를 오픈소스로 공개했다.
Pororo는 자연어 처리를 위한 뉴럴 모델 플랫폼이다. 굉장히 넓은 범위의 자연어 처리 Task를 모두 준수한 성능으로 수행할 수 있으며, 다국어를 지원한다.
또한 기존의 범용 자연어 처리 도구에 사용되던 몇몇 머신러닝 모델들을 정확도 측면에서 압도할 수 있는 최신 기술인 Transformer 모델 기반의 모델들 등을 포함하고 있다. 물론 여타 머신러닝 기반 모델들은 연산량 측면에서의 확실한 우위를 가진 경우도 있기에, 벤치마크등은 고려해봐야 할 것 같다.
아래는 기술문서에서 확인할 수 있는 기능들이다.

Text Classification

Automated Essay Scoring (영어)
Age Suitability Prediction (영어)
Natural Language Inference (영어, 한국어, 일본어, 중국어)
Paraphrase Identification (한국어)
Review Scoring (영어 일본어, 중국어, 한국어)
Semantic Textual Similarity (한국어, 영어, 일본어, 중국어)
Sentence Embedding (영어, 한국어, 일본어, 중국어)
Sentiment Analysis (한국어, 일본어)
Zero-shot Topic Classification (한국어, 영어, 일본어, 중국어)

Sequence Tagging

Contextualized Embedding (영어, 한국어, 일본어, 중국어)
Dependency Parsing (한국어)
Fill-in-the-blank (영어, 한국어, 일본어, 중국어)
Machine Reading Comprehension (한국어)
Named Entity Recognition (영어, 한국어, 일본어, 중국어)
Part-of-Speech Tagging (한국어, 일본어, 영어, 중국어)
Semantic Role Labeling (한국어)

SEQ2SEQ

기타

Automatic Speech Recognition (영어, 한국어, 중국어)
Image Captioning (영어)
Collocation (영어, 한국어, 중국어, 일본어)
Lemmatization (영어)
Morphological Inflection (영어, 한국어, 일본어)
Optical Character Recognition (영어+한국어)
Tokenization (*지원하는 모델이 너무 많다)
Word Translation (3564 언어쌍)
Word Embedding (영어, 한국어, 일본어, 중국어)
이와 같은 다양한 Task에 대한 괜찮은 성능의 범용 도구를 이제 누구나 쉽게 사용할 수 있다. 2021년의 머신러닝 연구는 2020년의 머신러닝 연구와는 확연히 달라진 부분이 있는 것 같다. 매년의 시간 속에서 이뤄지는 연구자들의 진척사항이, 커뮤니티의 성장이 정말 눈이 부시고 뒤처지지 않을까 두렵기까지 하다.