COO

    [NLP] 피처백터화 / 희소행렬

    2022.04.30 - [python/파이썬 머신러닝 완벽가이드] - [python] NLP 기초, 텍스트 전처리의 모든 것 [python] NLP 기초, 텍스트 전처리의 모든 것 텍스트 분석은 단어마다 쪼개는게 상당히 어렵고, 내 나름대로 진입장벽이 꽤 높다고 생각해서 쉽게 도전하지 못했던 분야였다. 이번에 데이콘 NLP대회에 경험삼아 참가해서 여러 코드도 참고해 coding-potato.tistory.com 앞서는 NLP의 전반적인 설명과 텍스트 클렌징, 토큰화, 스톱워드 제거, Stemming/Lemmatization 에 대하여 개괄적으로 살펴보았다. 이번은 전처리된 텍스트를 어떤 방식으로 피처화를 진행하는지 살펴본다. 또한 단어를 피처화하게 되면 0값을 갖는 단어들이 무수히 많이 발생하게 되는데 ..