NLP
[NLP] pipeline을 활용한 직관적인 코드짜기!
2022.05.02 - [python/파이썬 머신러닝 완벽가이드] - [python] NLP 피처백터화 / 희소행렬 [python] NLP 피처백터화 / 희소행렬 2022.04.30 - [python/파이썬 머신러닝 완벽가이드] - [python] NLP 기초, 텍스트 전처리의 모든 것 [python] NLP 기초, 텍스트 전처리의 모든 것 텍스트 분석은 단어마다 쪼개는게 상당히 어렵고, 내 나름대로 coding-potato.tistory.com ** 본 포스팅은 앞선 글과 이어집니다! sklearn의 pipeline 클래스를 활용하면 피처 백터화와 ML알고리즘 학습/예측을 위한 코드 작성을 한 번에 진행할 수 있다. 이는 수행시간을 절약해주어 더욱 효과적인 코드를 작성하도록 도와준다!! Pipeline..
[NLP] 피처백터화 / 희소행렬
2022.04.30 - [python/파이썬 머신러닝 완벽가이드] - [python] NLP 기초, 텍스트 전처리의 모든 것 [python] NLP 기초, 텍스트 전처리의 모든 것 텍스트 분석은 단어마다 쪼개는게 상당히 어렵고, 내 나름대로 진입장벽이 꽤 높다고 생각해서 쉽게 도전하지 못했던 분야였다. 이번에 데이콘 NLP대회에 경험삼아 참가해서 여러 코드도 참고해 coding-potato.tistory.com 앞서는 NLP의 전반적인 설명과 텍스트 클렌징, 토큰화, 스톱워드 제거, Stemming/Lemmatization 에 대하여 개괄적으로 살펴보았다. 이번은 전처리된 텍스트를 어떤 방식으로 피처화를 진행하는지 살펴본다. 또한 단어를 피처화하게 되면 0값을 갖는 단어들이 무수히 많이 발생하게 되는데 ..
[NLP] NLP 기초, 텍스트 전처리의 모든 것
텍스트 분석은 단어마다 쪼개는게 상당히 어렵고, 내 나름대로 진입장벽이 꽤 높다고 생각해서 쉽게 도전하지 못했던 분야였다. 이번에 데이콘 NLP대회에 경험삼아 참가해서 여러 코드도 참고해서 따라해보고 적용해봐야겠다는 생각에 기초부터 다지자!! 결심했다. [파이썬 머신러닝 완벽가이드]에서 나오는 텍스트분석은 어떤 프로세스로 분석을 전개해가야 하는지 틀을 잡을 수 있게 도와주었다. 텍스트 분석 수행 프로세스 1) 텍스트 사전 준비작업 ( 텍스트 전처리 ) : 텍스트를 피처로 만들기 전, 미리 클렌징, 대/소문자 변경, 특수문자 삭제, 단어토큰화 작업, 스탑워드 제거, 어근추출 등의 텍스트 정규화를 진행 2) 피처 백터화/추출 : 사전 준비작업으로 가공된 텍스트에서 피처를 추출하고, 이에 백터값 할당 => B..