https://wikidocs.net/book/2788
→ 자연어와 관련이 있는 프로젝트의 경우 무조건 알고 있어야 하는 알고리즘
: 단어에 빈도값을 부여해 피처값을 추출하는 모델
→ 행렬로 만드는 것이 포인트
: BOW의 피처 벡터화 방식 중 하나
: 자주 쓰이는 단어에 높은 가중치 부여 + 자주 나타나는 단어에 패널티
단어 + 문맥을 고려하는 방식
희소행렬 : 행렬에서 대부분의 값이 0으로 채워지는 행렬
→ (단점) 메모리 대용량 차지
: 연속된 N개의 단어를 하나의 토큰화 단위로 분리해 내는 것.
→ 단어별로 분리를 한 것