이론

https://wikidocs.net/book/2788

Transformer 알고리즘 (2017)

→ 자연어와 관련이 있는 프로젝트의 경우 무조건 알고 있어야 하는 알고리즘

Bag of Words ; BOW

: 단어에 빈도값을 부여해 피처값을 추출하는 모델

→ 행렬로 만드는 것이 포인트

image.png

TF/IDF 기반의 벡터화

: BOW의 피처 벡터화 방식 중 하나

: 자주 쓰이는 단어에 높은 가중치 부여 + 자주 나타나는 단어에 패널티

단어 + 문맥을 고려하는 방식

https://wikidocs.net/31698

BOW 벡터화를 위한 희소 행렬

희소행렬 : 행렬에서 대부분의 값이 0으로 채워지는 행렬

→ (단점) 메모리 대용량 차지

N-gram

: 연속된 N개의 단어를 하나의 토큰화 단위로 분리해 내는 것.

→ 단어별로 분리를 한 것