💡 참고 교재 : 한국어 임베딩
: 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 나눈 결과 / 과정
단어/문장 → 벡터 → 벡터 공간으로 끼워넣는다.
가장 간단한 임베딩 = 단어 빈도를 v(벡터)로 사용
단어-문장 간 관련도 계산 : 가장 대표적인게 Word2Vec(단어를 벡터로) : 형태소분석 → 학습
단어를 v로 임베딩 하는 순간, 단어 벡터간 유사도 계산 가능
의미적/문법적 정보 함축 : ****벡터는 +, - 가능 → 단어간 의미/문법적 관계 도출 가능
전이 학습 : 얘네로 다른 모델 만들기 (인간도 무언가를 배울 때 0부터 시작하지 않듯이)
단어-문서 행렬이 있을 때 아래와 같은 sparse matrix(0이 엄청 많음)가 있다고 하자.
문서1 | 문서2 | … | |
---|---|---|---|
단어1 | |||
단어2 | |||
… |
단어 수준 임베딩
문서1 | 문서2 | … | |
---|---|---|---|
주제1 | |||
주제2 | |||
… |
: 단어의 문맥적 의미 함축 / 단점 : 동음이의어 분간 어려움