크게 생각하고, 목표를 높게 잡고, 대담하게 행동하라.

“언젠가는 목표에 이를지도 모르는 단계를 밟는 것으로는 언제나 실패한다. 모든 단계가 그 자체로 목표인 동시에 목표로 이르는 단계여야한다.” - 괴테

728x90

자연어처리 2

[자연어처리] Word2Vec, Skip-gram

Word2Vec 워드투벡터(Word2Vec)이란 각 단어의 벡터 간 유사도를 측정하기 위한 방법이다. Word2Vec의 학습방식에는 CBOW(ContinuousBagofWords)와 Skip‑Gram 두 가지 방식이 있다. CBOW: 주변 단어들을 입력으로 중간에 있는 단어들을 예측 Skip‑Gram: 중간에 있는 단어들을 입력으로 주변 단어들을 예측 CBOW CBOW는 주변 단어들을 입력으로 받고 중간에 있는 단어를 예측한다. 중심 단어로부터 주변 단어를 앞, 뒤로 몇개 볼지 정해야하는데 이 범위를 윈도우(window)라고 한다. 위 예시에서는 window의 크기가 2인 셈이다. 우선 CBOW는 입력으로 주변 단어의 원-핫 벡터가 들어가게 된다. 그리고 입력층은 가중치 W와 곱해져서 투사층(Projec..

AI/자연어 처리 2023.02.13

[자연어 처리] 코사인 유사도(Cosine Similarity)

문장의 유사도를 구하기 위해서 다양한 유사도 기법을 사용한다. 그 중 코사인 유사도에 대해 알아보자. 코사인 유사도 코사인 유사도는 두 벡터의 코사인 각도로 구할 수 있다. 두 벡터의 각도가 0°인 경우는 1 90°인 경우는 0 180°로 반대의 방향을 가지면 -1 코사인 유사도는 -1과 1사이의 값을 갖게 되며 1에 가까울수록 유사도가 높다고 말할 수 있다. 아래 식은 코사인 유사도를 식으로 표현한 것이다. 활용 코사인 유사도 구하기 # overview열에 대한 TF-IDF 행렬 구하기 tfidf = TfidfVectorizer(stop_words='english') tfidf_matrix = tfidf.fit_transform(data['overview']) print('TF-IDF 행렬의 크기(sh..

AI/자연어 처리 2023.02.09
728x90