o_onn5

크게 생각하고, 목표를 높게 잡고, 대담하게 행동하라.

“언젠가는 목표에 이를지도 모르는 단계를 밟는 것으로는 언제나 실패한다. 모든 단계가 그 자체로 목표인 동시에 목표로 이르는 단계여야한다.” - 괴테

728x90

자연어처리 2

Word2Vec 워드투벡터(Word2Vec)이란 각 단어의 벡터 간 유사도를 측정하기 위한 방법이다. Word2Vec의 학습방식에는 CBOW(ContinuousBagofWords)와 Skip‑Gram 두 가지 방식이 있다. CBOW: 주변 단어들을 입력으로 중간에 있는 단어들을 예측 Skip‑Gram: 중간에 있는 단어들을 입력으로 주변 단어들을 예측 CBOW CBOW는 주변 단어들을 입력으로 받고 중간에 있는 단어를 예측한다. 중심 단어로부터 주변 단어를 앞, 뒤로 몇개 볼지 정해야하는데 이 범위를 윈도우(window)라고 한다. 위 예시에서는 window의 크기가 2인 셈이다. 우선 CBOW는 입력으로 주변 단어의 원-핫 벡터가 들어가게 된다. 그리고 입력층은 가중치 W와 곱해져서 투사층(Projec..

AI/자연어 처리 2023.02.13

[자연어 처리] 코사인 유사도(Cosine Similarity)

문장의 유사도를 구하기 위해서 다양한 유사도 기법을 사용한다. 그 중 코사인 유사도에 대해 알아보자. 코사인 유사도 코사인 유사도는 두 벡터의 코사인 각도로 구할 수 있다. 두 벡터의 각도가 0°인 경우는 1 90°인 경우는 0 180°로 반대의 방향을 가지면 -1 코사인 유사도는 -1과 1사이의 값을 갖게 되며 1에 가까울수록 유사도가 높다고 말할 수 있다. 아래 식은 코사인 유사도를 식으로 표현한 것이다. 활용 코사인 유사도 구하기 # overview열에 대한 TF-IDF 행렬 구하기 tfidf = TfidfVectorizer(stop_words='english') tfidf_matrix = tfidf.fit_transform(data['overview']) print('TF-IDF 행렬의 크기(sh..

AI/자연어 처리 2023.02.09

728x90

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

o_onn5

자연어처리 2

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역