카테고리 없음

[자연어처리] 어텐션 메커니즘 (Attention Mechanism)

o_onn5 2023. 2. 21. 18:00

728x90

seq2seq 모델의 문제 2가지

앞서 배운 seq2seq 모델에는 문제점이 있었습니다.

첫째, 하나의 고정된 크기의 벡터에 모든 정보를 압축하려고 하니까 정보 손실이 발생합니다.
둘째, RNN의 고질적인 문제인 기울기 소실(vanishing gradient) 문제가 존재합니다.

seq2seq의 대안 어텐션 메커니즘

어텐션 메커니즘의 아이디어는 다음과 같습니다.

디코더에서 출력 단어를 예측하는 매 시점(time step)마다, 인코더에서의 전체 입력 문장을 다시 한 번 체크를 해줍니다.

이때 해당 time step에서 예측해야할 단어와 가장 연관성이 높은 입력 단어를 더 집중(attention)해서 봅니다.

아래 그림을 통해서 전체적인 어텐션 메커니즘을 이해해봅시다.

i am a student → je suis étudiant 로 번역

디코더의 세 번째 LSTM 셀에서 출력 단어를 예측할 때, 어텐션 메커니즘이 동작하는 과정입니다.

세 번째 디코더에서 출력할 단어를 예측하기 위해서 입력 문장을 다시 한 번씩 체크합니다.

아까 위에서 연관성이 높은 단어를 더 집중해서 본다고 언급했습니다. 이 연관성을 알아내기 위해서 입력 단어가 예측에 도움이 되는 정도를 softmax로 수치화를 시킵니다. 디코더의 예측에 도움이 되는 정도가 수치화하여 측정되면 하나의 정보로 담아서 디코더로 다시 전송됩니다. 위 그림의 초록색 세모가 이에 해당합니다.

1) 어텐션 스코어 구하기

이전에 seq2seq에서 t 시점의 디코더는 입력값으로 t-1 시점의 은닉 상태와 t-1 시점에서 나온 출력 단어, 이렇게 2개를 입력 받았었습니다. 그러나 어텐션 메커니즘에서는 출력을 위해 앞에 2개와 함께 어텐션 값(Attention value)을 추가로 받아야합니다. 이 어텐션 값을 알아보기 이전에 어텐션 스코어를 먼저 알아보겠습니다,

어텐션 스코어(Attention score)는 t 시점의 출력 단어를 예측하기 위해서 인코더의 모든 은닉 상태가 디코더의 t 시점의 은닉 상태와 얼마나 유사한지에 대한 스코어 값입니다.

참고로 현재 설명하는 어텐션 메커니즘은 닷-프로덕트 어텐션입니다. 해당 어텐션 메커니즘에서는 어텐션 스코어값을 구하기 위해 내적(dot product)을 수행합니다.

우선 아래 사진과 같이 인코더와 디코더의 은닉 상태 벡터들이 있다고 합시다.