모델에 학습을 시켰지만 정작 테스트 할 때 모르는 단어가 나오면 문제를 해결하는 데 힘들어질 수 밖에 없다. 이러한 상황을 OOV(Out-of-Vocabulary) 문제라고 한다. OOV의 문제를 최소화하기 위해서 하나의 단어를 여러 서브워드로 분리하는 작업을 하는 데 이를 서브워드 분리(Subword segmentation)이라고 한다. ex) birthplace = birth + place 대표적인 서브워드 분리 알고리즘인 BPE에 대해 알아보자. BPE(Byte Pair Encoding) BPE는 기본적으로 데이터 압축 알고리즘이다. 간단한 작동 방법에 대해 알아보자. 아래와 같은 문자열이 주어졌다고 하자. aaabdaaabac aa가 반복되어 나온다. aa를 Z로 치환하자. ZabdZabac ab..