ML/AI/SW Developer

BERT 언어모델 소개 및 학습 with 한국어

1. BERT 언어모델

1.1 Intro

  • Seq2Seq의 단점을 보완하기 위해 Seq2Seq + Attention, 최신 모델인 transformer로 발전중
  • GPT-1 $\rightarrow$ BERT $\rightarrow$ GPT-2 순으로 모델 제안
  • BERT
    • [CLS] token은 sentence의 모든 정보가 담김
    • Masked Language Model
  • Dataset
    • GLUE data, task
    • SQuAD v1.1 질의응답
    • CoNLL 2003 개체명 분류
    • SWAG 다음에 이어질 자연스러운 문장 선택

1.2 BERT 응용

  • 감정 분석

  • 관계 추출

  • 의미 비교

  • 개체명 분석

  • 기계 독해

1.3 한국어 BERT 모델

  • ETRI
    • 형태소단위로 분리 후, Word piece 적용
  • 스캐터랩
  • Advanced BERT model
    • 중요한 정보에 따라 전처리를 잘 해주는 것이 중요

2. BERT 기반 단일 문장 분류 모델

3. BERT Special Token 추가하기

# 추가 하고 싶은 Special token dict 정의
special_tokens_dict = {'additional_special_tokens': ['[C1]','[C2]','[C3]','[C4]']}
# tokenizer에 더해주기
num_added_toks = tokenizer.add_special_tokens(special_tokens_dict)
# 모델도 늘려줘야함!
model.resize_token_embeddings(len(tokenizer))