ML/AI/SW Developer

Week9(pstage) - Day5

1. 개인학습

2. 피어세션

3. KLUE 대회진행

  • EDA
    • 라벨링 수정, 특이한 entity 수정하기
    • Noise 검수 목표 no-relation 전부(약 30% 문장?)
  • Augmentation 전략
    • 인간지능 사용 -> 직접 문장보고 추가
    • MASK나 UNK 토큰 사용?
    • Easy Data Augmentation
      • 동의어 변경
      • 임의의 단어 삽입
      • 임의의 두 단어의 위치를 스왑
      • 문장 내의 임의의 단어를 삭제
  • 학습전략
    • Entity 유무 임베딩
    • Two step 구현하기
      • first model: 관계가 있음 없음 분류
      • seconde model: 관계가 있다고 판단된 데이터 분류
      • 해야될 것
        • first model, seconde model에 맞는 라벨 생성
        • label_to_num 맵핑 방식도 변경이 필요할 수 있음
        • 추론 방식 변경

4. DAYCON 예선 진행

  • https://github.com/seujung/KoBART-summarization 활용 fine-tunning 진행
    • Epoch 0보다 Epoch 1에서 성능 향상
      • 요약문에 이메일, 전화번호 등이 남아 있음
      • 전처리는 적용하지 않는 것이 좋은가? - EDA 심화 필요?
    • Epoch 3 weight 적용
  • EDA가 중요하다
    • 학습에 사용할 수 없는 퀄리티의 데이터
      • 매칭이 안되는 요약문
      • 본문보다 긴 요약문
    • 전처리가 필요없을 수도 있다
      • 라벨을 잘보자!
      • 요약문에 특수문자, 이메일, 전화번호 등이 남아 있었음