Week9(pstage) - Day5
1. 개인학습
2. 피어세션
3. KLUE 대회진행
- EDA
- 라벨링 수정, 특이한 entity 수정하기
- Noise 검수 목표 no-relation 전부(약 30% 문장?)
- Augmentation 전략
- 인간지능 사용 -> 직접 문장보고 추가
- MASK나 UNK 토큰 사용?
- Easy Data Augmentation
- 동의어 변경
- 임의의 단어 삽입
- 임의의 두 단어의 위치를 스왑
- 문장 내의 임의의 단어를 삭제
- 학습전략
- Entity 유무 임베딩
- Two step 구현하기
- first model: 관계가 있음 없음 분류
- seconde model: 관계가 있다고 판단된 데이터 분류
- 해야될 것
- first model, seconde model에 맞는 라벨 생성
- label_to_num 맵핑 방식도 변경이 필요할 수 있음
- 추론 방식 변경
4. DAYCON 예선 진행
- https://github.com/seujung/KoBART-summarization 활용 fine-tunning 진행
- Epoch 0보다 Epoch 1에서 성능 향상
- 요약문에 이메일, 전화번호 등이 남아 있음
- 전처리는 적용하지 않는 것이 좋은가? - EDA 심화 필요?
- Epoch 3 weight 적용
- EDA가 중요하다
- 학습에 사용할 수 없는 퀄리티의 데이터
- 전처리가 필요없을 수도 있다
- 라벨을 잘보자!
- 요약문에 특수문자, 이메일, 전화번호 등이 남아 있었음