Week11(pstage) - Day4
1. 개인학습
2. 훈민정음에 스며들다 대회 진행
- Fine tuning 코드 완성 및 Inference 코드 완성 (로컬 주피터 상에서 테스트)
- 데이터 전처리 해서 pretraining 다시해보기
- 띄어쓰기 검사
- 불필요한 글자 제거 (이모티콘, 반복되는 ㅋㅋㅋㅋ ㅠㅠㅠㅠ 와 같은 글자들) -> tokenizer도 재학습 필요
- 맞춤법 검사 - 카카오톡 채팅을 데이터화 한 것이 때문에 문법에 맞지않는 글자, 신조어, 줄임말들이 많음 // 하지만 1시간 안에 inference를 해야하기 때문에 사용이 가능한지는 알아보아야 할 것 같다.
3. MRC 대회 진행
- base code / Roberta-large 성능 확인 하기 -> GPU가 없어서 못할 수 도 있다.
- token_type_ids = False 해주는 것 잊지 말기!!
- retrieval 팀과 reader 팀으로 나누어도 좋을 것 같음
- 각각 맡은 부분을 연구/앙상블
- retrieval - faiss/sparse/dense 임베딩 등 다양한 방법(앙상블, 전처리, 후처리 등)으로 최적의 문서 검색 알고리즘 연구
- reader - 다양한 pretrained 모델을 custom, 앙상블, 전처리, 후처리, 추론방법(extractive, generative 동시학습, 앙상블 등)으로 최적의 답을 찾는 모델 연구