Week12(pstage) - Day3
1. 개인학습
2. 훈민정음에 스며들다 대회 진행
- DAYCON inference 오류 수정
- 리더보드 1등 분의 ROUGE-L 점수가 0.1이었는데, 이것도 통계적으로 분석을 하셔서 자주나오는 끝부분 (E.g 했다. 하기로 했다. 이야기하고 있다. 등등) 으로 답을 fix해서 냈을 때라고 이슈에 공유를 해주셨다. 그래서 이슈화가 되었고, 저는 입력과 요약간의 구어체-문어체라는 괴리가 있어서 잘 안나오는 구나 했는데, 대회측에서 평가코드를 검증을 했고 예측과 답이 제대로 매칭되지 않아 채점이 제대로 되지 않고 있었다고 공지해주셨다.
- 전처리 및 special token 변경
- 대화 요약문에, 대화가 아닌 사진, 동영상, 이모티콘 등 여러 기능들과 개인 정보가 될 수 있는 단어들이 #@사진@, #@이름@ 이런식으로 마스킹이 되어있었기 때문에, 이부분들을 전부 special token으로 취급하기로 결정했다. 이러한 entity들은 요약을 위해 어떤 의미를 갖지 않기 때문에(요약문에 나타나지 않음) 토큰화 된다면 오히려 노이즈가 될 것이라고 판단했기 때문이다. 팀원들이 이러한 마스킹들을 잘 찾아주셔서 쉽게 적용할 수 있었다.
3. MRC 대회 진행
- 동시에 대회를 2개 진행한다는 것이 쉽지 않은 일인 것 같다. 논문으로 공부만 하고 가슴 한켠에 묻어 두고 있다.