ML/AI/SW Developer

Week11(pstage) - Day4

1. 개인학습

2. 훈민정음에 스며들다 대회 진행

  • Fine tuning 코드 완성 및 Inference 코드 완성 (로컬 주피터 상에서 테스트)
  • 데이터 전처리 해서 pretraining 다시해보기
    • 띄어쓰기 검사
    • 불필요한 글자 제거 (이모티콘, 반복되는 ㅋㅋㅋㅋ ㅠㅠㅠㅠ 와 같은 글자들) -> tokenizer도 재학습 필요
    • 맞춤법 검사 - 카카오톡 채팅을 데이터화 한 것이 때문에 문법에 맞지않는 글자, 신조어, 줄임말들이 많음 // 하지만 1시간 안에 inference를 해야하기 때문에 사용이 가능한지는 알아보아야 할 것 같다.

3. MRC 대회 진행

  • base code / Roberta-large 성능 확인 하기 -> GPU가 없어서 못할 수 도 있다.
    • token_type_ids = False 해주는 것 잊지 말기!!
  • retrieval 팀과 reader 팀으로 나누어도 좋을 것 같음
    • 각각 맡은 부분을 연구/앙상블
    • retrieval - faiss/sparse/dense 임베딩 등 다양한 방법(앙상블, 전처리, 후처리 등)으로 최적의 문서 검색 알고리즘 연구
    • reader - 다양한 pretrained 모델을 custom, 앙상블, 전처리, 후처리, 추론방법(extractive, generative 동시학습, 앙상블 등)으로 최적의 답을 찾는 모델 연구