ML/AI/SW Developer

Week4(pstage) - day1

1. 개인학습

1.1 Competition with AI Stages!

  • 경진대회를 통한 프로젝트 실습
  • 중요한것!
    • Problem Definition: 문제 정의
      • 내가 지금 풀어야 할 문제는 무엇?
      • 이 문제의 Input과 Output은 무엇?
      • 이 솔루션은 어디서 어떻게 사용되어 지는가?
    • 데이터의 이해(Colums, features, classes, …)
      • 도메인 지식의 이해
  • 등수 보다, 문제를 해결하고 싶은 마음을 가지자
    • 정보들을 공유하자

1.2 EDA & Image Classification

1.2.1 EDA

  • EDA? Exploratory Data Analysis
    • 데이터를 이해하기 위한 노력
    • 어떻게 다루느냐가 결과에 영향을 미친다
  • EDA에서 뭘 해야 하는지?
    • 너무 어렵게 생각하지 말자
    • 내가 궁금한 것을 알아보는 과정
      • 데이터가 실제로 어떻게 생겼나?
      • 특성?
      • 연관관계?
      • 등등…
    • 목적을 확실히

1.2.2 Image Classification

  • 시각적 인식을 표현한 인공물(Artifact)
  • Input + Model = Ouput
    • 생각해보아야 할것?
      • 이미지를 어떻게 가공할 것인가?
      • 이미지를 어떻게 모델에 넣어줄 것인가?
  • Baseline

2. 경진대회 진행

  • EDA
    • 간단한 통계 분석
      • data column 별 unique 값
      • data column 별 count 값
      • 성별 별로, 나이, 인종 그룹핑
      • 여자/남자 별 인종 분포 -> Asian 1개만 존재
      • 여자/남자 별 나이 분포
      • 나이별 성별 통계
    • 상관관계 분석
      • gender / age / class
  • Base 코드만들기
    • data.py
      • 라벨 만드는 코드
      • data_path를 이용해 원하는 index 이미지만 불러오도록 구성
      • Augmentation 적용 - autoaugmentation(transforms.AutoAugmentPolicy.IMAGENET)
    • model.py
      • resnet101 pretrained 모델 불러와서 사용
        • 학습에서 제외-> freeze
      • fc 레이어만 확장
    • train.py
      • 위에서 정의한 두 클래스를 활용해 학습해보기