KyungHyun Lim

ML/AI/SW Developer

NLP basic

Sep 6, 2021

Major conference: ACL, EMNLP, NAACL
Low-level parsing
- Tokenization
- Stemming
Word & Pharase level
- Named entity recognition(NER)
- Part-of-speech(POS) tagging
- Noun-phrase chuking
- Dependency parsing
- Corefernece resolution
Sentence level
- Sentiment analysis
- Machine translation
Multi-sentence and paragraph level
- Entailment prediction
- Question answering
- Dialog system
- Summarization

Major conference: SIGIR, WSDM, CIKM, RecSys
Compuational social science과 높은 연관
- 현시점 활발하게 연구되고 있지는 않음
- 추천 시스템의 진화 버전 (자동화된 검색시스템)

step 1. 단어들(words)의 유니크 set을 담고있는 단어장(vocabulary) 생성
- E.g “I am a boy”, “I am a girl”
- => {I, am, a, boy, girl}
step 2. 각 단어를 one-hot vector로 변경
- 어떤 단어 pair도 거리는 $\sqrt2$
- cosine similarity = 0
- E.g
  - I: [1 0 0 0 0]
  - am: [0 1 0 0 0]
  - a: [0 0 1 0 0]
  - boy: [0 0 0 1 0]
  - girl: [0 0 0 0 1]
setp 3. Bag-of-Words vector
- 포함된 단어들의 one-hot vector 합
- E.g
  - “I am a boy” $\rightarrow$ [1 1 1 1 0]
  - “I am a girl” $\rightarrow$ [1 1 1 0 1]