Sequence to sequence with Attention

Sequence to sequence


\

Seq2Seq Model

Ex) Are you free tomorrow?

image-20210217110021239

서로 paramter를 share하지 않는 2개의 별개의 RNN model을 (보통 LSTM) 쓴다. 각각의 RNN을 Decoder, Encoder로 사용한다.

Encoder의 마지막단의 output을 vertorize 시켜준후 decoder의 input에는 SOS token, hidden state에는 encoder의 output을 넣어준다.

Read more

RNN심화1


RNN

서로다른 time step에서 들어오는 입력 데이터를 처리할때, 매번 반복되는 동일한 rnn module을 호출한다.image-20210216103443317

image-20210216103929384

각 단어별로 품사를 예측해야 되는 경우 -> 매 time step마다 y를 output으로

어떠한 문장의 긍부정을 판별하는 경우 -> 최종 time step의 y만이 output으로

모든 time step에서 같은 parameter W를 공유한다

Read more

RNN1



RNN



Sequence Data & Model


  • 소리, 주가, 문자열 등의 데이터를 시퀀스 데이터로 분휴합니다

  • 시계열 데이터는 시간순서에 따라 나열된 데이터로 시퀀스 데이터에 속한다

  • 독립동등분포 가정을 잘 위해하기 때문에 순서를 바꾸거나 과거정보에 손실이 발생하면 데이터의 확률분포도 바뀌게 된다

  • Markov model : first order autoregressive model

  • 이들의 문제를 해결하기 위해 Latent autoregressive model

    hidden state가 과거의 정보들을 summerize한다

Read more

RNN2



Transformer


Sequential Model


image-20210204173823314

위와 같은 문제로, RNN같이 sequential한 문제들을 해결할 때, 중간에 단어가 빠지거나 하면 해결하기가 어려움

—> 여기서 나온게 Attention을 사용한 Transformer

Read more