Generative Models


Generative Models



  • What I can not create, I do not understand

https://deepgenerativemodels.github.io/

Introduction


  • What does it mean to learn a generative model
  • generative model은 단순히 생성모델이 아니다

Suppose we have some images of dogs

We want to learn a probability distribution p(x) such that

  • Generation : If we sample xnew ~ p(x), xnew should look like a dog

    • implicit models
  • Density estimation :p(x) should be high if x look like a dog (어떤이미지의 확률을 계산함)

    이건 마치 image classification

    • explicit models
  • Unsupervised representation learning

    특정 image가 어떤 특징을 가지고있는지를 학습

Read more

RNN1



RNN



Sequence Data & Model


  • 소리, 주가, 문자열 등의 데이터를 시퀀스 데이터로 분휴합니다

  • 시계열 데이터는 시간순서에 따라 나열된 데이터로 시퀀스 데이터에 속한다

  • 독립동등분포 가정을 잘 위해하기 때문에 순서를 바꾸거나 과거정보에 손실이 발생하면 데이터의 확률분포도 바뀌게 된다

  • Markov model : first order autoregressive model

  • 이들의 문제를 해결하기 위해 Latent autoregressive model

    hidden state가 과거의 정보들을 summerize한다

Read more

RNN2



Transformer


Sequential Model


image-20210204173823314

위와 같은 문제로, RNN같이 sequential한 문제들을 해결할 때, 중간에 단어가 빠지거나 하면 해결하기가 어려움

—> 여기서 나온게 Attention을 사용한 Transformer

Read more

CNN1



CNN


Convolution 연산 이해하기

  • 지금까지 배운 MLP는 fully connected. 가중치 행들이 i번째 위치마다 필요해서 i가 커지면 가중치 행렬의 크기가 커지게 됨

    image-20210202134359041

  • 우리가 이제부터 볼 Convolution 연산은 커널이라는 고정된 가중치 행렬을 사용하여 고정된 커널을 입력벡터에서 옮겨가며 적용

    image-20210202134617666

  • x라는 입력벡터 상에서 커널사이즈 만큼 움직여 가며 연산

Read more

Computer Vision application


Computer Vision application


Fully Convolutional Network

  • 기존의 CNN 구조 : image-20210203184815070
  • Fully Convolutional Network : image-20210203184859006

Dense layer를 없앴다. - > convolutionize

결국 input과 output은 같다

parameter도 같다

flat을 해서 dense layer를 거치나, convolution을 거치나 같다

ex) 4x4x16 이 였다면 이걸 256개의 vector로 flatten 시킨다

​ FCN을 보면 4x4x16에 똑같은 크기를 가진 kernel을 적용한다

parameter

4x4x16x10 = 2560

4x4x16x10 = 2560

같다

Read more

Optimization


1. Optimization

  • 용어들의 명확한 정리가 필요

Concept of Optimization

  • Generalization
  • Under fitting vs Over fitting
  • Cross Validation
  • Bias-varience tradeoff
  • Bootstraping
  • Bagging and Boosting
Read more

확률론2

Day10 : 확률론2

모수란?

  • 통계적 모델링은 적절한 가정위에서 확률분포를 추정하는것이 목표!

  • 데이터는 유한하기 때문에 근사적으로 확률분포를 추정할 수 밖에 없다

  • 데이터가 특정확률분포를 따른다고 선험적으로 가정한 후 그분포를 결정하는 모수(parameter)를 추정하는 방법을 모수적 방법론이라고 한다

  • 특정확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수방법론이다

Read more

확률론1

Day9 : 확률론 맛보기

확률론

  • 딥러닝은 확률론 기반의 기계학습 이론에 바탕을 두고 있다.
  • 손실함수의 작동원리가 데이터 공간을 확률, 통계적으로 해석
  • 회귀분석에서 Loss function : L2 norm 예측오차의 분산을 최소화
  • Classification에서 Loss function : CrossEntropyLoss : 모델예측의 불확실성을 최소화 하는 방향

이들의 Loss를 최소화 하기위해서는 측정하는법을 알아야함 : 이게 바로 확률론

Read more

Pandas & 딥러닝 학습방법

pandas

  • 구조화된 데이터의 처리를 지원하는 파이썬 라이브러리
  • panel data -> pandas

가로줄은 instance, row

data table은 모든 data가 담겨 있는 sample

column은 각각의 feature이름들, data.columns하면 이름들을 각각 지정해 줄 수 있음

feature vector, 각 feature에 해당하는 vector

data는 각각의 값

head는 앞에 5개 출력

Read more

Gradient

Gradient관련

경사하강법

경사 상습/경사하강법은 극값에 도달시 움직임을 멈춘다

Read more