Neural Network Architecture and Hyperparameters
- 그래서 Gradient Vanishing 문제가 발생함
원래 X값이 너무 높거나 너무 낮은 경우, 기울기가 0에 가까워 가중치 업데이트가 반영이 안 됨
= 훈련이 안 됨
기타등등 Activation Funcitons
C_4.01 Activation Functions : Leaky ReLU, Mish
## Activation Functions : Sigmoid, tanh, ReLU, Leaky ReLU, PReLU, ELU, Threshold ReLU and Softmax b…
wikidocs.net









Uniform distribution으로 weight 초기화 → weight 범위 0 to 1

Empirical : frozen initial layer, layer을 layer출력에 가깝게 fine-tune