본문 바로가기
공부기록/[PyTorch]

Introduction to Deep Learning with PyTorch - [Chapter 3]

by RiverWon 2024. 4. 14.

Neural Network Architecture and Hyperparameters

- 그래서 Gradient Vanishing 문제가 발생함

원래 X값이 너무 높거나 너무 낮은 경우, 기울기가 0에 가까워 가중치 업데이트가 반영이 안 됨

= 훈련이 안 됨

 

기타등등 Activation Funcitons

https://wikidocs.net/163752

 

C_4.01 Activation Functions : Leaky ReLU, Mish

## Activation Functions : Sigmoid, tanh, ReLU, Leaky ReLU, PReLU, ELU, Threshold ReLU and Softmax b…

wikidocs.net


 

 

 



Uniform distribution으로 weight 초기화 → weight 범위 0 to 1

Empirical : frozen initial layer, layer을 layer출력에 가깝게 fine-tune