Non-linear Activation Function
과제 중 조사했던 비선형 활성화 함수의 사용 정리
1. 비선형 activation function을 통한 vanishing gradient 해결
ReLU activation function(Rectifed Linear Unit)은 이러한 vanishing gradient 문제를 activation function으로 해결 한다. x가 0보다 작을땐 0을, 0보다 클 땐 그 값을 그대로 출력(y=x)함으로써 vanishing gradient 문제를 해결한다. 따라서 함수식은 ReLU(x) = max(0,x) 가 되고 도함수는 0또는 1이 된다.
2. Activation function의 정의와 역할
뉴럴네트워크를 생물학적 뉴런에 빗대어서 볼 때 활성화 함수는 최종출력 신호를 다음 뉴런으로 보내줄 지 말지 결정하는 역할을 하는 thread function이다. 이 때 함수를 선형함수를 사용하게 되면 층을 깊게 쌓는 의미가 줄어들기 때문에 activation function은 비선형 함수를 사용한다. 따라서 뉴럴네트워크에서 층 을 쌓는 이점을 얻으려면 비선형 활성화함수를 사용해야한다.
추가) sigmoid function에서 vanishing gradient
References
https://seongkyun.github.io/study/2019/03/31/vanishing_gradient/
https://ganghee-lee.tistory.com/41
반응형
'🤖 Today-I-Learned ] > Deep Learning' 카테고리의 다른 글
당근마켓 팀블로그 (0) | 2022.12.02 |
---|---|
[Attention] Soft-Attention과 Hard-Attention 차이 (2) | 2022.02.04 |
Few-shot Learning (metric-based) (5) | 2021.06.23 |
Transfer learning, Multi-task learning, Meta learning, Few-shot learning (0) | 2021.06.23 |
Apple paper 모음 (1) | 2021.03.04 |