- 우리가 흔히 알고 있는 것은 softmax를 이용해서 직접 attention 값을 계산하는 soft-attention이다.
- hard-attention은 주로 이미지 분야에 사용되고 이미지 캡셔닝에 사용되는 local-attention은 soft와 hard의 중간 정도인 것 같다.
- hard-attention을 사용하게 되면 attention weight값을 직접 계산하지 않고 확률적으로 샘플링해서 사용하는 부분이 있기 때문에 미분이 불가능해진다. 따라서 역전파를 위한 loss 사용에 유의할 것
https://jhui.github.io/2017/03/15/Soft-and-hard-attention/
전반적인 attention 과정
soft-attention
hard-attention
Paper : Attention in Natural Language Processing
반응형
'🤖 Today-I-Learned ] > Deep Learning' 카테고리의 다른 글
LLM training 정리 - 23.08 (0) | 2023.08.14 |
---|---|
당근마켓 팀블로그 (0) | 2022.12.02 |
비선형 활성화 함수의 사용 (Non-linear Activation Function) (0) | 2021.06.28 |
Few-shot Learning (metric-based) (5) | 2021.06.23 |
Transfer learning, Multi-task learning, Meta learning, Few-shot learning (0) | 2021.06.23 |