🤖 Today-I-Learned ]

🤖 Today-I-Learned ]/Deep Learning

LLM training 정리 - 23.08

adapter - LoRA - IA3 정리 https://devocean.sk.com/blog/techBoardDetail.do?ID=164779&boardType=techBlog LoRA 개념 https://da2so.tistory.com/79 허깅페이스 구현 LoRA https://huggingface.co/docs/diffusers/main/en/training/lora LLM training How To Train Large Language Models 대략적인 튜토리얼 https://www.datacamp.com/tutorial/how-to-train-a-llm-with-pytorch LangChain official LangChain LangChain - use case

🤖 Today-I-Learned ]/Deep Learning

당근마켓 팀블로그

재밌는 자연어처리 글이 많아서 가끔 들어가서 보기에 유용할 듯 엄청 유용한 글도 다수 있다. https://medium.com/daangn 당근마켓 팀블로그 – Medium 당근마켓은 동네 이웃 간의 연결을 도와 따뜻하고 활발한 교류가 있는 지역 사회를 꿈꾸고 있어요. medium.com

🤖 Today-I-Learned ]/Deep Learning

[Attention] Soft-Attention과 Hard-Attention 차이

우리가 흔히 알고 있는 것은 softmax를 이용해서 직접 attention 값을 계산하는 soft-attention이다. hard-attention은 주로 이미지 분야에 사용되고 이미지 캡셔닝에 사용되는 local-attention은 soft와 hard의 중간 정도인 것 같다. hard-attention을 사용하게 되면 attention weight값을 직접 계산하지 않고 확률적으로 샘플링해서 사용하는 부분이 있기 때문에 미분이 불가능해진다. 따라서 역전파를 위한 loss 사용에 유의할 것 https://jhui.github.io/2017/03/15/Soft-and-hard-attention/ “Soft & hard attention” Generate image captions In cognitive ..

🤖 Today-I-Learned ]/Deep Learning

비선형 활성화 함수의 사용 (Non-linear Activation Function)

Non-linear Activation Function 과제 중 조사했던 비선형 활성화 함수의 사용 정리 1. 비선형 activation function을 통한 vanishing gradient 해결 ReLU activation function(Rectifed Linear Unit)은 이러한 vanishing gradient 문제를 activation function으로 해결 한다. x가 0보다 작을땐 0을, 0보다 클 땐 그 값을 그대로 출력(y=x)함으로써 vanishing gradient 문제를 해결한다. 따라서 함수식은 ReLU(x) = max(0,x) 가 되고 도함수는 0또는 1이 된다. 2. Activation function의 정의와 역할 뉴럴네트워크를 생물학적 뉴런에 빗대어서 볼 때 활성화..

🤖 Today-I-Learned ]/Deep Learning

Few-shot Learning (metric-based)

작성자 : 이예진 이번 시간에는 Few-shot learning 중에서도 Non-Parametric 방법에 대해서 공부해보겠습니다. stanford 대학의 cs330(Multi-Task and Meta-Learning) 강의 중에 Lecture4.Non-Parametric Meta-Learners 에 해당합니다. (세미나 벨로그 글) 학습목표 많은 방법들의 흐름을 파악하고 비교를 할 수 있다. 해다 용어는 알고 있어서 추후에 구글링 해 볼 수 있다. 관련된 용어는 알고 있어서 추후에 논문 읽기에 도움이 될 수 있다. Contents 0. Intro Transfer learning, Multi-task learning, Meta-learning, Few-shot Learning (,Semi-supervis..

🤖 Today-I-Learned ]/Deep Learning

Transfer learning, Multi-task learning, Meta learning, Few-shot learning

Transfer learning, Multi-task learning, Meta learning, Few-shot learning 헷갈리는 개념들을 정리할 때 꼭 필요한 마법의 그림, 학부 수업에서 이 그림으로 배워서 더 쉽게 느껴지는 것 같기도 하다. One/Zero shot learning When the number of samples in each class is one, it’s called one shot learning. When it’s zero, it’s called zero shot learning. One shot learning is always studied in few shot learning while zero shot learning is not the same. In few..

지니티토리
'🤖 Today-I-Learned ]' 카테고리의 글 목록