머신러닝 (Machine Learning)에서 Rank of Matrix 의 의미
선형대수에서 rank의 의미는 다음과 같다.
Definition : The rank of a matrix A, denoted by rank A, is the dimension of the column space of A:
rank A = dim Col A
이는 Col A 의 dimension이 rank A 라는 것이다. (이 때 dimension은 기저백터(basis)의 갯수로 유니크하다.)
이러한 Rank가 Machine Learning에서 의미하는 바는 다음과 같은 예시로 나타낼 수 있다.
다음과 같이 키 몸무게 등의 feature(column)으로 이루어진 데이터셋이 있을 때, 극단적으로 V2, V3, V4가 모두 V1에 linearly depenpent한 경우가 있을 수 있다. 이런 상황에서는 피쳐의 갯수는 많지만 rank는 줄어들게 된다.
따라서 rank는 얻을 수 있는 정보양과 관련이 있다. rank가 작으면 데이터셋에서 얻을 수 있는 정보는 줄어들게 되는데, 별 것 아닐 수 있지만 이러한 데이터셋과 피쳐는 ML 모델에 상당한 방해를 하며, 영향을 끼친다.
이 데이터 셋에 선형 회귀 모델을 만든다고 했을 때, 키의 계수에 1000을 할당하고, 몸무게에 -500을 할당하는 등 모델을 망가뜨린다고 한다. 즉 overfitting의 위험이 커진다. 이럴 때의 해결은 regularization이 있다. (또한 예시로는 선형회귀모델을 들었지만, SVM 등의 모든 머신러닝 모델 전반에서 모델을 해칠 수 있다.)
통계학과 회귀분석 과제를 하면서 종종 마주쳤던 문제인데, 이를 명확하게 설명하고 있기에 남겨놓는다.
170 | 34 | ||
180 | 36 | ||
150 | ... | ||
... | |||
v1 | v2 | v3 | v4 |
Reference
주재걸 교수님의 인공지능을 위한 선형대수
'🤖 Today-I-Learned ] > Statistics & Machine Learning' 카테고리의 다른 글
[선형대수] Orthogonal Projection ŷ of y (0) | 2021.01.26 |
---|---|
[선형대수] 딥러닝에서의 일대일 대응 (ONE-TO-ONE) (0) | 2021.01.25 |
[선형대수] 딥러닝에서 선형변환의 기하학적 의미 (2) | 2021.01.24 |
[MLE] Erlang분포(gamma분포)의 최대우도추정량 (0) | 2020.10.02 |
[경제자료분석] 2019-2학기 경제자료분석 (0) | 2020.05.03 |