Q. 데이터마이닝에서 상관행렬이 뭐야?
A. 상관행렬(correlation matrix)은 데이터마이닝에서 변수 간의 상관관계를 나타내는 행렬입니다. 상관관계는 두 변수 사이의 관련성을 나타내는 지표로, 변수 간의 선형적인 관계를 측정합니다.
상관행렬은 변수 간의 상관관계를 나타내는데, 상관계수(correlation coefficient)를 사용합니다. 상관계수는 -1에서 1 사이의 값을 가지며, 1에 가까울수록 양의 상관관계(두 변수가 함께 증가), -1에 가까울수록 음의 상관관계(두 변수가 서로 반대로 증감)를 나타냅니다. 0에 가까울수록 두 변수 사이에는 상관관계가 없습니다.
상관행렬은 주로 변수 간의 다중공선성(multicollinearity)을 확인하는 데 사용됩니다. 다중공선성은 변수 간의 강한 선형적인 상관관계가 있는 경우, 예측 모델의 성능을 저하시키는 문제가 발생할 수 있습니다. 상관행렬을 사용하여 변수 간의 상관관계를 파악하고, 다중공선성 문제를 해결할 수 있습니다. 또한, 상관행렬은 변수 선택(variable selection) 및 차원 축소(dimensionality reduction)에도 사용됩니다.
Q. 상관행렬의 단점이 뭐야?
A. 상관행렬은 변수 간의 선형적인 상관관계만을 고려하므로, 비선형적인 관계를 갖는 변수들 간의 상관관계를 반영하지 못하는 단점이 있습니다. 또한, 상관행렬은 변수 간의 상관관계만을 고려하므로, 변수들이 어떤 방식으로 상호작용하는지 파악하기 어렵다는 한계점이 있습니다.
또한, 상관행렬은 변수 간의 관계를 나타내기 때문에, 각 변수가 실제로 예측모델에 어떻게 영향을 미치는지에 대한 정보는 제공하지 않습니다. 예를 들어, 두 변수 A와 B가 강한 상관관계를 가지더라도, A 변수가 반응변수와 더 강한 영향을 미친다면, A 변수를 선택하는 것이 더 유리할 수 있습니다.
또한, 상관행렬은 변수들의 선형적인 상관관계를 나타내므로, 변수들의 중요도를 반영하지 않을 수 있습니다. 예를 들어, 예측모델에서 중요한 변수가 상관관계가 낮은 다른 변수보다 중요한 역할을 할 수 있습니다.
'프로그래밍 > 데이터 사이언스 공부' 카테고리의 다른 글
roboflow 이미지 업로드 시 개수 제한 주의 (0) | 2023.09.17 |
---|---|
YOLOv8 사용해보기 (0) | 2023.09.17 |
영-분산 예측변수가 뭐야? (0) | 2023.03.07 |
표준 로지스틱 분포의 누적분포함수 (0) | 2023.03.07 |
오즈(odds)란 무엇인가? (0) | 2023.03.07 |