본문 바로가기

카테고리 없음

주성분 분석 PCA(Principal component analysis)

통계학에서 주성분 분석(主成分分析, Principal component analysis; PCA)은 고차원의 데이터를 저차원의 데이터로 환원시키는 기법이다. 서로 연관 가능성이 있는 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간(주성분)의 표본으로 변환하기 위해 직교 변환을 사용한다. 주성분의 차원수는 원래 표본의 차원수보다 작거나 같다. 주성분 분석은 데이터를 한개의 축으로 사상시켰을 때 그 분산이 가장 커지는 축을 첫 번째 주성분, 두 번째로 커지는 축을 두 번째 주성분으로 놓이도록 새로운 좌표계로 데이터를 선형 변환한다. 이와 같이 표본의 차이를 가장 잘 나타내는 성분들로 분해함으로써 여러가지 응용이 가능하다. 이 변환은 첫째 주성분이 가장 큰 분산을 가지고, 이후의 주성분들은 이전의 주성분들과 직교한다는 제약 아래에 가장 큰 분산을 갖고 있다는 식으로 정의되어있다. 중요한 성분들은 공분산 행렬의 고유 벡터이기 때문에 직교하게 된다.

 

주성분 분석은 적용 분야에 따라, 신호처리 분야에서는 이산 카루넨-뢰브 변환(Karhunen-Loève transform 또는 KLT), 다변량 품질 관리에서는 호텔링 변환, 기계공학에서는 적합 직교 분해(POD), 선형대수학에서는 특잇값 분해(Singular Value Decomposition; SVD) 또는 고윳값 분해(Eigen Value Decomposition; EVD), 인자 분석(Factor Analysis), 심리측정학의 Eckart–Young 이론 또는 Schmidt–Mirsky 이론, 기상 과학의 실증 직교 함수(EOF), 소음과 진동의 실증적 고유 함수 분해와 실증적 요소 분석, 준조화모드, 스펙트럼 분해, 구조 동역학의 실증적 모델 분석 등으로 응용된다.

 

주성분 분석은 1901년에 피어슨(Karl Pearson)에 의해 역학의 주축정리의 유사한 것으로 만들어졌고, 1930년대에 Harold Hotelling에 의해 독자적으로 발전됐다. 이 방법은 대부분 탐구 데이터 분석의 도구나 예측 모델을 만드는데 사용되었다. 공분산 (또는 연관성) 데이터 행렬을 각각의 속성에 대해 평균중심화(그리고 정규화 또는 Z-점수로 표준화)를 한 후에 행렬에 대해 고윳값 분해나 특잇값 분해를 하여 주성분 분석이 가능하다. 주성분 분석의 결과는 보통 인자 점수라고도 불리는 요소점수(특정 데이터 지점에 따른 변환된 변수 값)와 하중(요소 점수를 구하기 위해 각각의 표준화된 원래 변수가 곱해져야 한다는 것을 이용한 하중)을 가지고 논의된다.

 

주성분 분석은 실제 고유 벡터 기반의 다변량 분석들 중 가장 간단하다. 가끔, 이것의 계산이 데이터의 변화를 가장 잘 설명하는 방법으로 데이터의 내부구조를 드러내는 것처럼 생각될 수 있다. 만약 다변량 데이터 집합이 높은 차원의 데이터 공간 (변수당 1개의 축)에서의 좌표의 집합으로 보인다면, 주성분 분석은 사용자에게 낮은 차원의 그림, 예상, 또는 가장 유익한 관점에서 봤을 때의 물체의 ‘그림자’를 공급해줄 수 있다. 이것은 처음 몇 개의 주요한 요소들만 사용하여 변환된 데이터의 차원수를 줄임으로써 끝난다.

 

주성분 분석은 인자 분석과 밀접한 관계를 갖고 있다. 인자 분석은 일반적으로 기저 구조에 대한 영역 한정적인 가정을 포함하고 약간의 차이가 있는 행렬의 고유 벡터를 풀어낸다.

 

또한 주성분 분석은 정준상관분석(CCA)와 관계가 있다. 주성분 분석이 하나의 데이터 집합의 변화를 제일 잘 설명하는 새로운 직교 좌표 시스템을 정의하는 반면 정준상관분석은 두 개의 데이터 집합간의 교차 공분산을 가장 잘 설명하는 좌표 시스템을 정의한다.

 

주성분 분석은 가장 큰 분산을 갖는 부분공간(subspace)을 보존하는 최적의 선형 변환이라는 특징을 갖는다. 그러나 이산 코사인 변환과 같은 다른 방법에 비해 더 많은 계산시간을 요구하는 단점이 있다. 다른 선형 변환과 달리 주성분 분석은 정해진 기저 벡터를 갖지 않으며, 기저 벡터는 데이터의 특성에 따라 달라진다.

주성분분석은 원래 변수들의 선형결합으로 이루어지는 새로운 변수들을 만든다. 새롭게 만들어진 변수들은 서로 직교한다는 특성이 있다. 주성분들은 데이터의 클러스터들을 발견하는 데 사용될 수 있다. 주성분분석은 분산에 초점을 둔 방식으로, 전체 변수들의 분산을 재생성하며 각 주성분들은 변수의 공통적인 특성과 고유한 특성 모두를 반영하게 된다. 주성분분석은 일반적으로 데이터를 줄이는 목적으로 많이 활용되지만, 숨겨진 구조나 요인을 발견하는 목적으로는 잘 사용되지 않는다.

 

요인 분석은 변수들의 선형결합으로 결과가 나타난다는 점에서 주성분분석과 비슷하다. 그러나 주성분분석과는 달리, 요인 분석은 상관관계에 초점을 둔 방식으로 변수들 사이의 상관관계를 재생성한다. 여기서 얻어지는 요인들은 "변수들의 공통된 분산을 반영하지만, 변수 고유의 분산은 배제시킨다." 요인 분석은 데이터의 구조를 파악(숨겨진 구조나 요인들)하거나 인과관계를 모델링할 때 널리 사용된다.

대응 분석(Correspondence Analysis)은 Jean-Paul Benzécri 에 의해 개발되었으며 주성분분석과 개념적으로 비슷하다. 주성분분석과 다른점이 있다면, (음이 아닌) 데이터들을 스케일시켜, 행과 열이 동등하게 취급되도록 한다는 점이다. 대응분석은 주로 분할표(Contingency table)에 적용된다. 대응분석은 이 표와 연관된 카이제곱 통계량을 직교하는 요인들로 분해한다.[26] 대응 분석은 서술하는 기법이기 때문에, 카이제곱 통계량이 적절하든 부적절하든 적용될 수 있다. 추세제거상호연관성분석(Detrended correspondence analysis)나 정규상호연관성분석(Canonical correspondence analysis)와 같은 대응 분석의 몇 가지 변형들도 있다. 한 가지 특별한 확장은 다중 상호연관성 분석(Multiple correspondence analysis)인데 이는 분류적 데이터를 위한 주성분 분석으로 볼 수도 있다.

출처 : 위키백과