데이터과학 썸네일형 리스트형 k-최근접 이웃 알고리즘 #k-Nearest Neighbors #k최근접 이웃 알고리즘 #분류 #예측 #회귀 #비모수 #머신러닝 #기계학습 #비지도학습 #지도학습 #KNN k-최근접 이웃 알고리즘(k-Nearest Neighbors, k-NN)은 분류나 회귀에 사용되는 비모수 방식이다. 두 경우 모두 입력이 특징 공간 내 k개의 가장 가까운 훈련 데이터로 구성되어 있다. 출력은 k-NN이 분류로 사용되었는지 또는 회귀로 사용되었는지에 따라 다르다. ● k-NN 분류에서 출력은 소속된 항목이다. 객체는 k개의 최근접 이웃 사이에서 가장 공통적인 항목에 할당되는 객체로 과반수 의결에 의해 분류된다(k는 양의 정수이며 통상적으로 작은 수). 만약 k = 1 이라면 객체는 단순히 하나의 최근접 이웃의 항목에 할당된다. ● k-NN 회귀.. 더보기 데이터 마이닝, 머신러닝(기계학습) 머신러닝(기계 학습, Machine Learning)과 데이터 마이닝(Data Mining)은 종종 같은 방법을 사용하며 상당히 중첩된다. 머신러닝(기계 학습)은 훈련 데이터를 통해 학습된 알려진 속성을 기반으로 예측에 초점을 두고 있다. 데이터마이닝은 데이터의 미처 몰랐던 속성을 발견하는 것에 집중한다. 이는 데이터베이스의 지식발견 부분의 분석 절차에 해당한다. 데이터 마이닝 데이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 것이다. 다른 말로는 KDD(데이터베이스 속의 지식 발견, knowledge-discovery in databases)라고도 일컫는다. 데이터 마이닝은 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한.. 더보기 혼동 행렬, 분류성능평가지표 혼동행렬 confusion matrix 혼동행렬(confusion matrix)은 기계학습분야, 특별히 통계분류(statistical classification)문제 분야에서 오류 행렬이라고도하며, 일반적으로 지도학습에서 알고리즘의 성능을 시각화 할 수 있는 표입니다. 비지도 학습에서는 일반적으로 일치 행렬(matching matrix)이라고합니다. 분류 모델을 학습하는 것의 목적은, 주어진 데이터를 의도에 맞게 잘 분류해내기 위한 것이다. 그렇다면 이러한 모델을 평가하는 기준이 필요할 것이다. 모델을 평가할때는 모델이 얼마나 정밀한지, 얼마나 실용적인 분류를 해내었는지, 얼마나 정확한 분류를 했는지를 평가해야 한다. 이러한 내용들을 모두 포함하고 있는 것이 Confusion Matrix이다. 먼저 모델.. 더보기 RFM 분석 RFM은 가치있는 고객을 추출해내어 이를 기준으로 고객을 분류할 수 있는 매우 간단하면서도 유용하게 사용될 수 있는 방법으로 알려져 있어 마케팅에서 가장 많이 사용되고 있는 분석방법 중 하나이다. RFM은 구매 가능성이 높은 고객을 선정하기 위한 데이터 분석방법으로서, 분석과정을 통해 데이터는 의미있는 정보로 전환된다. RFM은 Recency, Frequency, Monetary의 약자로 고객의 가치를 다음의 세 가지 기준에 의해 계산하고 있다. · Recency - 거래의 최근성: 고객이 얼마나 최근에 구입했는가? · Frequency - 거래빈도: 고객이 얼마나 빈번하게 우리 상품을 구입했나? · Monetary - 거래규모: 고객이 구입했던 총 금액은 어느 정도인가? 모형 · Scoring .. 더보기 몬테카를로 방법 몬테카를로 방법(Monte Carlo method)은 난수를 이용하여 함수의 값을 확률적으로 계산하는 알고리즘을 부르는 용어이다. 수학이나 물리학 등에 자주 사용되며, 계산하려는 값이 닫힌 형식으로 표현되지 않거나 복잡한 경우에 근사적으로 계산할 때 사용된다. 스타니스와프 울람이 모나코의 유명한 도박의 도시 몬테카를로의 이름을 본따 명명하였다. 1930년 엔리코 페르미가 중성자의 특성을 연구하기 위해 이 방법을 사용한 것으로 유명하다. 맨해튼 계획의 시뮬레이션이나 수소폭탄의 개발에서도 핵심적인 역할을 담당하였다. 알고리즘의 반복과 큰 수의 계산이 관련되기 때문에 몬테카를로는 다양한 컴퓨터 모의 실험 기술을 사용하여 컴퓨터로 계산하는 것이 적합하다. Monte Carlo 방법(또는 Monte Carlo 실.. 더보기 탐욕 알고리즘 (Greedy algorithm) 탐욕 알고리즘은 최적해를 구하는 데에 사용되는 근사적인 방법으로, 여러 경우 중 하나를 결정해야 할 때마다 그 순간에 최적이라고 생각되는 것을 선택해 나가는 방식으로 진행하여 최종적인 해답에 도달한다. 순간마다 하는 선택은 그 순간에 대해 지역적으로는 최적이지만, 그 선택들을 계속 수집하여 최종적(전역적)인 해답을 만들었다고 해서, 그것이 최적이라는 보장은 없다. 하지만 탐욕알고리즘을 적용할 수 있는 문제들은 지역적으로 최적이면서 전역적으로 최적인 문제들이다. 탐욕 알고리즘이 잘 작동하는 문제는 대부분 탐욕스런 선택 조건(greedy choice property)과 최적 부분 구조 조건(optimal substructure)이라는 두 가지 조건이 만족된다. 탐욕스런 선택 조건은 앞의 선택이 이후의 선택에.. 더보기 계층화 분석법 (Aanalytic Hierarchy Process, AHP) 계층화 분석과정(AHP)은 수학 및 심리학을 기반으로 복잡한 결정을 구성하고 분석하기 위한 구조화된 기술이다. 1970 년대에 Thomas L. Saaty가 개발했습니다. Saaty는 1983 년에 Expert Choice 소프트웨어를 개발하기 위해 Ernest Forman과 파트너 관계를 맺었으며 AHP는 그 이후로 광범위하게 연구되고 개선되었습니다. 이는 결정 기준의 가중치를 정량화하는 정확한 접근 방식을 나타냅니다. 개별 전문가의 경험을 활용하여 쌍별 비교를 통해 요인의 상대적 규모를 추정합니다. 각 응답자는 특별히 고안된 설문지를 사용하여 각 항목 쌍의 상대적 중요성을 비교합니다. AHP는 그룹 의사 결정에 특별한 응용 프로그램을 가지고 있으며 정부, 비즈니스, 산업, 의료, 조선 및 교육과 같은.. 더보기 의사결정나무법(Decision Tree) 결정 트리 학습법(decision tree learning)은 어떤 항목에 대한 관측값과 목표값을 연결시켜주는 예측 모델로써 결정 트리를 사용한다. 이는 통계학과 데이터 마이닝, 기계 학습에서 사용하는 예측 모델링 방법 중 하나이다. 트리 모델 중 목표 변수가 유한한 수의 값을 가지는 것을 분류 트리라 한다. 이 트리 구조에서 잎(리프 노드)은 클래스 라벨을 나타내고 가지는 클래스 라벨과 관련있는 특징들의 논리곱을 나타낸다. 결정 트리 중 목표 변수가 연속하는 값, 일반적으로 실수를 가지는 것은 회귀 트리라 한다. 의사 결정 분석에서 결정 트리는 시각적이고 명시적인 방법으로 의사 결정 과정과 결정된 의사를 보여주는데 사용된다. 데이터 마이닝 분야에서 결정 트리는 결정된 의사보다는 자료 자체를 표현하는데 .. 더보기 이전 1 다음