프로그램/데이터마이닝

데이터마이닝 알고리즘

네오류이 2021. 1. 12. 13:36
728x90
반응형



태스크

사례

알고리즘

설명

불연속 특성 예측

잠재 구매자 목록에서 잠재 고객을 좋음 또는 나쁨 플래그로 지정합니다.

다음 6개월 이내에 서버가 실패할 확률을 계산합니다.

환자 결과를 분류하고 관련 요인을 탐색합니다.

Microsoft 의사 결정 트리 알고리즘

Microsoft 의사 결정 트리 알고리즘은 불연속 특성 및 연속 특성 모두의 예측 모델링에 사용하기 위해 분류 및 회귀 알고리즘입니다.

불연속 특성의 경우 알고리즘은 데이터 집합 내 입력 열 간의 관계를 기반으로 예측합니다. 이 알고리즘은 해당 열의 값인 상태를 사용하여 사용자가 예측 가능으로 지정하는 열의 상태를 예측합니다. 특히 알고리즘은 예측 가능한 열과 상관 관계에 있는 입력 열을 식별합니다. 예를 들어 자전거를 구입할 가능성이 높은 고객을 예측하는 시나리오에서 청년층 고객의 경우 10명 중 9명이 자전거를 구입한 반면 중장년층 고객의 경우 10명 중 2명만이 자전거를 구입했다면 알고리즘은 자전거 구입에 있어 연령이 좋은 지표가 될 수 있음을 유추합니다. 의사 결정 트리에서는 이러한 경향을 기반으로 특정 결과를 예측합니다.

연속 특성의 경우 알고리즘은 선형 회귀를 사용하여 의사 결정 트리의 분할 위치를 결정합니다.

둘 이상의 열을 예측 가능으로 설정한 경우 또는 입력 데이터에 예측 가능으로 설정된 중첩 테이블이 포함된 경우 알고리즘은 각 예측 가능한 열에 대해 별도의 의사 결정 트리를 작성합니다.

Microsoft Naive Bayes 알고리즘

Microsoft Naive Bayes 알고리즘은 Bayes 정리를 기반으로 하는 분류 알고리즘으로, 설명 및 예측 모델링 둘 다에 사용할 수 있습니다. Naïve Bayes라는 이름의 naïve는 이 알고리즘이 Bayes 기술을 사용하지만 있을 수 있는 종속성을 고려하지 않는다는 사실에서 비롯된 것입니다.

이 알고리즘은 다른 Microsoft 알고리즘보다 계산 과정이 단순하여 입력 열과 예측 가능한 열 간의 관계를 검색하는 마이닝 모델을 신속하게 생성하는 데 유용합니다. 이 알고리즘을 사용하여 초기 데이터 탐색을 수행한 후 나중에 그 결과를 적용하여 보다 복잡하고 정확한 다른 알고리즘으로 추가 마이닝 모델을 만들 수 있습니다.

Microsoft 클러스터링 알고리즘

Microsoft 클러스터링 알고리즘은 비슷한 특성을 포함하는 클러스터로 그룹화하는 데이터 집합의 사례를 반복하는 세그먼트화 또는 클러스터링 알고리즘입니다. 이러한 그룹화는 데이터 탐색, 데이터 내 잘못된 부분 식별, 예측 만들기 등에 유용합니다.

클러스터링 모델은 관찰만 가지고는 논리적으로 이끌어 낼 수 없을 수 있는 데이터 집합 내 관계를 식별합니다. 예를 들어 자전거로 통근하는 사람은 일반적으로 회사에서 먼 곳에 살지 않는다는 사실을 쉽게 추측할 수 있습니다. 그러나 알고리즘은 자전거 통근자에 대해 확연하게 드러나지 않는 다른 특징을 찾아낼 수 있습니다. 다음 다이어그램에서 클러스터 A는 자가용으로 통근하는 사람에 대한 데이터를 나타내고 클러스터 B는 자전거로 통근하는 사람에 대한 데이터를 나타냅니다.

Microsoft 신경망 알고리즘

Microsoft 신경망 알고리즘은 기계 학습을 위해 널리 사용되고 조정 가능한 신경망 아키텍처의 구현입니다. 이 알고리즘은 예측 가능한 특성의 가능한 각 상태에 대해 입력 특성의 가능한 각 상태를 테스트하고 학습 데이터를 기반으로 각 조합의 확률을 계산합니다. 이러한 확률을 분류 또는 회귀 작업에 사용하여 일부 입력 특성을 기반으로 결과를 예측할 수 있습니다. 신경망은 연결 분석에도 사용할 수 있습니다.

Microsoft 신경망 알고리즘을 사용하여 마이닝 모델을 만들 때 여러 출력을 포함할 수 있으며 알고리즘은 여러 네트워크를 만듭니다. 단일 마이닝 모델에 포함된 네트워크의 수는 입력 열의 상태(또는 특성 값) 수뿐만 아니라 마이닝 모델에서 사용하는 예측 가능한 열의 수와 해당 열에 있는 상태 수에 따라 달라집니다.

연속 특성 예측

내년 매출을 예측합니다.

과거 기록 및 계절별 추세를 고려하여 사이트 방문자를 예측합니다.

인구 통계를 고려하여 위험 점수를 생성합니다.

Microsoft 의사 결정 트리 알고리즘

Microsoft 의사 결정 트리 알고리즘은 불연속 특성 및 연속 특성 모두의 예측 모델링에 사용하기 위해 분류 및 회귀 알고리즘입니다.

불연속 특성의 경우 알고리즘은 데이터 집합 내 입력 열 간의 관계를 기반으로 예측합니다. 이 알고리즘은 해당 열의 값인 상태를 사용하여 사용자가 예측 가능으로 지정하는 열의 상태를 예측합니다. 특히 알고리즘은 예측 가능한 열과 상관 관계에 있는 입력 열을 식별합니다. 예를 들어 자전거를 구입할 가능성이 높은 고객을 예측하는 시나리오에서 청년층 고객의 경우 10명 중 9명이 자전거를 구입한 반면 중장년층 고객의 경우 10명 중 2명만이 자전거를 구입했다면 알고리즘은 자전거 구입에 있어 연령이 좋은 지표가 될 수 있음을 유추합니다. 의사 결정 트리에서는 이러한 경향을 기반으로 특정 결과를 예측합니다.

연속 특성의 경우 알고리즘은 선형 회귀를 사용하여 의사 결정 트리의 분할 위치를 결정합니다.

둘 이상의 열을 예측 가능으로 설정한 경우 또는 입력 데이터에 예측 가능으로 설정된 중첩 테이블이 포함된 경우 알고리즘은 각 예측 가능한 열에 대해 별도의 의사 결정 트리를 작성합니다.

Microsoft 시계열 알고리즘

Microsoft 시계열 알고리즘은 제품 판매량과 같은 연속 값을 시간 경과에 따라 예측하도록 최적화된 여러 알고리즘을 제공합니다. 의사 결정 트리와 같은 다른 Microsoft 알고리즘에서는 새 정보로 된 추가 열을 입력해야 추세를 예측할 수 있지만, 시계열 모델에서는 이런 열이 필요하지 않습니다. 시계열 모델은 이 모델을 만드는 데 사용되는 원래 데이터 집합만을 기반으로 추세를 예측할 수 있습니다. 또한 예측을 만들고 자동으로 새 데이터를 추세 분석에 통합하는 경우 시계열 모델에 새 데이터를 추가할 수도 있습니다.

다음 다이어그램에서는 4개의 다른 판매 지역에서 시간에 따른 제품 판매량을 예측하기 위한 일반적인 모델을 보여 줍니다. 다이어그램에 표시된 모델은 빨간색, 노란색, 보라색 및 파란색 선으로 표시된 각 지역별 판매량을 보여 줍니다. 각 지역의 선은 다음 두 부분으로 구성됩니다.

Microsoft 선형 회귀 알고리즘

Microsoft 선형 회귀 알고리즘은 종속 변수와 독립 변수 간의 선형 관계를 계산하고 이 관계를 예측에 사용하는 데 도움이 되는 Microsoft 의사 결정 트리 알고리즘의 변형입니다.

이 관계는 데이터 계열을 가장 잘 나타내는 선에 대한 수식 형식을 사용합니다. 예를 들어 다음 다이어그램의 선은 데이터를 가장 잘 나타내는 선형 표시입니다.

시퀀스 예측

회사 웹 사이트의 클릭 동향 분석을 수행합니다.

서버 장애를 일으키는 요인을 분석합니다.

외래 환자가 내원 중에 수행하는 일련의 활동을 캡처한 후 분석하여 일반 활동에 대한 모범 사례를 공식화합니다.

Microsoft 시퀀스 클러스터링 알고리즘

Microsoft 시퀀스 클러스터링 알고리즘은 클러스터링과 함께 시퀀스 분석을 결합하는 고유한 알고리즘입니다. 이 알고리즘을 사용하여 시퀀스로 연결할 수 있는 이벤트가 들어 있는 데이터를 탐색할 수 있습니다. 이 알고리즘은 가장 일반적인 시퀀스를 찾고 클러스터링을 수행하여 유사한 시퀀스를 찾습니다. 다음 예제에서는 일반적인 문제나 비즈니스 시나리오에 대한 통찰력을 제공하기 위해 기계 학습에 대한 데이터로 캡처할 수 있는 시퀀스의 종류를 보여 줍니다.

트랜잭션에서 공통 항목 그룹 찾기

시장 바구니 분석을 사용하여 제품 배치를 결정할 수 있습니다.

구매 고객에게 추가 제품을 제안합니다.

이벤트에 대한 방문자의 설문 조사 데이터를 분석하여 상호 관련된 활동 또는 부스를 찾고 미래 활동을 계획합니다.

Microsoft 연결 알고리즘

Microsoft 연결 알고리즘은 추천 엔진에 자주 사용되는 알고리즘입니다. 추천 엔진은 고객이 이미 구입한 항목 또는 관심을 나타낸 항목을 바탕으로 고객에게 항목을 추천합니다. Microsoft 연결 알고리즘은 시장 바구니 분석에도 유용합니다.

연결 모델은 개별 사례 및 사례에 포함된 항목 모두에 대한 식별자를 포함하는 데이터 집합을 기반으로 작성됩니다. 사례에 포함된 항목 그룹을 항목 집합이라고 합니다. 연결 모델은 일련의 항목 집합과 이러한 항목이 사례 내에서 그룹화되는 방법을 설명하는 규칙으로 구성됩니다. 알고리즘이 식별하는 규칙은 고객의 쇼핑 카트에 이미 들어 있는 항목을 바탕으로 고객의 향후 구매 항목을 예측하는 데 사용할 수 있습니다. 다음 다이어그램에서는 항목 집합에 포함된 일련의 규칙을 보여 줍니다.

Microsoft 의사 결정 트리 알고리즘

Microsoft 의사 결정 트리 알고리즘은 불연속 특성 및 연속 특성 모두의 예측 모델링에 사용하기 위해 분류 및 회귀 알고리즘입니다.

불연속 특성의 경우 알고리즘은 데이터 집합 내 입력 열 간의 관계를 기반으로 예측합니다. 이 알고리즘은 해당 열의 값인 상태를 사용하여 사용자가 예측 가능으로 지정하는 열의 상태를 예측합니다. 특히 알고리즘은 예측 가능한 열과 상관 관계에 있는 입력 열을 식별합니다. 예를 들어 자전거를 구입할 가능성이 높은 고객을 예측하는 시나리오에서 청년층 고객의 경우 10명 중 9명이 자전거를 구입한 반면 중장년층 고객의 경우 10명 중 2명만이 자전거를 구입했다면 알고리즘은 자전거 구입에 있어 연령이 좋은 지표가 될 수 있음을 유추합니다. 의사 결정 트리에서는 이러한 경향을 기반으로 특정 결과를 예측합니다.

연속 특성의 경우 알고리즘은 선형 회귀를 사용하여 의사 결정 트리의 분할 위치를 결정합니다.

유사 항목 그룹 찾기

인구 통계, 동작 등과 같은 특성을 기반으로 환자 위험 프로필 그룹을 만듭니다.

검색 및 구매 패턴별로 사용자를 분석합니다.

사용 특징이 유사한 서버를 식별합니다.

Microsoft 클러스터링 알고리즘

Microsoft 클러스터링 알고리즘은 비슷한 특성을 포함하는 클러스터로 그룹화하는 데이터 집합의 사례를 반복하는 세그먼트화 또는 클러스터링 알고리즘입니다. 이러한 그룹화는 데이터 탐색, 데이터 내 잘못된 부분 식별, 예측 만들기 등에 유용합니다.

클러스터링 모델은 관찰만 가지고는 논리적으로 이끌어 낼 수 없을 수 있는 데이터 집합 내 관계를 식별합니다. 예를 들어 자전거로 통근하는 사람은 일반적으로 회사에서 먼 곳에 살지 않는다는 사실을 쉽게 추측할 수 있습니다. 그러나 알고리즘은 자전거 통근자에 대해 확연하게 드러나지 않는 다른 특징을 찾아낼 수 있습니다. 다음 다이어그램에서 클러스터 A는 자가용으로 통근하는 사람에 대한 데이터를 나타내고 클러스터 B는 자전거로 통근하는 사람에 대한 데이터를 나타냅니다.

 

Microsoft 시퀀스 클러스터링 알고리즘

Microsoft 시퀀스 클러스터링 알고리즘은 클러스터링과 함께 시퀀스 분석을 결합하는 고유한 알고리즘입니다. 이 알고리즘을 사용하여 시퀀스로 연결할 수 있는 이벤트가 들어 있는 데이터를 탐색할 수 있습니다. 이 알고리즘은 가장 일반적인 시퀀스를 찾고 클러스터링을 수행하여 유사한 시퀀스를 찾습니다. 다음 예제에서는 일반적인 문제나 비즈니스 시나리오에 대한 통찰력을 제공하기 위해 기계 학습에 대한 데이터로 캡처할 수 있는 시퀀스의 종류를 보여 줍니다.

 

 

 

 

728x90
반응형