728x90

마이닝 9

빅데이터 분석 및 개발에 있어 유의해야 할 항목들

보통 공부를 할 때 처음에는 해당 과목의 개념, 의미, 의도, 추구하고자하는 방향을 먼저 알고 그다음에 세세한 내용을 단락별로 이해를 해가야 보다 정확하게 기억과 이해를 할 수 있다고 생각합니다. 그래서 빅데이터에 대한 자료를 찾아 공부를 하면서 괜찮은 개념과 유의해야 할 점들이 좀 보입니다. 그중 아래의 내용이 눈이 들어오네요. 아주 좋은 내용으로 보입니다. 그래서 간략히 정리를 좀 하였습니다. (http://www.cnet.co.kr/view/22723) 빅데이터 분석은 일회성 프로젝트(One-Time Project)가 아니다. 빅데이터 분석은 한번 구축하면 되는 SI 프로젝트가 아니다. 빅데이터 분석은 장기간에 걸친 시간, 돈, 전문 지식의 투자로 생각해야 옳다. 다시 말하면, 오랜 기간 동안 데이..

데이터분석가가 되기 위한 괜찮은 기사를 찾았네요

데이터분석가가 되기 위해 계속 자료를 모으고 있는데 구글링을 하다보니 괜찮은 인터뷰기사가 있어서 소개해 드립니다. 전체 인터뷰내용은 아래 참고문헌 을 보시고요. 제 입장에서 괜찮은 부분을 발췌하였습니다. 인터뷰는 데이터 사이언티스트 전희원 님의 인터뷰입니다. 데이터 사이언티스트는 전산학을 기반으로 통계학, 인지심리학, 디자인 등 다양한 영역의 전문 지식을 갖춰야 한다고 들었습니다. 첫 직장이었던 검색엔진 개발업체에서 일할 때 머신러닝 학습이나 데이터 마이닝에 대해 공부해야 할 필요성을 절실히 느꼈어요. 그래서 고려대 대학원에 등록해 공부했는데 이게 큰 힘이 됐어요. 석사 논문을 쓸 때 마침, 야후!코리아에서 ‘하둡 기반의 빅데이터 분석을 통한 서비스 개선’ 프로젝트가 진행됐습니다. 이 때 경험을 반영해 ..

하둡 이란?

데이터마이닝에 있어서 여러 툴 중에 하둡(Hadoop-High-Availability Distributed Object-Oriented Platform) 이란 단어을 요즘들어 자주 접하게 됩니다. 그래서 이것이 무엇일까 궁금해서 여기저기 찾아보고 있는 중입니다. 그래서 제일먼저 봐야 할 것이 Wi-Ki 라서 이곳에서 정의를 좀 살펴보았습니다. 정의는 아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이..

MS - 데이터 마이닝 개념

데이터 마이닝 개념 SQL Server 2016 다른 버전 적용 대상: SQL Server 2016 데이터 마이닝은 큰 데이터 집합에서 동작 가능한 정보를 찾는 프로세스입니다. 데이터 마이닝에서는 수학적 분석을 사용하여 데이터에 있는 패턴 및 추세를 찾습니다. 일반적으로는 관계가 너무 복잡하거나 데이터가 너무 많아서 전통적인 데이터 탐색으로는 이러한 패턴을 찾을 수 없습니다. 이러한 패턴과 추세를 수집하여 데이터 마이닝 모델로 정의할 수 있습니다. 마이닝 모델은 다음과 같은 특정 시나리오에 적용할 수 있습니다. 예측: 서버 부하 또는 서버 가동 중지 시간을 예측 하는 추정 판매 위험 및 확률: 타겟 메일링을 위한 최적합 고객의 선택, 위험 시나리오를 위한 예상 손익 평형 포인트 결정, 진단 또는 기타 결..

MS - 리프트 차트(Analysis Services - 데이터 마이닝)

리프트 차트(Analysis Services - 데이터 마이닝) SQL Server 2016 and later 다른 버전 적용 대상: SQL Server 2016 A 리프트 chart 는 임의 추측에 대해 비교할 때 마이닝 모델이 제공하는 향상률을 그래픽으로 나타내며 리프트 점수를 기준으로 변화를 측정합니다. 서로 다른 모델에 대한 리프트 점수를 비교하여 가장 적합한 모델을 확인할 수 있습니다. 또한 모델의 예측이 유용하지 않은 지점을 확인할 수 있습니다. 예를 들어 리프트 차트를 검토하면 프로모션 캠페인이 30%의 고객에게만 효과적임을 파악하고 해당 수치를 사용하여 캠페인의 범위를 제한할 수 있습니다. SQL Server 데이터 마이닝에서는 리프트 차트를 사용하여 동일한 예측 가능한 특성이 있는 여러 ..

데이터마이닝 알고리즘

태스크 사례 알고리즘 설명 불연속 특성 예측 잠재 구매자 목록에서 잠재 고객을 좋음 또는 나쁨 플래그로 지정합니다. 다음 6개월 이내에 서버가 실패할 확률을 계산합니다. 환자 결과를 분류하고 관련 요인을 탐색합니다. Microsoft 의사 결정 트리 알고리즘 Microsoft 의사 결정 트리 알고리즘은 불연속 특성 및 연속 특성 모두의 예측 모델링에 사용하기 위해 분류 및 회귀 알고리즘입니다. 불연속 특성의 경우 알고리즘은 데이터 집합 내 입력 열 간의 관계를 기반으로 예측합니다. 이 알고리즘은 해당 열의 값인 상태를 사용하여 사용자가 예측 가능으로 지정하는 열의 상태를 예측합니다. 특히 알고리즘은 예측 가능한 열과 상관 관계에 있는 입력 열을 식별합니다. 예를 들어 자전거를 구입할 가능성이 높은 고객을..

Microsoft 선형 회귀 알고리즘

Microsoft 선형 회귀 알고리즘 SQL Server 2016 and later 다른 버전 적용 대상: SQL Server 2016 Microsoft 선형 회귀 알고리즘은 종속 변수와 독립 변수 간의 선형 관계를 계산하고 이 관계를 예측에 사용하는 데 도움이 되는 Microsoft 의사 결정 트리 알고리즘의 변형입니다. 이 관계는 데이터 계열을 가장 잘 나타내는 선에 대한 수식 형식을 사용합니다. 예를 들어 다음 다이어그램의 선은 데이터를 가장 잘 나타내는 선형 표시입니다. 다이어그램의 각 데이터 요소에는 회귀선으로부터의 거리와 관련된 오류가 있습니다. 회귀 수식에서 계수 a와 b는 회귀선의 각도와 위치를 조정합니다. 모든 요소와 관련된 오류 수의 합계가 최소가 될 때까지 a와 b를 조정하여 회귀 수..

빅데이터 시각화툴 정리

빅데이터의 마이닝을 하기 위해서는 현재까지 공부를 한 저로써는 아래와 같이 정리가 되는 것 같습니다. 1. 데이터수집 - 여러 필요 raw 데이터를 수집하여 서버 DB에 저장 2. 데이터 정리 - 목적을 가지고 목적이 되는 데이터를 정리 또는 써머리 작업 3. 마이닝 툴을 통해 데이터의 목표값, 또는 마이닝 추출 - 이때까지 추출된 데이터는 리스트 형태로 보입니다. (db 마이닝 쿼리) 4. 시각화 툴 - 위 리스트의 데이터를 가지고는 표시하고자 하는 값을 알기가 어렵기 때문에 차트. 또는 맵데이터로 표시를 해야할 때 필요 직관적이기 때문에 마케팅, 경영결정을 하기가 좋음. 위 정도로 정리가 되는 것 같습니다. 현재로서는 마이닝 추출은 R프로젝트나, mssql의 마이닝쿼리 또는 클라멘타인 과 같은 툴을 ..

728x90
반응형