728x90

프로그램/데이터마이닝 16

[빅데이터] 빅데이터란 무엇일까?

빅데이터에 대한 이야기는 아주 오래전 부터 나온 이야기 였지만.. 2000년대 초반때 였지만.. 그 당시에는 기술적으로 또는 시대적 요구와도 맞지가 않아서 저쪽 구석에 넘겨 놓았는데.. 지금 현재는 그 needs가 많이 커졌고, 기술적 역량 자체도 많이 올라간 것이 사실입니다. 요즘 벤처투자 쪽을 알아봐도 빅데이터에 대한 시장의 needs가 크다는 것을 쉽게 알 수 있었습니다. 지금의 미래 기술 중에 유전자공학이나 나노기술, 태양광기술, 스마트폰컨테츠 등 여러가지가 있지만. 그 중에 이 빅데이터도 하나의 자리를 차지하고 있습니다. 사실 앱쪽 기술자들은 많고,. 컨텐츠를 개발해서 성공하기도 힘든 시대이기 때문에 IT를 하는 저로써 미래를 위해 이 빅데이터 기술을 지금부터라도 공부하지 않으면 않된다는 생각이..

빅데이터 분석 및 개발에 있어 유의해야 할 항목들

보통 공부를 할 때 처음에는 해당 과목의 개념, 의미, 의도, 추구하고자하는 방향을 먼저 알고 그다음에 세세한 내용을 단락별로 이해를 해가야 보다 정확하게 기억과 이해를 할 수 있다고 생각합니다. 그래서 빅데이터에 대한 자료를 찾아 공부를 하면서 괜찮은 개념과 유의해야 할 점들이 좀 보입니다. 그중 아래의 내용이 눈이 들어오네요. 아주 좋은 내용으로 보입니다. 그래서 간략히 정리를 좀 하였습니다. (http://www.cnet.co.kr/view/22723) 빅데이터 분석은 일회성 프로젝트(One-Time Project)가 아니다. 빅데이터 분석은 한번 구축하면 되는 SI 프로젝트가 아니다. 빅데이터 분석은 장기간에 걸친 시간, 돈, 전문 지식의 투자로 생각해야 옳다. 다시 말하면, 오랜 기간 동안 데이..

데이터분석가가 되기 위한 괜찮은 기사를 찾았네요

데이터분석가가 되기 위해 계속 자료를 모으고 있는데 구글링을 하다보니 괜찮은 인터뷰기사가 있어서 소개해 드립니다. 전체 인터뷰내용은 아래 참고문헌 을 보시고요. 제 입장에서 괜찮은 부분을 발췌하였습니다. 인터뷰는 데이터 사이언티스트 전희원 님의 인터뷰입니다. 데이터 사이언티스트는 전산학을 기반으로 통계학, 인지심리학, 디자인 등 다양한 영역의 전문 지식을 갖춰야 한다고 들었습니다. 첫 직장이었던 검색엔진 개발업체에서 일할 때 머신러닝 학습이나 데이터 마이닝에 대해 공부해야 할 필요성을 절실히 느꼈어요. 그래서 고려대 대학원에 등록해 공부했는데 이게 큰 힘이 됐어요. 석사 논문을 쓸 때 마침, 야후!코리아에서 ‘하둡 기반의 빅데이터 분석을 통한 서비스 개선’ 프로젝트가 진행됐습니다. 이 때 경험을 반영해 ..

하둡 이란?

데이터마이닝에 있어서 여러 툴 중에 하둡(Hadoop-High-Availability Distributed Object-Oriented Platform) 이란 단어을 요즘들어 자주 접하게 됩니다. 그래서 이것이 무엇일까 궁금해서 여기저기 찾아보고 있는 중입니다. 그래서 제일먼저 봐야 할 것이 Wi-Ki 라서 이곳에서 정의를 좀 살펴보았습니다. 정의는 아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이..

하둡 에코시스템

하둡 에코시스템 이란게 무엇일까요? 하둡이면 하둡이지 하둡 에코시스템 이란게 있어서 좀 찾아보았는데.. 내용이 좀 나와서 보니 하둡 에코시스템은 하둡의 패키지를 의미하는 것 같습니다. [그림 출처: 시작하세요! 하둡 프로그래밍(위키북스)] 저헐게 많은 시스템을 모아서 하둡에코 라고 하는데 저걸 다 할 수 있을까 하는 의구심이 들기 시작했습니다. 갈길이 정말 머네요~ 그냥 일반 툴이나 개발언어를 한다고 해서 쉽게 할 수 잇는 영역이 아닌 것 같습니다. 위 시스템의 서브카테고리 설명을 발취를 했는데 보면.. | Zookeeper 분산 환경에서 서버들간에 상호 조정이 필요한 다양한 서비스를 제공하는 시스템입니다. 첫째, 하나의 서버에만 서비스가 집중되지 않도록, 서비스를 알맞게 분산하여 동시에 처리하게 해줍니..

웹 크롤링(scrapy) 강좌

출처 : http://clien.net/cs2/bbs/board.php?bo_table=lecture&wr_id=296511 ============= 하다보니 python, scrapy를 이용한 웹 크롤링 관련 동영상 강좌를 만들었습니다. scrapy는 웹 크롤링을 위한 framework입니다. 다양한 파서를 지원하며, 로깅, 파이프라인, 링크 재귀 호출 등의 크롤링과 관련된 풍부한 기능을 제공하는 라이브러리입니다. 관심 있으신 분은 보시면 유용할 것 같습니다. 마지막에는 예제로 클리앙, 보배드림의 게시판 리스트를 분석하고 데이터를 획득하는 내용을 code로 설명드리고 있습니다. 동영상 강좌 https://www.youtube.com/playlist?list=PLWUxS6i2fXtip8sHElwRUubw..

MS - 데이터 마이닝 개념

데이터 마이닝 개념 SQL Server 2016 다른 버전 적용 대상: SQL Server 2016 데이터 마이닝은 큰 데이터 집합에서 동작 가능한 정보를 찾는 프로세스입니다. 데이터 마이닝에서는 수학적 분석을 사용하여 데이터에 있는 패턴 및 추세를 찾습니다. 일반적으로는 관계가 너무 복잡하거나 데이터가 너무 많아서 전통적인 데이터 탐색으로는 이러한 패턴을 찾을 수 없습니다. 이러한 패턴과 추세를 수집하여 데이터 마이닝 모델로 정의할 수 있습니다. 마이닝 모델은 다음과 같은 특정 시나리오에 적용할 수 있습니다. 예측: 서버 부하 또는 서버 가동 중지 시간을 예측 하는 추정 판매 위험 및 확률: 타겟 메일링을 위한 최적합 고객의 선택, 위험 시나리오를 위한 예상 손익 평형 포인트 결정, 진단 또는 기타 결..

MS - 리프트 차트(Analysis Services - 데이터 마이닝)

리프트 차트(Analysis Services - 데이터 마이닝) SQL Server 2016 and later 다른 버전 적용 대상: SQL Server 2016 A 리프트 chart 는 임의 추측에 대해 비교할 때 마이닝 모델이 제공하는 향상률을 그래픽으로 나타내며 리프트 점수를 기준으로 변화를 측정합니다. 서로 다른 모델에 대한 리프트 점수를 비교하여 가장 적합한 모델을 확인할 수 있습니다. 또한 모델의 예측이 유용하지 않은 지점을 확인할 수 있습니다. 예를 들어 리프트 차트를 검토하면 프로모션 캠페인이 30%의 고객에게만 효과적임을 파악하고 해당 수치를 사용하여 캠페인의 범위를 제한할 수 있습니다. SQL Server 데이터 마이닝에서는 리프트 차트를 사용하여 동일한 예측 가능한 특성이 있는 여러 ..

데이터마이닝 알고리즘

태스크 사례 알고리즘 설명 불연속 특성 예측 잠재 구매자 목록에서 잠재 고객을 좋음 또는 나쁨 플래그로 지정합니다. 다음 6개월 이내에 서버가 실패할 확률을 계산합니다. 환자 결과를 분류하고 관련 요인을 탐색합니다. Microsoft 의사 결정 트리 알고리즘 Microsoft 의사 결정 트리 알고리즘은 불연속 특성 및 연속 특성 모두의 예측 모델링에 사용하기 위해 분류 및 회귀 알고리즘입니다. 불연속 특성의 경우 알고리즘은 데이터 집합 내 입력 열 간의 관계를 기반으로 예측합니다. 이 알고리즘은 해당 열의 값인 상태를 사용하여 사용자가 예측 가능으로 지정하는 열의 상태를 예측합니다. 특히 알고리즘은 예측 가능한 열과 상관 관계에 있는 입력 열을 식별합니다. 예를 들어 자전거를 구입할 가능성이 높은 고객을..

Microsoft 선형 회귀 알고리즘

Microsoft 선형 회귀 알고리즘 SQL Server 2016 and later 다른 버전 적용 대상: SQL Server 2016 Microsoft 선형 회귀 알고리즘은 종속 변수와 독립 변수 간의 선형 관계를 계산하고 이 관계를 예측에 사용하는 데 도움이 되는 Microsoft 의사 결정 트리 알고리즘의 변형입니다. 이 관계는 데이터 계열을 가장 잘 나타내는 선에 대한 수식 형식을 사용합니다. 예를 들어 다음 다이어그램의 선은 데이터를 가장 잘 나타내는 선형 표시입니다. 다이어그램의 각 데이터 요소에는 회귀선으로부터의 거리와 관련된 오류가 있습니다. 회귀 수식에서 계수 a와 b는 회귀선의 각도와 위치를 조정합니다. 모든 요소와 관련된 오류 수의 합계가 최소가 될 때까지 a와 b를 조정하여 회귀 수..

728x90
반응형