데이터분석가가 되기 위해 계속 자료를 모으고 있는데 구글링을 하다보니 괜찮은 인터뷰기사가 있어서 소개해 드립니다.
전체 인터뷰내용은 아래 참고문헌 을 보시고요. 제 입장에서 괜찮은 부분을 발췌하였습니다.
인터뷰는 데이터 사이언티스트 전희원 님의 인터뷰입니다.
데이터 사이언티스트는 전산학을 기반으로 통계학, 인지심리학, 디자인 등 다양한 영역의 전문 지식을 갖춰야 한다고 들었습니다.
첫 직장이었던 검색엔진 개발업체에서 일할 때 머신러닝 학습이나 데이터 마이닝에 대해 공부해야 할 필요성을 절실히 느꼈어요. 그래서 고려대 대학원에 등록해 공부했는데 이게 큰 힘이 됐어요. 석사 논문을 쓸 때 마침, 야후!코리아에서 ‘하둡 기반의 빅데이터 분석을 통한 서비스 개선’ 프로젝트가 진행됐습니다. 이 때 경험을 반영해 논문을 작성해 최고 논문상까지 받았어요. 야후!에서 근무할 때 기계학습 분야의 권위자(사이언티스트)로부터 기계학습과 데이터 마이닝에 대한 실무 노하우를 배운 것도 큰 힘이 됐고요.그 분은 제가 데이터에 대해 눈을 뜨게 해준 고마운 분이었습니다.
분석에서 통계학이 기반이 된다고 하는데, 그 부분은 어떻게 접근했나요?
야후!에서 빅데이터 분석 프로젝트를 하면서 데이터 처리에 어느 정도 자신감이 붙자 통계학을 공부해야겠다는 생각이 들더군요. 이리저리 알아봤는데, 방송통신대학의 학부 과정을 많이 추천하더라고요. 지난해에 3학년에 편입해 이제 1년이 됐습니다. 데이터 분석에 근거한 기계학습과 머신러닝은 통계학에 뿌리를 두고 있을 만큼 분석 분야의 기초 학문이 통계학이기 때문에 데이터 분석 업무를 하려면, 통계학을 분명히 공부해두는 건 필수에 가깝다고 생각합니다. 통계학 수업을 들으며, 의외로 다양한 영역의 사람들이 통계학을 공부하러 온다는 것을 알게 됐어요. 사회과학자, 의사, 교수, DB 엔지니어 등 전문가들이 필요에 의해 자발적으로 통계학을 공부하고 있었습니다.
데이터 분석에 관심을 갖고 있는 개발자나 DB 엔지니어에게 조언을 한다면요.
흔히 컴퓨터 분야에서 일하는 사람들은 유행에 매우 민감하다고 합니다. 저도 예외는 아니었죠. 대신 저는 제가 하는 일을 제대로 해보고 싶다는 생각을 했어요. 만약 어떤 아이템이 유행한다고 그걸 따라 다녔다면, 저는 수많은 데이터 분석 경험을 갖지 못했을 겁니다. 한 분야를 물고 늘어졌던 게 저를 공부하게 해줬고 스스로를 동기화해 줬던 거 같습니다. 지난해 겨울에 넥스알로 옮겨올 때 약간의 시간이 나서 요즘 유행하는 안드로이드 모바일 프로그래밍을 일주일 간 집중적으로 공부한 적이 있었습니다. 모바일에 대해 이해 해두는 게 도움이 될 거 같다는 생각에서요. 예전에 셀빅 PDA 프로그래밍을 좀 했는데, ‘안드로이드 모바일 프로그래밍의 기반도 예전의 PDA 프로그래밍과 별 달라진 게 없구나’ 하는 생각을 하게 됐습니다. 공부를 하다 보니, 어느 시점에 이르면, 다른 분야와 연결된다는 느낌으로 다가올 때가 있더군요. 그렇기 때문에 될 수 있으면 ‘베이스’에 대해 다시 공부하는 것을 추천합니다. 새로운 게 나왔다고 불안해 하는 대신 베이스를 다시 한번 되짚어 보면 큰 힘이 될 거라고 생각합니다.
학부 수준의 DB 관련 지식이나 알고리즘에 대한 것이 예입니다. 리마인드 차원에서 다시 공부해 명확히 이해 해두면 ‘유행에 뒤쳐지는 것 아냐?’ 하는 불안한 마음도 누그러지고 스스로 힘이 생긴다는 느낌이 들었습니다. 방송통신대에서 공부할 때, 전공 과목이 시간이 겹쳐 알고리즘 과목을 수강해야 했는데 정말 큰 도움이 됐습니다. 제 기준으로 보면, 앞서 얘기했듯이 학위 취득보다 제가 하고 있는 일에 대한 호기심이나 현업에서 필요한 것을 공부했을 때 강력한 내적 동기화가 됐어요.
요즘 빅데이터에 대한 관심이 높은데 미리 경험해본 전문가 입장에서 이 분야에 관심을 가진 분들에게 조언을 한다면요.
빅데이터도 웹2.0도 핵심은 데이터라고 생각합니다. 하지만 현재로선 플랫폼에 관심이 더 쏠린 느낌입니다. 데이터 분석과 통계, 마이닝을 공부하면서 필요해지면 플랫폼에 대해 공부하는 방법이 있는데, 플랫폼부터 접근하면 실체를 알 수 없기 때문에 더 막연해질 수 있고 내적 동기화가 덜 되지 않을까 생각해 봤습니다. 물론 사람마다 공부하고 적응하는 방법이 다르지만요. 빅데이터의 핵심이 무엇인지를 늘 생각해보면 좋을 거예요. ‘핵심은 데이터’라고 본다면, 분석과 통계?마이닝 공부를 우선해야 한다는 말이 될 거 같습니다.
데이터 사이언티스트가 되기 위해서는 시간이 많이 필요하다고 하는데 왜 그런가요?
적은 데이터를 다룰 때는 모르겠는데요, 데이터가 커지면서 노하우가 필요했어요. 하나의 예로서 야후!에서 검색엔진을 개발할 때, 대용량 데이터에 색인을 걸어두면 중간에 시스템이 다운되는 거예요. 이 문제의 해결 키는 데이터 클리닝이었어요. 이게 바로 노하우입니다. 이런 경험을 많이 하려면 절대적으로 시간이 필요한데, 그런 시간이 필요하다는 의미가 아닐까 합니다. 더불어 데이터 분석만 했던 사람들은 리눅스 커맨드라인 인터페이스를 낯설어 하더군요. 텍스트 마이닝 단계에서는 맥OS를 포함한 리눅스 등이 주로 사용되는데, 노하우는 여기서 분명히 드러나더군요.
소위 ‘꼼수’가 통할 수 있기 때문이지요. 윈도우 OS는 이런 게 제한적이므로 분석에 입문하려면 리눅스와 친해질 필요가 있습니다. 그런 공부까지 하려면, 시간을 꽤 할애해야 할 겁니다. 최근 한 책에서 봤는데, 사람들이 무언가를 할 때 초조해 하는 이유는 그 일이 해결되는 데 필요한 절대적인 시간을 적게 할애해 놓은 데에 있다고 하더군요. 일단 데이터 분석에 관심을 갖고 흥미로운 지점을 발견하는 데서부터 시작하라고 권하고 싶습니다.
블로그에서 R에 대한 포스팅이 많았어요. R가 무엇인지 쉽게 소개해주세요.
‘R는 데이터를 다루는 언어’라고 정의하면 아무래도 쉽지 않을까 합니다. 통계학자가 만든 거라서 일반 프로그래밍 언어와 다른 부분이 적지 않습니다. 제 개인적으로 Perl이나 파이선을 배우는 데 걸렸던 시간보다 R를 배우는 데 더 많은 시간이 걸렸어요. 하지만 데이터를 분석하다 보니 왜 그렇게 만들었는지 이해할 수 있게 되더군요. 아무래도 컴퓨터 프로그래머가 만들었더라면 더 명쾌했을텐데, 통계학자가 만들어서인지 아쉬운 점이 보였습니다. 그래도 사용해보면 알겠지만, 대단한 도구라는 점은 분명합니다.
요즘 IBM, 오라클, EMC 등이 분석 전문 업체를 인수해 상용 분석툴을 내놓고 있는 걸로 알고 있습니다. R는 이러한 도구와 경쟁관계에 있다고 볼 수 있나요?
이에 대한 직접적인 답보다 각 툴의 도메인이 있다는 것으로 대신하고 싶습니다. SAS나 SPSS는 알고리즘 하나 추가하는 데 수백에서 수천 명이 테스트한다고 들었습니다. R와 같은 오픈소스 제품은 상용 분석툴처럼 전문적으로 정확성 테스트를 하기가 현실적으로 쉽지 않습니다. 따라서 생명과 즉결되는 영역 등 미션크리티컬한 분야의 데이터 분석은 아무래도 상용 툴의 영역으로 남지 않을까 생각합니다. 이런 분야를 제외한다면, 오픈소스인 R를 도입하면 패키지 구입비 절감과 함께 불편함을 겪는 과정 중에 튼튼한 실력까지 갖추게 될 거라고 생각합니다. 더불어 IBM, 오라클, EMC 등이 내놓은 상용 분석툴에서 R API를 제공하기 때문에 더 유리하다고 볼 수 있습니다.
데이터 사이언티스트에 관심을 가진 독자께 한마디 부탁드립니다.
데이터베이스와 알고리즘, 프로그래밍 언어를 어느 정도 이해하고 있다면, 분석에 대한 관심부터 가져볼 것을 권합니다. 자신의 목표 지점에 이르려면 벽을 뛰어넘어야 할 순간과 맞닥트릴 건데요, 그때 포기하지 말고 물고 늘어져보세요. 고민하고 힘든 만큼 분명 남는 게 있을 겁니다. 그리고 통계학?데이터 마이밍 등 다양한 분야를 한번에 공부한다고 생각하지 말고 절실히 필요한 시점이 오면 하는 방법이 있습니다. 하나가 해결되면, 공부해야 할 다른 분야가 나타날 겁니다. 그때마다 스스로를 동기화하면서 도전하는 겁니다. 파이팅!
제가 인터뷰기사에서 제 입장에서 꼭 필요한 부분을 발췌를 했는데요..
이 내용 부분을 좀 정리를 하자면.. 결국 데이터 자체의 중요성과 기본적인 통계학 소양을 갖춰서 R을 통한 기본 데이터 통계,분석을 통해 기초를 탄탄히 하고, 엑셀 같은 오피스툴을 가지고도 기초적 분석이 가능하다고 봅니다.
그래서, 저 입장에서는 우선 R을 한번 해볼까 합니다. ^^
통계학은 제가 올린 http://neoryuee.tistory.com/114 에서 우선 보시면 될 것 같아요, 저는 한번은 다 봤는데 이제 기억이 안나네요.
여러분도 우선 통계학을...
-------------------
참고문헌 - http://freesearch.pe.kr/archives/2870
#데이터 #데이터분석가 #마이닝 #추천 #통계학
'프로그램 > 데이터마이닝' 카테고리의 다른 글
[빅데이터] 빅데이터란 무엇일까? (0) | 2021.01.13 |
---|---|
빅데이터 분석 및 개발에 있어 유의해야 할 항목들 (0) | 2021.01.13 |
하둡 이란? (0) | 2021.01.13 |
하둡 에코시스템 (0) | 2021.01.13 |
웹 크롤링(scrapy) 강좌 (0) | 2021.01.12 |