시스템

web Crawler에 대한 질의응답문

네오류이 2021. 1. 12. 13:38
728x90
반응형

web Crawler에 대한 질의응답문

 

 

 

web Crawler에 대한 질의응답문인데 괜찮네요.

 

 

* 질문 *

 

언어 : Python , PHP 중 1택

서버 : Apache

DBMS : MySQL

 

어디서 부터 정보를 모아야 할지 막막합니다.

 

우선 저는 국내에 출판된 책중 파이썬 관련 책에 크롤러 관련 목차가 있어 이책부터 볼려고합니다.

그리고 data mining은 어떻게 접근 하는것이 좋을까요?

 

Crawler 와 data mining 분석시스템 설계에 대하여 접근방법 조언 구하고싶습니다. 

 

 

* 댓평 *

 

너무 포괄적인 질문이라 답변하기가 그렇네요. ^^;

 

크롤링의 범위와 크롤링 대상을 정해야 하겠죠. 데이터 가공과도 연관이 되는 부분이구요.

 

이런 포괄적 질문에도 육하원칙은 적용이 됩니다.

 

뭘, 왜 하고 싶은지 알아야 그에 맞는 답을 합니다. 

 

그러면 다시 스무고개가 시작되고(스무고개도 문제를 풀어가는 한가지 방식이긴 합니다만

소모적이라는 단점이...)

 

 

 

CI 포럼에서 파이썬 답을 하는 것은 좀 이상하긴 하지만;

파이썬의 경우 requests, beautifulSoup를 사용하면 간편하게 데이터를 불러와 가공할 수 있습니다.

CI로 구현하고자 하면 curl 등을 찾아보시면 될텐데, 데이터 가공이 용이하려면 아무래도 파이썬 쪽이 더 나을 수 있겠네요.

 

 

 

Java 하신다면 apache의 오픈소스 solr를 사용하시면 좋으실텐데..한번 참고해서 보세요. http://projects.apache.org/projects/solr.html

 

 

 

crawling 은 python scrapy 쓸만한 것 같구요

광범위하게 crawling 하시려면 celery 같은 task queue 사용해서 분산 처리하면 어떨까 하네요

data mining은 solr나 elastic search 공부하시면 도움이 될 것 같습니다

요즘은 elastic search 많이들 사용하는 것 같아요

 

 

 

하얀기억님 감사합니다.

scrapy , celery , task queue 에대해서 알아보겟습니다.

728x90
반응형