web Crawler에 대한 질의응답문

시스템

web Crawler에 대한 질의응답문

네오류이 2021. 1. 12. 13:38

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

728x90

web Crawler에 대한 질의응답문

web Crawler에 대한 질의응답문인데 괜찮네요.

* 질문 *

언어 : Python , PHP 중 1택

서버 : Apache

DBMS : MySQL

어디서 부터 정보를 모아야 할지 막막합니다.

우선 저는 국내에 출판된 책중 파이썬 관련 책에 크롤러 관련 목차가 있어 이책부터 볼려고합니다.

그리고 data mining은 어떻게 접근 하는것이 좋을까요?

Crawler 와 data mining 분석시스템 설계에 대하여 접근방법 조언 구하고싶습니다.

* 댓평 *

너무 포괄적인 질문이라 답변하기가 그렇네요. ^^;

크롤링의 범위와 크롤링 대상을 정해야 하겠죠. 데이터 가공과도 연관이 되는 부분이구요.

이런 포괄적 질문에도 육하원칙은 적용이 됩니다.

뭘, 왜 하고 싶은지 알아야 그에 맞는 답을 합니다.

그러면 다시 스무고개가 시작되고(스무고개도 문제를 풀어가는 한가지 방식이긴 합니다만

소모적이라는 단점이...)

CI 포럼에서 파이썬 답을 하는 것은 좀 이상하긴 하지만;

파이썬의 경우 requests, beautifulSoup를 사용하면 간편하게 데이터를 불러와 가공할 수 있습니다.

CI로 구현하고자 하면 curl 등을 찾아보시면 될텐데, 데이터 가공이 용이하려면 아무래도 파이썬 쪽이 더 나을 수 있겠네요.

Java 하신다면 apache의 오픈소스 solr를 사용하시면 좋으실텐데..한번 참고해서 보세요. http://projects.apache.org/projects/solr.html

crawling 은 python scrapy 쓸만한 것 같구요

광범위하게 crawling 하시려면 celery 같은 task queue 사용해서 분산 처리하면 어떨까 하네요

data mining은 solr나 elastic search 공부하시면 도움이 될 것 같습니다

요즘은 elastic search 많이들 사용하는 것 같아요

하얀기억님 감사합니다.

scrapy , celery , task queue 에대해서 알아보겟습니다.

728x90

저작자표시 (새창열림)

'시스템' 카테고리의 다른 글

핸드폰에서 왜 광고가 안뜨지? 내 티스토리에.. 그 이유가 ㄷㄷ (2)	2023.11.29
Google Analytics (구글 어널리틱스)에 대하여 (0)	2021.01.13
웹 크롤링_bs4(beauteful soup) & scrapy 비교설명 (0)	2021.01.12
Error 1130 Host 'xxx' is not allowed to connect to this MySQL server (0)	2021.01.12
윈도우 사용자 계정 로그인 암호 분실, 암호 변경하는 방법 입니다. (0)	2021.01.11

현재글web Crawler에 대한 질의응답문

250x250

우리나라역사, 세계사. 그리스신화를 중심적으로 다루는 나의 역사 티스토리 다양한 유튜브 정보를 제공하는 티스로리

c++, 중국, 그리스, ASP, 조선, 접기, 마이닝, 안드로이드, 자바스크립트, 신화, 방법, 영화, 만들기, 추천, 일본, 역사, 함수, 유튜브, 추천영화, 종이접기,

Today :
Yesterday :

세상사즐겁고행복하게