위메프 카테고리 상품 크롤링 by Selenium
대상 카테고리는 패션,뷰티 / 식품,생활,유아동 / 가전,디지털 총 3가지 카테고리이며 아래 url
주소에 각각
- 패션,뷰티 : http://www.wemakeprice.com/main/100010
- 식품,생활,유아동 : http://www.wemakeprice.com/main/100010
- 가전,디지털 : http://www.wemakeprice.com/main/100030
을 넣으면 된다. 또한, 마지막의 df.to_excel('df.xlsx', sheet_name='sheet1')
부분의 df.xlsx
은 카테고리별로 다르게 지정해주도록 하자. 실행은 jupyter notebook
으로 하고, Selenium
은 미리 설정이 되어 있어야하니 이전글을 참고하고 시작하자.
정확히 내가 크롤링 하고 싶은 정보인 DataFrame df_1
은
카테고리 상품 상위 501개 중
오늘오픈
한 상품이자히든프라이스
상품이 아닌 데이터의게시 순서
와상품 이름
과판매 가격
과원 가격, ~ & 外 표현이 있는지 여부
와상품 이름 길이
이다.
기준 시간은 2018년 7월 15일 오후 11시 50분 경이다.
혹시 len(items)
가 501개 이하로 나온다면 time.sleep(3)
에 숫자를 조금 더 크게 바꿔주자.
급하니 일단 코드만…
1 | import requests |
한 칸 Enter된 것 마다 다른 셀에 집어넣어서 실행시키면 된다.
패션,뷰티 카테고리 코드 실행 결과는 아래와 같다.
생각보다 코드를 빠르게 짜서 나도 놀랐다. 하지만 pandas 명령어가 막히는 비율이 너무 많다. 조금씩 줄여나가자.
자, 이제 위 데이터를 바탕으로 선형 회귀 분석을 하러 가볼까나!