이제 데이터 공부 안하는 블로그

[패스트캠퍼스 수강 후기] 파이썬 인강 100% 환급 챌린지 13회차 미션 본문

파이썬

[패스트캠퍼스 수강 후기] 파이썬 인강 100% 환급 챌린지 13회차 미션

공사노비 2020. 11. 14. 17:07


12일차

주말이라 놀고는 싶은데 또 파이썬 공부는 해야하고 그래서 카페 나와서 수업을 들었습니다.

파이썬 크롤링 심화 강의를 본격적으로 시작합니다.
오늘은 이전에 기초 과정에서 했던 폴더 만들기민 기본 세팅부터해서 스크랩핑 기초 부분 정도까지 학습했습니다.

제가 맥을 사용중이라 맥을 기준으로 이야기해보겠습니다.
폴더 만들기를 먼저 하는데 보통 우클릭해서 폴더 만들기 클릭, 이런 방식이 아니라 터미널에서 수행합니다.
가상환경을 만들어야 하기 때문입니다.

먼저 터미널을 실행한 다음, cd 명령어를 사용해서 내가 새로운 파이썬 폴더를 만들고 싶은 위치로 이동합니다. 최상위에 C드라이브 에 폴더를 만드는게 편리할거 같아 그렇게 해보겠습니다. 그냥 cd..만 쳐주면 최상위 c://로 이동됩니다. 여기서 python -m venv python_crawl(폴더이름) 이라고 입력해주면 새로운 폴더가 생성됩니다 그리고 cd pyhton_crawl 입력해서 python_crawl 폴더로 이동합니다. 여기서 가상환경을 활성화해주기위해서 cd bin을 입력으로 bin폴더로 이동합니다. 여기서 명령 프롬프트에 source ./activate해주면 앞에 괄호로 내가 만든 폴더가 가상환경이 실행된 것을 확인할수 있습니다.

폴더를 두번에 걸처 python_crawl, bin으로 이동했는데요, 한번에 cd python_crawl/bin이라고 입력할 수도 있습니다. 여기까지 완료한 다음 명령 프롬프트에서 code를 입력하면 vs code가 실행됩니다.

마지막으로 vs code에서 python select interpeter를 통해서 만들어준 폴더에 있는 python파일을 경로를 잘 확인해서 선택해 줍니다. 커맨드 팔레트에서 tasks configure task를 실행해서 other로 json파일을 만든후 강사님이 올려놓은 파일내용을 붙여넣기 해줍니다. 잡다한 글이 안나오고 단축키로 py파일을 실행할수 있게 해줍니다. 그리고 터미널에서 pip install simplejson이런 것들을 설치해줍니다.

자 이러면 준비 완료!!!

이제 간단히 크롤링 실습을 들어갑니다.
스크랩핑을 학습했는데요. urllib라는 라이브러리를 import해서 다양한 기능을 사용할수 있습니다. 네이버에서 아무거나 검색한 다음에 나오는 이미지 하나를 선택해서 우클릭 이미지 주소 복사를 통해 주소를 알아냅니다. 주소를 변수에 지정해서 넣어주고, 다운받을 파일의 경로를 변수에 또하나 지정해줍니다.

그리고 코드를 그냥 작성하지 않고 try함수를 사용해서 에러가 날 경우를 대비하며 코딩해 줍니다.

urllib에는 urlretrieve라는 강력한 함수가 있습니다. 이 함수에 위에 만든 이미지 주소 변수와, 저장될 경로 변수를 지정해 주고 실행시키면, 다운받은 파일과 헤더값 이렇게 2가지 값을 반환해줍니다. 실제로 지정해준 경로에 파일이 잘 저장되고 헤더값을 print함수를 이용해 확인해 볼 수도 있습니다. 여기서 헤더는 html시간에 배운것으로 모든 서버와 통신해서 데이타를 받을때 필요한 정보들이 들어있습니다.

여기까지 하고 오늘 공부 끝!!!!!


오늘은 카페에서 달다구리 먹으며 파이썬 수업을 들었습니다. 예쁜 카페에서 강의들으니까 집중이 더욱 안되더라구요(놀고 싶어서) ^_^ 역시 공부는 집에서 조용히 하는걸로..


 강의소개 https://bit.ly/33a7nvc