이제 데이터 공부 안하는 블로그

[패스트캠퍼스 수강 후기] 파이썬 인강 100% 환급 챌린지 15회차 미션 본문

파이썬

[패스트캠퍼스 수강 후기] 파이썬 인강 100% 환급 챌린지 15회차 미션

공사노비 2020. 11. 16. 22:17

 

 

 

14일차

오늘 학습할 주제는 계속해서 스크랩핑입니다. 

스크랩핑에 도움을 주는 함수들을 배워왔는데요 오늘은 그중에서 lxml입니다. 


lxml을 설치 하기 위해서는 앞에서 배웠던 내용을 또 반복합니다. 


맥을 기준으로 터미널을 열어서 내가 원하는 폴더에서 파이썬 가상환경을 활성화해줍니다. 그 상태에서 pip 명령어로 pip install lxml 이라고 써주면 설치 프로세스가 시작됩니다. 바가 나오고 0에서 100%까지 진행됩니다. 강사님은 이부분에서 이런저런 질문이 많았다고 하셨는데요 저도 마찬가지고 pip명령을 사용하려고 하면 warning주더라구요. 업그레이드 하라는 내용이었습니다. warning부분을 잘 읽어보면 어떻게 하라고 친절하게 설명이 나옵니다. 그래서 그래도 pip install —upgrade pip 라고 써주고 업그레이드를 마쳤습니다. 이렇게 하고나서 code를 쳐서 vscode를 실행합니다. py파일을 하나 만든다음에 여기서 Import lxml을 쓰고 설명이 나온다면 잘 설치된겁니다. 

저는 이부분에서 lxml이 설명이 안나오고 그냥 텍스트 처리가 되어서 뭐가 문제인가 찾아보니 select python interpeter에서 파이썬이 설치된 폴더 경로를 지정해주는 부분이 풀려서 안됐었습니다. 다시 경로를 지정해주니까 제대로 되었습니다. 
매번 뭔가 가상환경을 활성화하고 필요한 패키지를 설치하는것만도 매끄럽지 않습니다. 이렇게 시작부터 항상 어려워서야… ㅠㅠㅠㅠㅠ

아무튼 본격 강의로 들어갑니다. 


오늘 내용은 네이버 메인 화면에 있는 신문사 링크들을 스크랩핑 해보는것입니다. css selector를 이용해서 스크래핑하는데요, 강사님은 “드디어! css selector 입니다 “하고 하는걸 보면 뭔가 중요한거 같습니다. 코드 부분은 한번 따라써보면서 해야 할것 같습니다. 보기만해도 어렵고요. 


네이버에서 css selector를 가져오는것은 네이버를 크롬으로 연다음에 개발자도구에서 찾을수 있습니다. 
마우스 화살표 같은 도구를 활용하면되는데요, 내가 얻고 싶은 정보가 있는 아이콘위에 마우스 화살표를 갖다대면 개발자도구에서 그 html이 파란색으로 보이게 됩니다. 아주 직관적이라 알기 쉽습니다. 


네이버에 신문사 링크들도 마찬가지로 마우스를 가져다 대면 css 부분이 파랗게 됩니다. 하나씩 열어서 확인해보니 공통적인 부분이 있고 개별적으로 다른 부분도 있습니다. 이것을 한번에 가져와서 쉽게 쓰려면 공통적인 부분을 가져와서 사용해야 합니다. 크롬에서 제공하는 css selector 복사하기를 해보니 개별적으로 다른부분이 셀렉트 됩니다. 강사님은 크롬이 가장 간단한 셀렉터를 자동으로 찾아준다고 합니다. 그렇다 보니 필요한 부분이 다를때에는 수동으로 선택해줘야 합니다. css selector는 다양하게 있는데 이것은 구글에서 검색하면 많이 나옵니다. 따로 공부를 해서 알아두어야 할것같습니다. 


오늘은 여기까지!!

 강의소개 https://bit.ly/33a7nvc