일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 파이썬강의
- 셀레니움
- 비전공자파이썬
- 파이썬인강
- 파이썬수업
- 비트코인
- MBTI성격검사
- 순천여행
- 파이썬 인강
- 파이썬독학하기
- MBTI
- 파이썬배우기
- 중국수출통제
- 노르웨이기준금리
- MBTI성격유형
- 암호화폐
- 패스트캠퍼스후기
- 패스트캠퍼스수강후기
- 파이썬온라인수업
- SQL
- 광교카페
- swift문법
- 스크래핑
- 스위스기준금리
- 파이썬독학
- 파이썬기초
- 파이썬문법
- 파이썬강의후기
- 미국디리스킹
- 파이썬클래스
- Today
- Total
목록전체 글 (89)
이제 데이터 공부 안하는 블로그
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/odGhx/btqOnxPVoqz/EHRbflU0sWZpeKzGYlZl5K/img.jpg)
오늘 스크래핑은 네이버금융에 주가 페이지를 활용해 연습해 보았습니다. 시가 총액 순위를 200위까지 가져와서 데이타를 csv형태의 파일로 만들어서 엑셀로 열어 보는 것입니다. import하는것은 앞에서와 마찬기자로 requests와 beautifulsoup그리고 여기에 하나더 csv 입니다. 먼저 url 변수를 선언해서 주소를 가져옵니다. 주식 시가총액을 검색해서 페이지로 들어가면 순위별로 주식회사의 이름이 뜹니다. 앞에서 배웠던것과 비슷하게 url에 page이후에 나오는 숫자를 변경하면 원하는 페이지로 갈수있습니다. url = "https://finance.naver.com/sise/sise_market_sum.nhn?sosok=0&page=" page뒤에 숫자를 지우고 url에 넣어줍니다. for반복..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/dLEO0R/btqOjm1lPhn/Br4WpzuptmeFEqlvZxTbxk/img.jpg)
24회차 다음에서 이미지 파일을 가져오는 스크래핑을 연습해 보았습니다. 역대 영화 순위 5위 안에 드는 영화들의 이미지 파일을 저장하는 것인데 사람이 작업을 하면 3번이상의 클릭을 거쳐야만 이미지 파일을 저장할수 있는 있습니다. 하지만 우린 파이썬이 있으니까요. 한번의 코딩으로 가능!! 오늘도 beautifulsoup으로 진행합니다. 먼저 다음에서 영화를 검색해보면 메인 화면에서 연도별 영화 순위를 볼수 있습니다. 2019년, 2018년 이렇게 클릭하면서 url이 어떻게 바뀌는지 확인할수 있습니다. 이부분을 앞으로 이용하도록 합니다. 먼저 영화의 포스터 이미지들이 제대로 가져와지는지 코딩으로 알아 보겠습니다. 시작은 항상 똑같이 합니다. requests 와 beautifulsoup을 import해 줍니다..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/ciEMZc/btqN8fCQzdP/W88PAI6qmOtIWjpqde2I91/img.jpg)
23일차 수업입니다. 지난 번에 이어서Beautifulsoup 를 활용해서 웹페이지를 스크래핑해오는 수업을 들었습니다. 지난 번에는 쿠팡 홈페이지에서 한 페이지 안에 제품명, 가격, 평점, 리뷰수를 가져오는 작업을 했고,광고 중인 상품 등 내가 필요 없는 특정 상품을 제외하고 스크래핑하는 방법,리뷰 200개 이상, 평점 4.5 이상의 제품 등 내가 원하는 특정한 제품만 스크래핑하는 방법도 배웠습니다. 오늘은 여러 페이지를 스크래핑 하는 방법과 링크를 스크래핑해서 출력값으로 나온 링크를 누르면 바로 그 링크로 연결되도록 하는 것을 배웠습니다. (링크를 출력한다는 뜻 ^ㅠ^) 여러 페이지를 스크래핑하는 방법 반복문 for 와 range를 사용해서 1부터 5까지 숫자가 반복되게 만들어줍니다. for i in..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bAGbz8/btqN00Mv7ns/3VZMcIAUv2D96RXyf84bpK/img.jpg)
쿠팡 스크래핑을 계속 하겠습니다. 어제까지 제품명, 가격, 평점, 리뷰수까지 가져오는 코드를 작성해 보았습니다. 오늘은 거기서 광고를 제외하고, 내가 원하는 평점이상의 제품들만 가져오는 코드를 완성해나가 보겠습니다. 여기서 정규식이라는것도 나오는데 이부분은 강사님도 너무 다양하고 공부할게 많다고 설명했고 자세히 공부하지 못했습니다. 오늘 사용하는 것만 간단히 설명해보면 일단 re 라이브러리를 불러옵니다 import re 를 맨 위에 추가 해 줍니다. 그리고 변수를 추가해 줍니다. soup 변수 아래에items = soup.find_all("li", attrs={"class":re.compile("^search-product")})attrs에 re.compile 메소드를 추가하고, search-produc..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bl6RJH/btqNWga6T6M/96Q4Y0kNyU8HXwxIuscEUK/img.jpg)
21일차 오늘은 쿠팡에 있는 페이지를 스크랩핑 하는 것을 학습했습니다. 먼저 get과 post 방식의 http 메소드를 다시한번 짚고 넘어가겠습니다. get방식은 url자체에 정보를 담아 서버로 보내는 방식입니다. 우리가 쿠팡 페이지를 볼때 주소창을 클릭해보면 주소뒤에 다양한 정보들이 담겨 있습니다. 이렇게 쉽게 볼수 있도록 정보를 담아보내는것이 get입니다. post는 url 자체에 정보를 담지 않고 html의 body안에 정보를 넣어 보내는것입니다. id나 비밀번호 같은 것들을 url 자체에 담아 보내게 되면 보안에 치명정이겠죠. 물론 post도 엄청나게 안전한것은 아니지만 get에 비해서는 나름대로 안전합니다. 그리고 나서 다시 쿠팡 스크래핑을 연습했습니다. 시작은 항상 똑같습니다. beautifu..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/lrR5T/btqNQ4Cac0y/fwUjyRgnKVXWAOl7YWEK00/img.jpg)
어제 웹툰을 페이지에 있는 내용들을 스크래핑 했었는데요, 이부분을 계속해서 학습하겠습니다. 웹툰 페이지에 보면 웹툰 순위가 있습니다. 이부분을 스크래핑 해보겠습니다. rank1 이라는 변수를 선언해서 가져오겠습니다. 크롬에서 개발자도구를 통해 살펴보면 1위인 웹툰은 li태그에서 class가 rank01이라는 이름으로 되어있습니다. rank1 = soup.find("li", attrs={"class":"rank01"})이렇게 해주면 1위 웹툰을 가져 오게됩니다. 웹툰을 제목을 보고 싶다면 print(rank1.a.get_text())라고 코딩해주면 제목만 나오게 됩니다. 이어서 2위인 웹툰을 알고 싶다면 next_sibling이라는 명령으로 가져올수 있습니다. rank2 = rank1.next_siblin..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/vNCXj/btqNWgN2W9J/2fFGk9WtFeUWrUFtbFWos0/img.jpg)
18일차 강의만으로는 진도를 따라가기가 벅차서 수업 내용의 이해를 돕기 위해 구글링도 해보고, 유튜브 무료 강의도 참고하는 등 여러 자료를 이용하고 있습니다. 따라가기가 어려워도 미션을 완수하려면 매일 조금씩 진도를 나가야하는데 그래서 덕분에 찾아가며 공부를 하게 됩니다. 다행이도 인터넷에 파이썬 수업 자료가 참 많고 많은 프로그래머들이 개인 블로그에 자세하게 공부한 것들을 공유해줘서 잘 활용하고 있습니다. 특히 '나도코딩' 유튜브 강의 너무 고퀄입니다. 감사합니다. 오늘 수업의 대부분은 나도코딩의 강의를 정리했습니다. (https://youtu.be/yQ20jZwDjTE) 본격적으로 BeautifulSoup을 이용하여 스크래핑을 연습했습니다. 우선 아래와 같은 명령어를 입력하여 BeatutifulSou..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/TMRQr/btqNQwjDwpn/T2EnOrDbX3jUNSKMvstpxK/img.jpg)
17일차 xpath 오늘 자세하게 xpath가 무엇인지 좀더 알아 보겠습니다. xpath는 html에서 좀더 쉽게 원하는 태그를 찾아갈수 있게 해주는 경로입니다. 쉽게 예를 들어 보겠습니다. 학교를 가정해보겠습니다. 유재석 박명수 노홍철 정준하 박명수 이렇게 있다고 하면 유재석 학생을 부르기 위해서는 코딩학교 > 1학년 > 1반 > 1번 이라고 불러 줘야 합니다. 만약 학교에 유재석 학생이 한명이라면 그냥 유재석 학생이라고만 불러도 되겠죠. 하지만 2번 박명수 학생의 경우 같은 이름의 학생이 또있습니다. 이경우에는 처음부터 끝까지모든 번호를 불러 주어야 합니다. 만약에 학생에게 학번이 있다고 가정해 보겠습니다. 유재석 박명수 이렇게 되면 학번 1-1-2 박명수 라고 쉽게 부를수 있게 됩니다. 이렇게 학번..