일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- python
- 소셜네트워크분석
- r
- 하계인턴
- matplot
- ggplot2
- Ai
- 빅분기
- 기계학습
- 웹크롤링
- httr
- 가나다영
- 딥러닝
- kt aivle school
- kaggle
- cnn
- 한국전자통신연구원
- arima
- ETRI
- 다변량분석
- Eda
- KT AIVLE
- 프로그래머스
- 머신러닝
- 지도학습
- ML
- 빅데이터분석기사
- SQLD
- 에트리 인턴
- 에이블스쿨
- dx
- SQL
- hadoop
- 에이블러
- 시각화
- 한국전자통신연구원 인턴
- KT 에이블스쿨
- 시계열
- 서평
- 하둡
- Today
- Total
목록Web crawling (17)
소품집
로케일(Locale)이란? 국가마다 서로 다른 문화를 가지고 있다 보니, 시간과 숫자등 표시하는 방법 등에서 상당한 차이를 보입니다. 따라서 운영체제(OS)는 국가마다 서로 다른 로케일을 제공하고 있음 로케일은 국가마다 다음과 같은 여러가지 표시 형식을 설정하는 것 LC_COLLATE(문자 정렬), LC_CTYPE(문자처리), LC_MESSAGES(언어/문화)등 로케일을 왜 알아야 하나? 한글 인코딩 방식이 로케일에 영향을 받기 때문 아울러 EUK-KR 또는 CP949 인코딩 방식의 R 객체를 처리하지 못하는 함수가 있음. ex) html_table() 함수 로케일 관련 R 함수들 Sys.getlocale(): 현재 설정된 로케일을 확인 Sys.setlocale(category='LC_ALL', loca..
KOSPI 200 종목 부분 추출 네이버 주식에서 코스피 200기업 명과 일별 시세를 뽑아보는 크롤링을 해보려고 합니다. 코스피 200 기업 추출 # url 요청 res % html_nodes(css='td.ctg a') %>% html_text() print(tbl) 상위 200개 종목 링크 가져오기 # 상위 200개 종목 링크 가져오기 # 연동되는 링크 가져오기 temp2 % read_html(encoding = 'EUC-KR') %>% html_nodes(css='td.ctg a') %>% html_attr('href') #완전한 링크 만들기 temp2 % html_table() # table로 반환 Sys.setlocale(category = 'LC_ALL', locale = 'korean') p..
JavaScript의 이해 JavaScript는 객체 기반의 스크립트 언어로 웹 브라우저의 경우 엔진이 인터프리터의 역할을 수행 JavaScript는 HTML 및 CSS와 함께 사용됩니다. HTML은 웹 페이지의 전체 틀을 잡고, CSS는 개별 요소의 디자인 맡음 JavaScript는 사용자와의 상호작용을 통해 웹 페이지에서 보여주는 콘텐츠를 동적으로 제어함 AJAX와 XHR AJAX는 JavaScript 라이브러리 중 하나이며, 'Asynchronous JavaScript And XML'(비동기 JavaScript 및 XML)의 머리글자 입니다. (비동기처리란? 특정 코드의 연산이 끝날 때까지 코드의 실행을 멈추지 않고, 순차적으로 다음 코드를 먼저 실행하는 자바스크립트의 특성. 예를들어 은행은 동기처..
Cookies 란? 쿠키란 웹 사이트에 방문했을 때 웹 서버가 클라이언트 컴퓨터에 저장해 놓은 파일을 의미 예를 들면 로그인 상태 유지, 쇼핑몰 장바구니와 같은 정보를 기록함 이 특징을 이용하면 웹 서버에 저장해 놓은 쿠키는 로그인 상태로 HTTP 요청이 가능해짐 실습 - 잡 플레닛 잡플래닛 - Jobplanet 잡플래닛 - Jobplanet 채용정보부터 직장인이 직접 남긴 기업리뷰, 연봉정보, 면접후기, 복지정보, 기업분석까지 www.jobplanet.co.kr !! 로그인을 하지 않아도 로그인 정보가 남아있는 '쿠키'로 데이터를 긁어와, 실습을 해보겠습니다. # 패키지 적용 library(dplyr) library(httr) library(urltools) library(rvest) # 로그인 화면에..
우리가 인터넷에서 정보를 검색하는 방법 HTTP란, 웹에서 데이터를 주고 받을 때 사용되며, 주로 HTML로 주고 받습니다. 데이터를 주고 받는 당사자는 '클라이언트'와 '웹서버' 입니다. 클라이언트가 웹서버 데이터를 요청하면 웹서버는 해당 요청에 대한 결과를 응답합니다. 웹 크롤링은 인터넷 검색과 유사하다 추가로 알아야 할 사항 크롬 개발자 도구 인코딩 및 로케일 다양한 에러 해결법 정규 표현식 (Regex) HTTP 기초 인터넷 상에서 데이터를 주고 받을 때 사용 이때, 데이터를 주고 받는 당사자는 클라이언트와 웹서버 클라이언트 → 웹서버에 데이터를 요청, 웹서버 → 요청에 응답함 클라이언트(우리)가 요청할 때 사용하는 방식 중 많이 사용하게 되는 것은 GET(), POST() 방식 예시 티스토리를 ..
퍼센트 인코딩이란? 퍼센트 인코딩(percent-encoding)이란 URL에 사용되는 문자를 인코딩 하는 방식이며 URL 인코딩이라고도 합니다. 아울러, 한글 인코딩 방식에 따라 결과가 달라집니다. 퍼센트 인코딩 된 문자열을 디코딩하면 우리가 볼 수 있습니다. (urltools 패키지) library(urltools) # 문자열 하나를 설정합니다. windows에서 설정했다면 CP949 방식을 따릅니다. string % url_encode() # [1] "%bc%d2%b4%d9%bf%b5" POST 방식 웹 크롤링 실습1 전화번호부 페이지 - https://www.isuperpage.co.kr/ # searchWord URL % url_encode() %>% I()), encode = 'form') #..
데이터 분석을 할 때 웹 크롤링을 해 웹 데이터를 수집 및 분석 하는 경우가 많은 데요. 그 중에서도 가장 기본인 내용으로 웹 크롤링을 연습 해보려고 합니다. 웹 서버는 html, css 등을 이용해 이미지 된 형상을 전송 하고, 우리는 브라우저(크롬, 익스플로어 등)으로 서버에서 전송 된 것을 유저에게 보여주게 됩니다. 우리가 구글 검색어를 보지만, 실제 웹 서버는#logo-default 를 브라우저에서 읽어드린 것과 같이요. 웹 사이트에 있는 데이터 가져오기 웹 사이트에 있는 데이터를 가져오기 위해서는 HTTP 를 요청하고, 추출, 저장 하는 과정이 있습니다. library(rvest) library(httr) library(dplyr) 먼저, 필요한 R 패키지를 다운해줍니다. #HTTP 요청 실행 ..