일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ggplot2
- SQL
- dx
- 한국전자통신연구원
- 하계인턴
- cnn
- httr
- 시각화
- Ai
- 머신러닝
- arima
- 하둡
- 빅데이터분석기사
- 에트리 인턴
- 다변량분석
- 기계학습
- KT 에이블스쿨
- Eda
- matplot
- 가나다영
- 웹크롤링
- KT AIVLE
- 지도학습
- kaggle
- 에이블러
- 딥러닝
- ML
- 빅분기
- 에이블스쿨
- 프로그래머스
- SQLD
- 소셜네트워크분석
- kt aivle school
- r
- python
- hadoop
- 서평
- 시계열
- 한국전자통신연구원 인턴
- ETRI
- Today
- Total
목록웹크롤링 (6)
소품집
XML 파서로 RSS에서 데이터를 스크레이핑해 봅시다. RSS란? 블로그 또는 뉴스 사이트 등의 웹사이트는 변경 정보 등을 RSS라는 이름의 XML 형식으로 제공합니다. RSS는 XML을 기반으로 만들어졌으므로 HTML 보다 간단하게 파싱할 수 있습니다. 뉴스 사이트에서 최신 뉴스 URL와 제목을 추출하는 경우 등 스크레이핑하고 싶은 정보가 RSS로 제공되는 경우 어떻게 활용하면 되는지 살펴봅시다. RSS 파싱하기 그럼 실제로 기상청에서 제공하고 있는 RSS를 살펴봅시다. 기상청 RSS http://www.kma.go.kr/weather/lifenundustry/service_rss.jsp 그럼 여기서 날씨와 시간 등의 정보를 추출해 보겠습니다. 날씨는 wf에 들어있으며, 기온은 tmn, 최고 기온은 t..
로케일(Locale)이란? 국가마다 서로 다른 문화를 가지고 있다 보니, 시간과 숫자등 표시하는 방법 등에서 상당한 차이를 보입니다. 따라서 운영체제(OS)는 국가마다 서로 다른 로케일을 제공하고 있음 로케일은 국가마다 다음과 같은 여러가지 표시 형식을 설정하는 것 LC_COLLATE(문자 정렬), LC_CTYPE(문자처리), LC_MESSAGES(언어/문화)등 로케일을 왜 알아야 하나? 한글 인코딩 방식이 로케일에 영향을 받기 때문 아울러 EUK-KR 또는 CP949 인코딩 방식의 R 객체를 처리하지 못하는 함수가 있음. ex) html_table() 함수 로케일 관련 R 함수들 Sys.getlocale(): 현재 설정된 로케일을 확인 Sys.setlocale(category='LC_ALL', loca..
KOSPI 200 종목 부분 추출 네이버 주식에서 코스피 200기업 명과 일별 시세를 뽑아보는 크롤링을 해보려고 합니다. 코스피 200 기업 추출 # url 요청 res % html_nodes(css='td.ctg a') %>% html_text() print(tbl) 상위 200개 종목 링크 가져오기 # 상위 200개 종목 링크 가져오기 # 연동되는 링크 가져오기 temp2 % read_html(encoding = 'EUC-KR') %>% html_nodes(css='td.ctg a') %>% html_attr('href') #완전한 링크 만들기 temp2 % html_table() # table로 반환 Sys.setlocale(category = 'LC_ALL', locale = 'korean') p..
JavaScript의 이해 JavaScript는 객체 기반의 스크립트 언어로 웹 브라우저의 경우 엔진이 인터프리터의 역할을 수행 JavaScript는 HTML 및 CSS와 함께 사용됩니다. HTML은 웹 페이지의 전체 틀을 잡고, CSS는 개별 요소의 디자인 맡음 JavaScript는 사용자와의 상호작용을 통해 웹 페이지에서 보여주는 콘텐츠를 동적으로 제어함 AJAX와 XHR AJAX는 JavaScript 라이브러리 중 하나이며, 'Asynchronous JavaScript And XML'(비동기 JavaScript 및 XML)의 머리글자 입니다. (비동기처리란? 특정 코드의 연산이 끝날 때까지 코드의 실행을 멈추지 않고, 순차적으로 다음 코드를 먼저 실행하는 자바스크립트의 특성. 예를들어 은행은 동기처..
Cookies 란? 쿠키란 웹 사이트에 방문했을 때 웹 서버가 클라이언트 컴퓨터에 저장해 놓은 파일을 의미 예를 들면 로그인 상태 유지, 쇼핑몰 장바구니와 같은 정보를 기록함 이 특징을 이용하면 웹 서버에 저장해 놓은 쿠키는 로그인 상태로 HTTP 요청이 가능해짐 실습 - 잡 플레닛 잡플래닛 - Jobplanet 잡플래닛 - Jobplanet 채용정보부터 직장인이 직접 남긴 기업리뷰, 연봉정보, 면접후기, 복지정보, 기업분석까지 www.jobplanet.co.kr !! 로그인을 하지 않아도 로그인 정보가 남아있는 '쿠키'로 데이터를 긁어와, 실습을 해보겠습니다. # 패키지 적용 library(dplyr) library(httr) library(urltools) library(rvest) # 로그인 화면에..
데이터 분석을 할 때 웹 크롤링을 해 웹 데이터를 수집 및 분석 하는 경우가 많은 데요. 그 중에서도 가장 기본인 내용으로 웹 크롤링을 연습 해보려고 합니다. 웹 서버는 html, css 등을 이용해 이미지 된 형상을 전송 하고, 우리는 브라우저(크롬, 익스플로어 등)으로 서버에서 전송 된 것을 유저에게 보여주게 됩니다. 우리가 구글 검색어를 보지만, 실제 웹 서버는#logo-default 를 브라우저에서 읽어드린 것과 같이요. 웹 사이트에 있는 데이터 가져오기 웹 사이트에 있는 데이터를 가져오기 위해서는 HTTP 를 요청하고, 추출, 저장 하는 과정이 있습니다. library(rvest) library(httr) library(dplyr) 먼저, 필요한 R 패키지를 다운해줍니다. #HTTP 요청 실행 ..