일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- python
- KT AIVLE
- arima
- KT 에이블스쿨
- SQLD
- dx
- kt aivle school
- matplot
- 서평
- 한국전자통신연구원
- 하둡
- 가나다영
- 하계인턴
- 시각화
- 다변량분석
- kaggle
- ETRI
- cnn
- Eda
- 한국전자통신연구원 인턴
- hadoop
- httr
- 기계학습
- 지도학습
- 딥러닝
- 에이블스쿨
- ggplot2
- 머신러닝
- 웹크롤링
- 프로그래머스
- ML
- Ai
- 에트리 인턴
- r
- 소셜네트워크분석
- 에이블러
- 빅데이터분석기사
- 빅분기
- SQL
- 시계열
- Today
- Total
목록전체 글 (219)
소품집
평균을 조성하는 분위기 시험의 평균 점수, 소득 평균, 급여 평균, 신체평균 등 평균은 우리가 가장 많이 사용하는 평가 지표 중 하나이다. 이렇게 우리는 집단을 평균을 기준으로 '평균은 했네', '평균도 안나오잖아?' 등의 말을 주고 받으며 간단하고도 정확한 평가를 했다고 생각한다. 대부분의 사람들은 평균 이상에 속하게 되면 안정감을 느끼고 유지 또는 더욱 발전하려 하며, 평균 이하에 속하는 사람은 자기 자신의 부족함이 있다 생각하고 조급함을 부르는 분위기에 압도된다. 노르마는 없다 위 사진은 미국 여성 1만 5,000명을 대상으로 평균적인 신체 치수를 바탕으로 만든 조각상 '노르마'다. 이 조각상은 여성의 정상 체격을 판단하는 데 유용한 지침서가 되어줄거라 믿었고, 이 체구와 비슷한 여성을 찾는 대회까..
Decision Tree Decision tree는 머신러닝 중에서도 대표적인 지도 학습에 속합니다. 지도 학습이란, 모델 학습을 위해 '정답'이 주어진 데이터를 classification 하도록 만든 일종의 러닝 기술입니다. 즉 무언가를 결정할 수 있는 기준을 학습하는 것이 목표입니다. Decision tree 가 'tree' 의 이름이 붙게 된 이유는, 나무를 뒤집어 봤을 때 닮아 붙여졌다고 하는데요. 그래서 제일 상단에 있는 하나의 노드는 루트 노드가 있고, 루트 노드를 시작으로 잔 가지를 branch 라 합니다. 하나 이상의 노드를 포함하고 있다면 하나 이상의 노드를 결정할 수 있어 Decision node라 하고, 반면 가장 말단에 있는 자식이 없는 노드를 leaf node(분류 종료) 라 합니..
# 시계열 데이터 분석 # Data : AirPassenger AirPassengers R에 기본 내장되어진 AirPassengers 시계열 자료를 이용해 ts 변환을 해보려고 합니다. 먼저 데이터를 불러와 확인해봅니다. # 시계열 데이터 인가? is.ts(AirPassengers) class(AirPassengers) # 시계열 데이터 생성 (ts) airline.ts
선량한 차별주의자가 아닌지 현대 사회는 낙인의 존재를 부인하는 경향이 있다고 한다. 그 이유는 낙인은 인간의 존엄성에 대한 믿음과 양립할 수 없기 때문인데, 존엄의 개념은 낙인 된 사람들의 불명예스러운, 부끄러움으로 치부되는 부분이기 때문이다. 이런 현상으로 정상인과 낙인자의 이질적인 만남을 수단으로 사용하기도 한다. 장애인을 목욕시키는 정치인, 고아에게 키스하는 연예인을 예시로 들자면 '사회'를 대표하여 '소외된 이들(낙인자로 보는 시선)' 에게 아무런 편견도 갖고 있지 않음을 어필한다. 하지만 이는 정상인들이 낙인자들의 몸을 함부로 터치할 수 있다는 대상으로 본다는 것 자체가 관계의 불평등성을 나타낸다고 한다. 물론 선량한 마음으로 그들에게 다가가 필요한 도움을 줄 수도 있다. 하지만 그들이 항상 '..
시계열 데이터란? & 시계열의 종류 시계열 데이터란 일정한 시간 동안 수집 된 일련의 순차적으로 정해진 데이터 셋의 집합입니다. 시계열 데이터의 특징으로는 시간에 관해 순서가 매겨져 있다는 점과, 연속한 관측치는 서로 상관관계를 갖고 있습니다. 즉, 시계열 데이터의 분석 목적은 시계열이 갖고 있는 법칙성을 발견해 이를 모형화하고, 또 추정된 모형을 통하여 미래의 값을 forecasting 하는 것입니다. 시계열 자료의 종류 POS (Point of sales) 구매 자료 (불규칙적인 시차) 일일 코스피 주식가격 월별/분기별/연도별 특정 사건의 수치 (규칙적인 시차) 등 일어난 사건의 데이터 값을 모은 데이터 셋입니다. 시계열 자료 예시 특히, 시계열 자료를 볼 때 유의해야할 점은 y축을 확인하여 노이즈 ..
Hadoop 이란 4차산업이 시작됨에 따라 방대한 양의 데이터를 처리하는 기술의 필요가 더욱 중요하게 되어졌는데요. 그래서 저렴한 가격으로 높은 가치를 낼 수 있는 프로그램의 개발이 요구 되어지고 있습니다. 그래서 현재 시점에서 그에 대응하는 분산 처리 기술로 가장 유명한 하둡에 대해서 알아보려고 합니다. 하둡의 정의로는 대용량 데이터를 분산처리 할 수 있는 자바 기반의 오픈소스 프레임워크 입니다. 모든 데이터가 동일하게 저장 되는 하둡 기존 하둡이 등장하기 이전, 데이터 수집이 요구되는 회사에서는 RDBMS(관계형 데이터베이스 관리 시스템)에 모든 데이터를 저장하고, 관리하는 일이 대반사 였는데요. 반면 하둡은 여러대의 서버에 데이터가 저장되어 각 서버에서 동시에 데이터를 처리 할 수 있어 기업은 비용..
데이터 분석을 할 때 웹 크롤링을 해 웹 데이터를 수집 및 분석 하는 경우가 많은 데요. 그 중에서도 가장 기본인 내용으로 웹 크롤링을 연습 해보려고 합니다. 웹 서버는 html, css 등을 이용해 이미지 된 형상을 전송 하고, 우리는 브라우저(크롬, 익스플로어 등)으로 서버에서 전송 된 것을 유저에게 보여주게 됩니다. 우리가 구글 검색어를 보지만, 실제 웹 서버는#logo-default 를 브라우저에서 읽어드린 것과 같이요. 웹 사이트에 있는 데이터 가져오기 웹 사이트에 있는 데이터를 가져오기 위해서는 HTTP 를 요청하고, 추출, 저장 하는 과정이 있습니다. library(rvest) library(httr) library(dplyr) 먼저, 필요한 R 패키지를 다운해줍니다. #HTTP 요청 실행 ..
여행의 이유 - 김영하 개강 날 도서관에서 빌려와 읽은 책. 당시엔 별 내용이 아니었던 것 같은데, e-book으로 다시 보니까 별거 아닌 게 재밌어서 종이책으로 주문해 다시 읽어보니 김영하 작가가 문득문득 정의한 "여행"은 공감 가기 충분하고 넉넉하다. 우리는 떠난다. 그곳에 계속 히 머물러 있고 싶어 하고, 직접 내 몸으로 경험하려 한다. 나에게 여행이란 일상에서의 탈출구, 도피였다. 고등학교 2학년 때였다. 이과에서 무난하게 버티고 있는 중이었는데, 항상 답답한 마음이 있었던 것 같다. 특히 고3이라는 타이틀이 부담이 됐었던 것 같다. 점심시간에 진에어 얼리버드 티켓이 뜬 걸 보고 서둘러 칠판에 붙어있는 학사일정을 보고, 기말고사가 끝나고 비어있는 (흔히 꿈, 끼 탐색주간이라 불리는) 기간에 오사카..
리눅스 환경에서 작성한 파일 및 디렉토리등을 생성하고 Github에 파일을 연동하는 일이 많은데요. 그 환경을 구축하기 위해 '리눅스와 GitHub 연동하기' 를 해볼겁니다. 먼저, GitHub.com 에 접속한 후 파일이 담길 New project를 생성합니다. u1015@workstation:~$ mkdir user_test 이제 리눅스로 가서 동일한 이름으로 파일을 생성해 줄건데요, GitHub project 와 동일하게 디렉토리를 생성해줍니다. 저는 'user_test' 로 생성했습니다. u1015@workstation:~$ cd .ssh u1015@workstation:~/.ssh$ ls id_ed2519.pub id_ed25519.pub known_hosts test u1015@workstat..