2.Data Preprocessing - Outlier (이상치) 탐색

이상치 ( Outlier ) 란 ?¶ 다른 관측치와 거리가 먼 관측점. Data-set 에서 Outlier 가 발생하는 원인.¶ 데이터 입력오류 ( 오타와 같은 경우 ) 측정오류 ( 기기의 오류 ) 데이터 처리 오류 샘플링 오류 의도적인 더미값 Outlier를 식별하는 방법.¶ 박스 플롯 산포도 IQR 점수 Box plot¶ 4분위수를 통해 숫자 데이터 그룹을 그래픽적으로 표현하는 방법. 최소값, 최대값 1분위수 ,2분위수 ( 중앙값 ), 3분위수 를 그려줍니다. 이러한 값을 벗어난 값들은 이상치로 그려집니다. IQR¶ Q3 - Q1 값을 의미합니다. Q3 + 1.5 IQR < 이상값 < Q1 - 1.5 IQR 위처럼 표현할 수 있습니다. In [1]: import numpy as np import pa..

Machine Learning 2021.04.18

1. Data Preprocessing - 결측치 ( Missing value ) 처리

결측치¶NA(Not Available) : 표기되지 않은 값으로써 결측값 이라고 불린다. Nan(Not a number) : 수학적을 정의 되지 않는 값. 이 둘은 하나의 '값' 으로 인식한다 NULL : 값이 존재하지 않는다. 단, null값은 값이 존재하지 않기 때문에 값이 없는것으로 인식한다. 하지만 Python 에서는 na,nan,null 모두 '정해지지 않은 값' 의 의미로 사용된다!¶ In [3]: import numpy as np import pandas as pd # 결측치를 임의로 설정한 data를 생성. data = { &#39;x1&#39;: [13,np.nan,17,20,22,21,11,56,999,64], &#39;x2&#39;: [9,555,17,11,np.nan,10,17,77..

Machine Learning 2021.04.15

1.Jupyter NoteBook을 이용한 가상환경 설정.

데이터 과학자 양성과정교육을 수료한지 벌써 2달이 지났다. 그동안 배웠던 과정을 오늘부터 하나하나씩 되돌아보며 다시한번 공부해보고자 글을 작성하게 되었다. 그러기 위해서 가장먼저 필요한 가상환경을 생성하고 사용하는 방법을 포스팅해보려 한다. 우선 아래 사이트를 통해 아나콘다를 설치한다. https://www.anaconda.com/products/individual Anaconda | Individual Edition Anaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine. www.anaconda.com 설치가 완료되면 ..

Machine Learning 2021.03.12