목록AI (10)
Hailey's TIL

머신러닝 모델링을 수행했으면 모델 성능을 평가해보자! 1. 회귀 성능 평가 1) MAE(Mean Absolute Error) # 모듈 불러오기 from sklearn.metrics import mean_absolute_error # 성능 평가 print('MAE:', mean_absolute_error(y_test, y_pred)) 2) MSE(Mean Squared Error) # 모듈 불러오기 from sklearn.metrics import mean_squared_error # 성능 평가 print('MSE:', mean_squared_error(y_test, y_pred)) 3) RMSE(Root Mean Squared Error) # 모듈 불러오기 from sklearn.metrics impor..

라이브러리와 데이터를 불러와 머신러닝 모델링을 진행해보자! # 라이브러리 불러오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings(action='ignore') %config InlineBackend.figure_format = 'retina' # 데이터 읽어오기 path = 'airquality_simple.csv' data = pd.read_csv(path) 1. 데이터 탐색 모델링할 대상인 데이터를 탐색해보자! # 상위 몇 개 행 확인 data.head() # 하위 몇 개 행 확인 data.tail() # 변수 ..

타이타닉 데이터를 이용하여 데이터 전처리를 해보도록 하자. 먼저 상위 데이터를 확인해 보면 아래와 같다. 이제 데이터 전처리를 해보자! 1. 불필요한 변수 제거하기 Cabin은 77.1%가 NaN이기에 채울 방법이 마땅치 않으니 제거 PassengerId, Name, Ticket은 Unique 한 값이므로 제거 axis=0는 행, axis=1은 열을 의미함을 기억하자. # 여러 열 동시 제거 drop_cols = ['Cabin', 'PassengerId', 'Name', 'Ticket'] titanic.drop(drop_cols, axis=1, inplace=True) 2. NAN 조치 NaN 값이 포함되어 있으면 정확한 분석와 예측을 할 수 없으니 이에 대한 처리가 필요하다. 1) 데이터에 NaN 값이..

Gmarket 실습! 베스트 상품 200개 데이터 수집 상품의 이미지 200개 다운로드 1. URL 찾기 import pandas as pd import requests from bs4 import BeautifulSoup url ='https://www.gmarket.co.kr/n/best' 2. request > response : str(html) response = requests.get(url) response 3. bs > DataFrame dom = BeautifulSoup(response.text, 'html.parser') # select 200 items elements = dom.select("#gBestWrap > div.best-list > ul > li") len(elements..
1. Web Server & Client Architecture Client Request : Browser를 사용하여 Server에 데이터를 요청 Server Response : Client의 Browser에서 데이터를 요청하면 요청에 따라 데이터를 Client로 전송 HTTP Request Methods Get URL에 Query 포함 Query(데이터) 노출, 전송 가능 데이터 작음 Post Body에 Query 포함 • Query(데이터) 비노출, 전송 가능 데이터 많음 HTTP Status Code Client와 Server가 데이터를 주고받은 결과 정보 2xx - Success 3xx - Redirect 4xx - Request Error 5xx - Server Error Cookie, Ses..

1. Anova 범주 > 1.교차표(pd.crosstab) 범주 vs 범주 를 비교하고 분석하기 위해서는 먼저 교차표를 만들어야 함. pd.crosstab(행, 열) pd.crosstab(titanic['Survived'], titanic['Sex']) pd.crosstab(행, 열, normalize = ) pd.crosstab(titanic['Survived'], titanic['Sex'], normalize = 'columns') 2. 시각화 1) Mosaic mosaic plot mosaic(dataframe, [ feature, target]) mosaic(titanic, [ 'Pclass','Survived']) plt.axhline(1- titanic['Survived'].mean(), co..

1. 가설과 가설 검정 *️⃣ 과학 연구 절차 1) 모집단(Population) : 우리가 알고 싶은 대상 전체 영역(데이터) 2) 표본(Sample) : 그 대상의 일부 영역(데이터) => 모집단을 대표할 수 있는지 알 수 있음! (진짜 알고 싶은 건 모집단) ✔️ 일부분으로 전체를 추정하고자 한다면 모집단에 대한 가설 수립 가설은 보통 x와 y의 관계를 표현 X에 따라 Y가 차이가 있다. X와 Y는 관계가 있다. 표본을 가지고 가설이 진짜 그러한지 검증(검정) 숫자> X와 Y의 관계가 강한지 약한지 알아보기 위해 도구를 이용한다! 1. 시각화: 산점도 상관 분석 상관 분석은 연속형 변수 X에 대한 연속형 변수 Y의 관계를 분석할 때 사용 Scatter를 통해 시각화 가설 : 온도(x)가 상승하면 아이..

1. 데이터의 시각화 2. matplotlib와 seaborn 패키지 : 파이썬의 시각화 패키지 3. 기본 코드 구조 1) matplotlib.pylot matplot.pyplot의 별칭으로 plt 사용 Seaborn의 별칭은 sns 2) plt.plot() 기본 라인차트를 그려준다. 3) plt.show() 그래프를 화면에 출력 4. 기본 코드: x, y값 지정하기 1) x와 y값 지정 1차원 : list, numpy array, series 등을 각각 x와 y로 지정해서 사용 2차원 : dictionary, dataframe로 부터 x와 y를 가져와서 사용 가능 2) 문법 plt.plot(x, y) plt.plot(x, y, data) # 타입1 plt.plot(data['Date'], data['T..