'AI' 카테고리의 글 목록

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

머신러닝 모델링을 수행했으면 모델 성능을 평가해보자! 1. 회귀 성능 평가 1) MAE(Mean Absolute Error) # 모듈 불러오기 from sklearn.metrics import mean_absolute_error # 성능 평가 print('MAE:', mean_absolute_error(y_test, y_pred)) 2) MSE(Mean Squared Error) # 모듈 불러오기 from sklearn.metrics import mean_squared_error # 성능 평가 print('MSE:', mean_squared_error(y_test, y_pred)) 3) RMSE(Root Mean Squared Error) # 모듈 불러오기 from sklearn.metrics impor..

AI 2024. 3. 13. 20:12

머신러닝 - 모델링 기초

라이브러리와 데이터를 불러와 머신러닝 모델링을 진행해보자! # 라이브러리 불러오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings(action='ignore') %config InlineBackend.figure_format = 'retina' # 데이터 읽어오기 path = 'airquality_simple.csv' data = pd.read_csv(path) 1. 데이터 탐색 모델링할 대상인 데이터를 탐색해보자! # 상위 몇 개 행 확인 data.head() # 하위 몇 개 행 확인 data.tail() # 변수 ..

AI 2024. 3. 13. 20:02

머신러닝 - 데이터 전처리

타이타닉 데이터를 이용하여 데이터 전처리를 해보도록 하자. 먼저 상위 데이터를 확인해 보면 아래와 같다. 이제 데이터 전처리를 해보자! 1. 불필요한 변수 제거하기 Cabin은 77.1%가 NaN이기에 채울 방법이 마땅치 않으니 제거 PassengerId, Name, Ticket은 Unique 한 값이므로 제거 axis=0는 행, axis=1은 열을 의미함을 기억하자. # 여러 열 동시 제거 drop_cols = ['Cabin', 'PassengerId', 'Name', 'Ticket'] titanic.drop(drop_cols, axis=1, inplace=True) 2. NAN 조치 NaN 값이 포함되어 있으면 정확한 분석와 예측을 할 수 없으니 이에 대한 처리가 필요하다. 1) 데이터에 NaN 값이..

AI 2024. 3. 13. 19:50

웹 크롤링 2

Gmarket 실습! 베스트 상품 200개 데이터 수집 상품의 이미지 200개 다운로드 1. URL 찾기 import pandas as pd import requests from bs4 import BeautifulSoup url ='https://www.gmarket.co.kr/n/best' 2. request > response : str(html) response = requests.get(url) response 3. bs > DataFrame dom = BeautifulSoup(response.text, 'html.parser') # select 200 items elements = dom.select("#gBestWrap > div.best-list > ul > li") len(elements..

AI 2024. 3. 9. 21:21

웹 크롤링 1

1. Web Server & Client Architecture Client Request : Browser를 사용하여 Server에 데이터를 요청 Server Response : Client의 Browser에서 데이터를 요청하면 요청에 따라 데이터를 Client로 전송 HTTP Request Methods Get URL에 Query 포함 Query(데이터) 노출, 전송 가능 데이터 작음 Post Body에 Query 포함 • Query(데이터) 비노출, 전송 가능 데이터 많음 HTTP Status Code Client와 Server가 데이터를 주고받은 결과 정보 2xx - Success 3xx - Redirect 4xx - Request Error 5xx - Server Error Cookie, Ses..

AI 2024. 3. 7. 17:12

데이터 분석 및 의미 찾기 2

1. Anova 범주 > 1.교차표(pd.crosstab) 범주 vs 범주 를 비교하고 분석하기 위해서는 먼저 교차표를 만들어야 함. pd.crosstab(행, 열) pd.crosstab(titanic['Survived'], titanic['Sex']) pd.crosstab(행, 열, normalize = ) pd.crosstab(titanic['Survived'], titanic['Sex'], normalize = 'columns') 2. 시각화 1) Mosaic mosaic plot mosaic(dataframe, [ feature, target]) mosaic(titanic, [ 'Pclass','Survived']) plt.axhline(1- titanic['Survived'].mean(), co..

AI 2024. 2. 29. 16:51

데이터 분석 및 의미 찾기 1

1. 가설과 가설 검정 *️⃣ 과학 연구 절차 1) 모집단(Population) : 우리가 알고 싶은 대상 전체 영역(데이터) 2) 표본(Sample) : 그 대상의 일부 영역(데이터) => 모집단을 대표할 수 있는지 알 수 있음! (진짜 알고 싶은 건 모집단) ✔️ 일부분으로 전체를 추정하고자 한다면 모집단에 대한 가설 수립 가설은 보통 x와 y의 관계를 표현 X에 따라 Y가 차이가 있다. X와 Y는 관계가 있다. 표본을 가지고 가설이 진짜 그러한지 검증(검정) 숫자> X와 Y의 관계가 강한지 약한지 알아보기 위해 도구를 이용한다! 1. 시각화: 산점도 상관 분석 상관 분석은 연속형 변수 X에 대한 연속형 변수 Y의 관계를 분석할 때 사용 Scatter를 통해 시각화 가설 : 온도(x)가 상승하면 아이..

AI 2024. 2. 28. 17:07

데이터 처리 2

1. 데이터의 시각화 2. matplotlib와 seaborn 패키지 : 파이썬의 시각화 패키지 3. 기본 코드 구조 1) matplotlib.pylot matplot.pyplot의 별칭으로 plt 사용 Seaborn의 별칭은 sns 2) plt.plot() 기본 라인차트를 그려준다. 3) plt.show() 그래프를 화면에 출력 4. 기본 코드: x, y값 지정하기 1) x와 y값 지정 1차원 : list, numpy array, series 등을 각각 x와 y로 지정해서 사용 2차원 : dictionary, dataframe로 부터 x와 y를 가져와서 사용 가능 2) 문법 plt.plot(x, y) plt.plot(x, y, data) # 타입1 plt.plot(data['Date'], data['T..

AI 2024. 2. 27. 17:16

Hailey's TIL

목록AI (10)

Hailey's TIL

티스토리툴바