Logistic Regression & Stochastic Gradient Descent
Chapter4. 다양한 분류 알고리즘 타깃 데이터에 2개 이상의 클래스가 포함된 문제를 다중분류(multi-class classification) 이라함 럭키백의 확률 데이터 준비 import pandas as pd fish = pd.read_csv("https://bit.ly/fish_csv") fish.head() 데이터 전처리 print(...
Chapter4. 다양한 분류 알고리즘 타깃 데이터에 2개 이상의 클래스가 포함된 문제를 다중분류(multi-class classification) 이라함 럭키백의 확률 데이터 준비 import pandas as pd fish = pd.read_csv("https://bit.ly/fish_csv") fish.head() 데이터 전처리 print(...
Chapter3. 회귀 알고리즘과 모델 규제 k-최근접 이웃 회귀 지도학습(Supervised Learning)은 분류(Classification)와 회귀(Regression)로 나뉜다. k-최근접 이웃 분류 알고리즘은 가까운 샘플 k개를 선택하여 새로운 샘플의 클래스를 예측함. k-최근접 이웃 회귀는 회귀이기 떄문에 이웃한 샘플의 타깃이 어떤 클래...
Chapter 1. 나의 첫 머신러닝 인공지능이란? 사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술. 머신러닝이란? 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야. 머신러닝의 대표적인 라이브러리는 사이킷런(scikit-learn) 딥러닝이란? ...
Chapter 2. 데이터 다루기 지도학습과 비지도 학습 지도학습은 정답(라벨링)이 필요하다. 지도 학습에서는 데이터와 정답을 입력(input)과 타깃(target)이라 함 이를 합쳐서 훈련데이터(training set)이라 부른다. Target 변수를 제외한 나머지 독립변수들을 특성(Feature)이라 한다. 만약 정답이 없으면...
데이터 탐색과 시각화 탐색적 데이터 분석 (EDA) -EDA란? raw데이터를 있는 그대로 탐색하고 분석하는 기법 -이 과정에서 극단적 해석, 지나친 추론, 자의적 해석 지양 할 것! -기본적인 EDA 코드 (seaborn, matploylib.pylot , pandas ) #기초 통계량 및 간단한 EDA df = pd.read_csv # cs...