Machine_Learning (19) 썸네일형 리스트형 Regression-05. Model 4 : LightGBM LightGBM : 기존 GBM들 보다 훨씬 더 빠르게 학습이 되는 모델. Source : https://lightgbm.readthedocs.io/en/latest/Features.html 기존의 GBM들은 Level-wise 방식으로 DT를 build했습니다. Level-wise라는건 DT가 학습을 할 때, 같은 level에 있는 node들을 모두 split한 뒤에 다음 Level로 넘어가는 방식을 얘기합니다.(Breadth-First Search) 깊이가 너무 커지면 overfitting될 가능성이 높기 때문에, Level을 제한하여 최대한 모델을 키우는 방식을 사용해왔습니다.(Model Generalization) Source : https://lightgbm.readthedocs.io/en/la.. Regression-04. Model 3 : XGBoost XGBoost : 하드웨어 최적화를 시킨 Gradient Boosting Model Boosting model은 Begging 방식이 만들어지는 원리가 전체 성능을 향상하는데 직접적인 연관이 없는 것을 보완한 모델입니다. Sequential model 입니다 첫번째로 만든 DT가 잘못 분류한 친구들을 그 다음 DT가 보완하는 방식으로 순차적으로 Tree를 build합니다. 다음 DT는 이전의 DT가 잘못 분류한 데이터들에 weight를 주는 것으로 DT가 뽑을 데이터의 sampling을 조절합니다 Gradient descent algorithm을 boosting model에 도입해서, 다음 DT가 이전 DT와 합쳐져서 더 적은 loss를 가지게 되는 방향으로 DT를 만드는 방법을 Gradient Boos.. Regression-03. Model 2 : Lasso, Ridge Lasso, Ridge : Linear Regression 모델이 고차원 공간에 overfitting이 쉽게 되는 문제를 해결한 기법. Source : http://freesearch.pe.kr/archives/4473 Simple Linear Regression y = Wx + b, MSE function Lasso weight의 L1 term을 Loss function에 더해줍니다. Loss가 무조건 증가하게 됩니다. 추가한 항(L1 term)도 gradient descent algorithm의 최적화 대상에 속합니다. L1 term을 제약조건(constraint)이라고 부르고 또는 Regularization term 이라고 합니다 Ridge weight의 L2 term을 Loss function에 .. Regression-02. Model 1 : Linear Regression Linear Regression : y = Wx + b로 표시되는 선형식으로 x와y 사이의 관계를 찾는 모델. Linear regression은 하나의 선형식으로 X와 y사이의 관계를 찾아내는 방법입니다 분류와 다르게, 회귀 모델은 선형식의 계산 결과 자체가 예측 값입니다. Go Detail y = Wx + b 의 식을 자세히 들여다보면, 다음과 같이 표시할 수 있습니다. → y = w_1 * x_1 + w_2 * x_2 + ... + w_n * x_n + b 분류와 접근 방식이 동일하기 때문에, 겹치는 설명은 스킵하겠습니다. Linear Classifier처럼 처음에는 랜덤 값을 가지는 w_i들을 가지고 예측을 수행합니다. 임의의 값 y_i 가 나왔습니다. 이 예측값은 (정말 운이 좋은 경우를 제외하고.. Regression-01. 회귀의 정의 회귀(Regression) : 주어진 데이터(X)와 찾고자 하는 값(y) 사이의 관계를 찾는 방법 Source : https://www.imsl.com/blog/what-is-regression-model Definition (from Wiki) “In statistical modeling, regression analysis is a set of statistical processes for estimating the relationships between a dependent variable and one or more independent variables.” 회귀란, 주어진 input data와 관심 있는 target value 사이의 관꼐를 모델링하는 것을 말합니다. input data는 일반적.. Classification-05. Model 4: Random Forest Random Forest : Decision Tree가 모여서 더 좋은 결과를 내는 모델 Source : https://www.tibco.com/reference-center/what-is-a-random-forest Random Forest는 CART 모델이 가지는 단점을 극복하기 위해서 제시된 모델입니다. Random Forest는 DT 하나가 training data에 너무 쉽게 overfit되고 training data의 변화에 민감하다면 DT를 여러개 사용해서 다수결을 하는 방식으로 보완하자는 아이디어를 제시합니다. 별거 아닌 것 같았는데, prectical하게 굉장히 좋은 성능을 보여줍니다. 이렇게 단일 모델을 여러개 모아서 더 좋은 판단을 하는 방법론을 Model Ensemble이라고 합니다.. 이전 1 2 3 4 다음