și punerea sa în aplicare în Python
În acest blog vom voi încerca să sape mai adânc în Pădure Aleatoare Taxonomie. Aici vom învăța despre învățarea ansamblului și vom încerca să îl implementăm folosind Python.,
puteți găsi codul aici.
este un algoritm de învățare bazat pe arbori. Clasificatorul forestier aleatoriu este un set de arbori de decizie din subsetul selectat aleator al setului de instruire. Acesta agregă voturile din diferite arbori de decizie pentru a decide clasa finală a obiectului de testare.
algoritmul ansamblului:
algoritmii ansamblului sunt cei care combină mai mulți algoritmi de același tip sau de alt tip pentru clasificarea obiectelor. De exemplu, rulează predicție peste Bayes Naive, SVM și arborele de decizie și apoi luând vot pentru examinarea finală a clasei pentru obiectul de testare.,
Types of Random Forest models:
1. Random Forest Prediction for a classification problem:
f(x) = majority vote of all predicted classes over B trees
2.,n :
The 9 decision tree classifiers shown above can be aggregated into a random forest ensemble which combines their input (on the right)., Axele orizontale și verticale ale ieșirilor arborelui de decizie de mai sus pot fi gândite ca caracteristici x1 și x2. La anumite valori ale fiecărei caracteristici, arborele de decizie emite o clasificare a „Albastru”, „Verde”, „roșu” etc.
aceste rezultate de mai sus sunt agregate, prin voturi model sau medie, într-un singur
model de ansamblu care sfârșește prin a depăși rezultatul oricărui arbore de decizie individuală.
caracteristici și avantaje ale Forest aleatoare:
- este unul dintre algoritmii de învățare cele mai exacte disponibile. Pentru multe seturi de date, produce un clasificator extrem de precis.,
- se ruleaza eficient pe baze de date mari.
- se poate ocupa de mii de variabile de intrare fără ștergere variabilă.
- acesta oferă estimări ale variabilelor care sunt importante în clasificare.
- generează o estimare internă imparțială a erorii de generalizare pe măsură ce clădirea forestieră progresează.
- are o metodă eficientă de estimare a datelor lipsă și menține precizia atunci când o mare parte din date lipsesc.,
dezavantajele pădurii aleatorii:
- pădurile aleatorii au fost observate să se suprapună pentru unele seturi de date cu sarcini zgomotoase de clasificare / regresie.
- pentru date care includ variabile categorice cu număr diferit de niveluri, pădurile aleatorii sunt părtinitoare în favoarea acelor atribute cu mai multe niveluri. Prin urmare, scorurile de importanță variabilă din pădure aleatoare nu sunt fiabile pentru acest tip de date.,div>
Creating a Random Forest Classification model and fitting it to the training data
Predicting the test set results and making the Confusion matrix
Conclusion :
In this blog we have learned about the Random forest classifier and its implementation., Ne-am uitat la algoritmul de învățare ensembled în acțiune și a încercat să înțeleagă ceea ce face Forest aleatoare formă diferită alți algoritmi de învățare mașină.