och dess genomförande i Python
i den här bloggen ska vi försöka gräva djupare in i den slumpmässiga skogs taxonomin. Här kommer vi att lära oss om ensemble lärande och kommer att försöka genomföra det med Python.,
Du hittar koden här borta.
det är en ensemble trädbaserad inlärningsalgoritm. Random Forest Classifier är en uppsättning beslut träd från slumpmässigt utvalda delmängd av utbildning set. Det aggregerar rösterna från olika beslutsträd för att bestämma testobjektets slutliga klass.
Ensemble algoritm:
Ensemble algoritmer är de som kombinerar mer än en algoritmer av samma eller olika slag för att klassificera objekt. Till exempel kör förutsägelse över naiva Bayes, SVM och beslutsträd och sedan rösta för slutligt övervägande av klass för testobjekt.,
Types of Random Forest models:
1. Random Forest Prediction for a classification problem:
f(x) = majority vote of all predicted classes over B trees
2.,n :
The 9 decision tree classifiers shown above can be aggregated into a random forest ensemble which combines their input (on the right)., De horisontella och vertikala axlarna i ovanstående beslut trädutgångar kan ses som funktioner x1 och x2. Vid vissa värden för varje funktion matar beslutsträdet ut en klassificering av ”blå”, ”grön”, ” röd ” etc.
ovanstående resultat aggregeras, genom modellröster eller medelvärde, till en enda
ensemble-modell som slutar överträffa varje enskilt beslutsträds produktion.
funktioner och fördelar med Random Forest:
- Det är en av de mest exakta inlärningsalgoritmer tillgängliga. För många datamängder producerar den en mycket exakt klassificerare.,
- det körs effektivt på stora databaser.
- Det kan hantera tusentals indatavariabler utan variabel radering.
- Det ger uppskattningar av vilka variabler som är viktiga i klassificeringen.
- Det genererar en intern opartisk uppskattning av generaliseringsfelet när skogsbyggnaden fortskrider.
- den har en effektiv metod för att uppskatta saknade data och upprätthåller noggrannhet när en stor del av data saknas.,
nackdelar med slumpmässig skog:
- slumpmässiga skogar har observerats överfit för vissa datauppsättningar med bullriga klassificerings – / regressionsuppgifter.
- för data inklusive kategoriska variabler med olika antal nivåer är slumpmässiga skogar partiska till förmån för dessa attribut med fler nivåer. Därför är värdena för variabel betydelse från slumpmässig skog inte tillförlitliga för denna typ av data.,div>
Creating a Random Forest Classification model and fitting it to the training data
Predicting the test set results and making the Confusion matrix
Conclusion :
In this blog we have learned about the Random forest classifier and its implementation., Vi tittade på den ensemblerade inlärningsalgoritmen i aktion och försökte förstå vad som gör Random Forest annorlunda form andra maskininlärningsalgoritmer.