, majd a végrehajtás Python
ez A blog vagyunk az ajtó mélyebbre ásunk a Véletlen Erdő Taxonómia. Itt megismerjük az ensemble learning-t, majd megpróbáljuk megvalósítani a Python használatával.,
a kódot itt találja.
Ez egy együttes fa alapú tanulási algoritmus. A Random Forest osztályozó egy sor döntés fák véletlenszerűen kiválasztott részhalmaza képzési készlet. A különböző döntési fákból származó szavazatokat összesíti a tesztobjektum végső osztályának eldöntésére.
Ensemble algoritmus:
Ensemble algoritmusok azok, amelyek több azonos vagy különböző típusú algoritmust kombinálnak az objektumok osztályozásához. Például futó jóslat felett naiv Bayes, SVM és döntés fa, majd figyelembe szavazás végső megfontolása osztály teszt objektum.,
Types of Random Forest models:
1. Random Forest Prediction for a classification problem:
f(x) = majority vote of all predicted classes over B trees
2.,n :
The 9 decision tree classifiers shown above can be aggregated into a random forest ensemble which combines their input (on the right)., A fenti döntésfa kimenetek vízszintes és függőleges tengelyei x1 és x2 jellemzőknek tekinthetők. Az egyes funkciók bizonyos értékein a döntésfa “kék”, “zöld”, “piros” stb.
ezek a fenti eredmények modellszavazatok vagy átlagolás révén egyetlen
ensemble modellre vannak összesítve, amely végül felülmúlja az egyéni döntési fa kimenetét.
A Random Forest jellemzői és előnyei:
- ez az egyik legpontosabb tanulási algoritmus. Sok adathalmaz esetében rendkívül pontos osztályozót állít elő.,
- hatékonyan fut nagy adatbázisokon.
- több ezer bemeneti változót képes kezelni változó törlés nélkül.
- becsléseket ad arról, hogy milyen változók fontosak a besorolásban.
- az erdőépítés előrehaladtával belső elfogulatlan becslést készít az általánosítási hibáról.
- hatékony módszer a hiányzó adatok becslésére, és fenntartja a pontosságot, ha az adatok nagy része hiányzik.,
A véletlenszerű erdő hátrányai:
- néhány zajos osztályozási / regressziós feladatokkal rendelkező adatkészletnél megfigyelték, hogy a véletlenszerű erdők túlzott mértékben illeszkednek.
- a különböző szintekkel rendelkező kategorikus változókat tartalmazó adatok esetében a véletlenszerű erdők elfogultak a több szinttel rendelkező attribútumok javára. Ezért a random forest változó fontossági pontjai nem megbízhatóak az ilyen típusú adatokhoz.,div>
Creating a Random Forest Classification model and fitting it to the training data
Predicting the test set results and making the Confusion matrix
Conclusion :
In this blog we have learned about the Random forest classifier and its implementation., Megvizsgáltuk a csoportosított tanulási algoritmust, és megpróbáltuk megérteni, hogy mi különbözteti meg a véletlenszerű erdőt más gépi tanulási algoritmusoktól.