e a sua implementação em Python
neste blog nós ‘ll tentar aprofundar o Aleatório Floresta Taxonomia. Aqui vamos aprender sobre ensemble learning e vamos tentar implementá-lo usando Python.,
pode encontrar o código aqui.
It is an ensemble tree-based learning algorithm. O classificador da Floresta Aleatória é um conjunto de árvores de decisão de subconjunto de treino selecionado aleatoriamente. Ele agrega os votos de diferentes árvores de decisão para decidir a classe final do objeto de teste.
algoritmo Ensemble:
algoritmos Ensemble são aqueles que combina mais de um algoritmo do mesmo tipo ou diferente para classificar objetos. Por exemplo, running prediction over Naive Bayes, SVM and Decision Tree and then taking vote for final consideration of class for test object.,
Types of Random Forest models:
1. Random Forest Prediction for a classification problem:
f(x) = majority vote of all predicted classes over B trees
2.,n :
The 9 decision tree classifiers shown above can be aggregated into a random forest ensemble which combines their input (on the right)., Os eixos horizontais e verticais das saídas da árvore de decisão acima podem ser pensados como recursos x1 e x2. Em certos valores de cada característica, a árvore de decisão produz uma classificação de “azul”, “verde”, “vermelho”, etc.
estes resultados acima são agregados, através de votos de modelo ou média, em um único modelo conjunto que acaba superando qualquer saída de árvore de decisão individual.
características e vantagens da floresta aleatória :
- É um dos algoritmos de aprendizagem mais precisos disponíveis. Para muitos conjuntos de dados, ele produz um classificador altamente preciso.,funciona eficientemente em grandes bases de dados.
- pode lidar com milhares de variáveis de entrada sem exclusão de variáveis.
- dá estimativas de quais variáveis que são importantes na classificação.gera uma estimativa interna imparcial do erro de generalização à medida que a construção florestal avança.
- tem um método eficaz para estimar dados em falta e mantém a precisão quando uma grande proporção dos dados estão em falta.,
desvantagens de florestas aleatórias:
- florestas aleatórias têm sido observadas em excesso para alguns conjuntos de dados com tarefas de classificação / regressão ruidosas.
- Para dados incluindo variáveis categóricas com diferentes níveis, as florestas aleatórias são tendenciosas em favor dos atributos com mais níveis. Por conseguinte, as pontuações de importância variável da floresta aleatória não são fiáveis para este tipo de dados.,div>
Creating a Random Forest Classification model and fitting it to the training data
Predicting the test set results and making the Confusion matrix
Conclusion :
In this blog we have learned about the Random forest classifier and its implementation., Nós olhamos para o algoritmo de aprendizagem em ação e tentamos entender o que faz Floresta Aleatória diferente forma outros algoritmos de aprendizagem de máquinas.