y su implementación en Python

Afroz Chakure

Seguir

Jul 6, 2019 · 3 min de lectura

En este blog nos ‘probaré a cavar más profundo en el Bosque Aleatorio de la Taxonomía. Aquí aprenderemos sobre ensemble learning e intentaremos implementarlo usando Python.,

puedes encontrar el código aquí.

es un algoritmo de aprendizaje basado en un conjunto de árboles. El clasificador de bosque Aleatorio es un conjunto de árboles de decisión del subconjunto seleccionado aleatoriamente del conjunto de entrenamiento. Agrega los votos de diferentes árboles de decisión para decidir la clase final del objeto de prueba.

algoritmo de conjunto:

los Algoritmos de conjunto son aquellos que combinan más de un algoritmo del mismo tipo o diferente para clasificar objetos. Por ejemplo, ejecutar predicción sobre Bayes ingenuos, SVM y árbol de Decisión y luego votar por la consideración final de la clase para el objeto de prueba.,

Structure of Random Forest Classification

Types of Random Forest models:

1. Random Forest Prediction for a classification problem:

f(x) = majority vote of all predicted classes over B trees

2.,n :

Nine Different Decision Tree Classifiers

Aggregated result for the 9 Decision Tree Classifiers

The 9 decision tree classifiers shown above can be aggregated into a random forest ensemble which combines their input (on the right)., Los ejes horizontal y vertical de las salidas del árbol de decisiones anteriores se pueden considerar como características x1 y x2. En ciertos valores de cada entidad, el árbol de decisiones genera una clasificación de «azul», «verde», «rojo», etc.

estos resultados anteriores se agregan, a través de votos de modelo o promediación, en un único modelo de conjunto que termina superando la salida de cualquier árbol de decisión individual.

características y ventajas de Random Forest:

  1. Es uno de los Algoritmos de aprendizaje más precisos disponibles. Para muchos conjuntos de datos, produce un clasificador de alta precisión.,
  2. se ejecuta de manera eficiente en grandes bases de datos.
  3. Puede manejar miles de variables de entrada sin eliminación de variables.
  4. da estimaciones de qué variables son importantes en la clasificación.
  5. genera una estimación interna imparcial del error de generalización a medida que avanza la construcción del bosque.
  6. Tiene un método eficaz para estimar los datos faltantes y mantiene la precisión cuando falta una gran proporción de los datos.,

desventajas de los bosques aleatorios:

  1. Se ha observado que los bosques aleatorios se sobreajustan para algunos conjuntos de datos con tareas de clasificación/regresión ruidosas.
  2. para datos que incluyen variables categóricas con diferente número de niveles, los bosques aleatorios están sesgados a favor de aquellos atributos con más niveles. Por lo tanto, las puntuaciones de importancia variable de random forest no son confiables para este tipo de datos.,div>

    Creating a Random Forest Classification model and fitting it to the training data

    Predicting the test set results and making the Confusion matrix

    Conclusion :

    In this blog we have learned about the Random forest classifier and its implementation., Observamos el algoritmo de aprendizaje ensamblado en acción y tratamos de entender qué hace que Random Forest sea diferente de otros algoritmos de aprendizaje automático.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *