<h2><font color="#004D7F" size=6>Módulo 4. Fase de tratamiento de datos</font></h2>



<h1><font color="#004D7F" size=5>1. Evaluación de métricas</font></h1>

<br><br>
<div style="text-align: right">
<font color="#004D7F" size=3>Manuel Castillo-Cara</font><br>
<font color="#004D7F" size=3>Machine Learning con Python</font><br>

---

<h2><font color="#004D7F" size=5>Índice</font></h2>
<a id="indice"></a>

* [1. Introducción](#section1)
    * [1.1. Librerías y CSV](#section11)
* [2. Métricas de clasificación](#section2)
    * [2.1. Accuracy](#section21)
    * [2.2. Kappa](#section22)
    * [2.3. Pérdida logarítmica (LogLoss)](#section23)
    * [2.4. Área bajo la curva ROC](#section24)
    * [2.5. Matriz de confusión](#section25)
    * [2.6. Reporte de clasificación](#section26)
* [3. Métricas de regresión](#section3)
    * [3.1. Error medio absoluto](#section31)
    * [3.2. Error cuadrático medio](#section32)
    * [3.3. $R^2$](#section33)

In [1]:
# Permite ajustar la anchura de la parte útil de la libreta (reduce los márgenes)
from IPython.core.display import display, HTML
display(HTML("<style>.container{ width:98% }</style>"))

---

<a id="section1"></a>
# <font color="#004D7F"> 1. Introducción</font>

Las métricas que elige para evaluar sus algoritmos de Machine Learning son muy importantes. La elección de métricas influye en cómo se mide y compara el rendimiento de los algoritmos de Machine Learning. Influyen en cómo se valora la importancia de las diferentes características en los resultados y su elección final de qué algoritmo elegir. En esta sección veremos cómo seleccionar y utilizar diferentes métricas de rendimiento de Machine Learning en Python con scikit-learn.

Todas las recetas evalúan los mismos algoritmos, LoR para clasificación y LiR para problemas de regresión. Se utiliza una prueba de validación cruzada 10-folds para demostrar cada métrica, porque este es el escenario más probable que utilizará al emplear diferentes métricas de evaluación de algoritmos. 

<div class="alert alert-block alert-info">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
En estas recetas es la función [`sklearn.model_selection.cross_val_score`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html) utilizada para informar el rendimiento en cada receta.
</div> 

<div class="alert alert-block alert-info">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Puede obtener más información sobre las métricas de rendimiento del algoritmo de Machine Learning compatibles en la página [Model evaluation: quantifying the quality of predictions](http://scikit-learn.org/stable/modules/model_evaluation.html).
</div> 

<a id="section11"></a>
## <font color="#004D7F"> 1.1. Librerías y CSV</font>

En esta lección, se muestran varias métricas de evaluación de algoritmos diferentes para problemas de Machine Learning de clasificación y regresión. En cada código, el conjunto de datos se descarga directamente del repositorio de UCI Machine Learning.
* **Clasificación**: se usará el conjunto de datos de Pima Indians Diabetes. Este es un problema de clasificación binaria donde todas las características de entrada son numéricas.

In [1]:
# Clasification problem
import numpy as np
import pandas as pd
filename_clas = 'data/pima-indians-diabetes.data.csv'
names_clas = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] 
df_clas = pd.read_csv(filename_clas, names=names_clas)
array_clas = df_clas.values
X_clas = array_clas[:,0:8]
Y_clas = array_clas[:,8]

* **Regresión**: se usará el conjunto de datos Boston House Price. Este es un problema de regresión donde todas las características de entrada también son numéricas.

In [3]:
# Regression problem
import pandas as pd
filename_reg = 'data/housing.csv'
names_reg = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
'B', 'LSTAT', 'MEDV']
df_reg = pd.read_csv(filename_reg, delim_whitespace=True, names=names_reg) 
array_reg = df_reg.values
X_reg = array_reg[:,0:13]
Y_reg = array_reg[:,13]

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section2"></a>
# <font color="#004D7F"> 2. Métricas de clasificación</font>

Los problemas de clasificación son quizás el tipo más común de problema de Machine Learning y, como tal, tenemos diferentes métricas que se pueden utilizar para evaluar las predicciones de estos problemas. En esta sección revisaremos cómo usar las siguientes métricas:
* Accuracy.
* Pérdida logarítmica.
* Área bajo la curva ROC. 
* Matriz de confusión.
* Informe de clasificación.

<a id="section21"></a>
## <font color="#004D7F"> 2.1. Accuracy</font>

El accuracy de clasificación es el número de predicciones correctas realizadas como una relación de todas las predicciones realizadas. 

Puede ver que se informa la relación. Esto se puede convertir en un porcentaje multiplicando
el valor en 100, dando una puntuación de precisión de aproximadamente el 77% de accuracy.

In [32]:
# Cross Validation Classification Accuracy
???

Accuracy: 77.60% (5.16%)


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Aunque por defecto nos otorga esta métrica puede llamarse también a la clase [`accuracy_score`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html?highlight=accuracy\20metric#sklearn.metrics.accuracy_score).
</div>

<a id="section22"></a>
## <font color="#004D7F"> 2.2. Kappa</font>

Kappa o Cohen's Kappa es como una precisión de clasificación, excepto que se normaliza en la línea de base de la posibilidad aleatoria en su conjunto de datos. Es una medida más útil para usar en problemas que tienen un desequilibrio en las clases (por ejemplo, una división del 70% al 30% para las clases 0 y 1, respectivamente, y puede alcanzar el 70% de precisión al predecir que todas las instancias son para la clase 0 pero ninguna para la clase 1).

En este ejemplo podemos observar como el modelo no era tan preciso como se podía observar en la métrica Accuracy. Al ser un dataset descompensado respecto al atributo clase y penalizando mediante está métrica podemos ver como el porcentaje disminuye considerablemente.

In [24]:
# Cross Validation Classification Confusion Matrix
???

Cohens score: 52.42%


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Puede obtener más información en la documentación oficial de Scikit-Learn sobre la clase [`cohen_kappa_score`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.cohen_kappa_score.html?highlight=kappa#sklearn.metrics.cohen_kappa_score).
</div>

<a id="section23"></a>
## <font color="#004D7F"> 2.3. Pérdida logarítmica (LogLoss)</font>

La pérdida logarítmica _(logloss)_ es una medida de rendimiento para evaluar las predicciones de las probabilidades de pertenencia a una clase determinada. La probabilidad escalar entre 0 y 1 puede verse como una medida de confianza para una predicción mediante un algoritmo. Las predicciones correctas o incorrectas son recompensadas o castigadas proporcionalmente a la confianza de la predicción. 

Logloss más pequeño es mejor con 0 que representa un logloss perfecto. Como se mencionó anteriormente, el
la medida se invierte para que sea ascendente cuando se usa la función `cross_val_score()`.

In [15]:
# Cross Validation Classification LogLoss
???

Logloss: -0.48446261206673835 (0.06168124033613043%)


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Aunque por defecto nos otorga esta métrica puede llamarse también a la clase [`log_loss`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html#sklearn.metrics.log_loss).
</div>

<a id="section24"></a>
## <font color="#004D7F"> 2.4. Área bajo la curva ROC</font>

El área bajo la curva ROC _(AUC)_ es una métrica de rendimiento para problemas de clasificación binaria. El AUC representa la capacidad de un modelo para discriminar entre clases positivas y negativas. Un área de 1.0 representa un modelo que hizo todas las predicciones perfectamente. Un área de 0.5 representa un modelo tan bueno como aleatorio. ROC puede desglosarse en sensibilidad y especificidad. Un problema de clasificación binaria es realmente una compensación entre sensibilidad y especificidad.

* La __sensibilidad__ es la verdadera tasa positiva también llamada recuerdo. Es el número de instancias de la clase positiva (primera) que realmente predijo correctamente.
* La __especificidad__ también se denomina tasa negativa verdadera. Es el número de instancias de la clase negativa (segunda) que en realidad se predijo correctamente. El siguiente ejemplo proporciona una demostración de cálculo de AUC.

Puede ver que el AUC es relativamente cercano a 1 y mayor que 0.5, lo que sugiere cierta habilidad en las predicciones

In [26]:
# Cross Validation Classification ROC AUC
???

AUC: 0.8280337127246062 (0.04287108616940878%)


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Puede obtener más información en la documentación oficial de Scikit-Learn sobre la clase [`roc_auc_score`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html#sklearn.metrics.roc_auc_score).
</div>

<a id="section25"></a>
## <font color="#004D7F"> 2.5. Matriz de confusión</font>

La matriz de confusión es una presentación práctica de la precisión de un modelo con dos o más clases. La tabla presenta predicciones en el eje x y resultados de precisión en el eje y. Las celdas de la tabla son el número de predicciones realizadas por un algoritmo.

Aunque la matriz se imprime sin encabezados, puede ver que la mayoría de las predicciones caen en la línea diagonal de la matriz (que son predicciones correctas).

In [27]:
# Cross Validation Classification Confusion Matrix
???

[[142  20]
 [ 34  58]]


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Puede obtener más información en la documentación oficial de Scikit-Learn sobre la clase [`confusion_matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html#sklearn.metrics.confusion_matrix).
</div>

<a id="section26"></a>
## <font color="#004D7F"> 2.6. Reporte de clasificación</font>

La librería scikit-learn proporciona un informe de conveniencia cuando se trabaja en problemas de clasificación para darle una idea rápida de la precisión de un modelo utilizando una serie de medidas. La función `clasification_report()` muestra _precisión, recall, F1-score_ y el soporte para cada clase. 

Puede ver buenas predicciones y recordar el algoritmo.

In [41]:
# Cross Validation Classification Report
???

              precision    recall  f1-score   support

         0.0       0.81      0.88      0.84       162
         1.0       0.74      0.63      0.68        92

    accuracy                           0.79       254
   macro avg       0.78      0.75      0.76       254
weighted avg       0.78      0.79      0.78       254



<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Puede obtener más información en la documentación oficial de Scikit-Learn sobre la clase [clasification_report()](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html?highlight=classification_report#sklearn.metrics.classification_report).
</div>

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section3"></a>
# <font color="#004D7F"> 3. Métricas de regresión</font>

En esta sección revisaremos 3 de las métricas más comunes para evaluar predicciones sobre problemas de regresión de Machine Learning:
* Error absoluto medio.
* Error cuadrático medio.
* $R^2$

<a id="section31"></a>
## <font color="#004D7F"> 3.1. Error medio absoluto</font>

El error absoluto medio _(MAE)_ es la suma de las diferencias absolutas entre las predicciones y los valores reales. Da una idea de cuán erróneas fueron las predicciones. La medida da una idea de la magnitud del error, pero no tiene idea de la dirección (por ejemplo, sobre o por debajo de la predicción). 

Un valor de 0 indica que no hay error o predicciones perfectas. Al igual que _logloss_, esta métrica se invierte por la función `cros_val_score`.

In [47]:
# Cross Validation Regression MAE
???

MAE: -4.004946635323983 (2.083599268709537%)


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Puede obtener más información en la documentación oficial de Scikit-Learn sobre la clase [`mean_absolute_error`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html?highlight=mean%20absolute%20error#sklearn.metrics.mean_absolute_error).
</div>

<a id="section32"></a>
## <font color="#004D7F"> 3.2. Error cuadrático medio</font>

El error cuadrático medio _(MSE)_ es muy similar al error absoluto medio en el sentido de que proporciona una idea general de la magnitud del error. Tomar la raíz cuadrada del error cuadrático medio convierte las unidades de nuevo a las unidades originales de la variable de salida y puede ser significativo para la descripción y presentación. Esto se llama el error cuadrático medio de raíz _(RMSE)_. 

Esta métrica también se invierte para que los resultados estén aumentando. Recuerde tomar el valor absoluto antes de sacar la raíz cuadrada si está interesado en calcular el RMSE.

In [48]:
# Cross Validation Regression MSE
???

MSE: -34.70525594452485 (45.57399920030886%)


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Puede obtener más información en la documentación oficial de Scikit-Learn sobre la clase [`mean_squared_error`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html?highlight=mean%20squared%20error#sklearn.metrics.mean_squared_error).
</div>

<a id="section33"></a>
## <font color="#004D7F"> 3.3. $R^2$</font>

La métrica $R^2$ proporciona una indicación del ajuste de un conjunto de predicciones a los valores reales. En la literatura estadística, esta medida se llama coeficiente de determinación. Este es un valor entre 0 (si no tiene ajuste) y 1 (ajuste perfecto). 

Puede ver que las predicciones se ajustan mal a los valores reales con un valor más cercano a cero y menor que 0.5.

In [49]:
# Cross Validation Regression MSE
???

R2: 0.20252899006056846 (0.5952960169512226%)


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Puede obtener más información en la documentación oficial de Scikit-Learn sobre la clase [r2_score`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html?highlight=r2#sklearn.metrics.r2_score).
</div>

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<div style="text-align: right"> <font size=6><i class="fa fa-coffee" aria-hidden="true" style="color:#004D7F"></i> </font></div>