13 usuarios conectados

Análisis y ciencia de datos en Python.Limpieza y preparación de datos

Comparte esto

Análisis y ciencia de datos en Python.Limpieza y preparación de datos

Compra libros de Python en Amazon al mejor precio

Un paso fundamental en cualquier proyecto de análisis de datos o ciencia de datos es la limpieza y preparación de datos. Los datos del mundo real rara vez vienen en un formato perfecto y listo para ser analizado. A menudo están incompletos, inconsistentes, contienen errores o no están estructurados de la manera óptima. Dedicar tiempo a limpiar y preparar los datos puede marcar una gran diferencia en la calidad de tus análisis y modelos.

¿Por Qué es Importante la Limpieza y Preparación de Datos?

Mejora la Calidad del Análisis: Datos limpios y bien preparados conducen a resultados más precisos y confiables.
Optimiza el Rendimiento: Los algoritmos de análisis y aprendizaje automático a menudo funcionan mejor con datos limpios y estructurados.
Reduce Errores: Abordar los problemas de calidad de los datos en las etapas iniciales evita la propagación de errores en el proceso de análisis.
Facilita la Visualización: Datos consistentes y bien formateados son más fáciles de visualizar e interpretar.
Aumenta la Eficiencia: Un flujo de trabajo de análisis de datos se vuelve más eficiente cuando los datos están en un formato adecuado.

Tareas Comunes en la Limpieza y Preparación de Datos:

Manejo de Datos Faltantes:
- Identificación: Detectar dónde faltan valores en el dataset (a menudo representados como NaN en Pandas).
- Tratamiento:
  - Eliminación: Eliminar filas o columnas con demasiados valores faltantes.
  - Imputación: Reemplazar los valores faltantes con estimaciones (por ejemplo, la media, la mediana, la moda, un valor constante o utilizando modelos de predicción).
Manejo de Valores Atípicos (Outliers):
- Identificación: Detectar valores que se desvían significativamente del resto de los datos (visualmente con diagramas de caja o dispersión, o mediante métodos estadísticos como el rango intercuartílico o la desviación estándar).
- Tratamiento:
  - Eliminación: Eliminar las filas que contienen valores atípicos (con precaución).
  - Transformación: Transformar los datos para reducir el impacto de los valores atípicos (por ejemplo, mediante escalado o transformaciones logarítmicas).
  - Imputación: Reemplazar los valores atípicos con valores más razonables.
  - Mantenerlos: En algunos casos, los valores atípicos pueden ser importantes y no deben ser alterados.
Corrección de Errores e Inconsistencias:
- Errores de Tipografía: Corregir errores de escritura en datos categóricos (por ejemplo, "Nueva York" vs "New York").
- Inconsistencias en el Formato: Unificar formatos para fechas, horas, unidades de medida, etc.
- Valores Inválidos: Identificar y tratar valores que no tienen sentido en el contexto de los datos (por ejemplo, edades negativas).
Transformación de Datos:
- Escalado: Ajustar la escala de las variables numéricas (por ejemplo, normalización o estandarización) para que tengan un rango similar. Esto es importante para muchos algoritmos de aprendizaje automático.
- Codificación de Variables Categóricas: Convertir variables categóricas en formatos numéricos que los modelos puedan entender (por ejemplo, one-hot encoding, label encoding).
- Creación de Nuevas Variables (Feature Engineering): Derivar nuevas variables a partir de las existentes que puedan ser más informativas para el análisis o el modelado.
- Discretización (Binning): Convertir variables numéricas en categorías (bins).
Manejo de Datos Duplicados:
- Identificación: Detectar filas o registros duplicados en el dataset.
- Tratamiento: Eliminar los duplicados (manteniendo la primera o la última ocurrencia, o basándose en criterios específicos).
Unión y Combinación de Datos:
- Fusionar diferentes datasets basados en claves comunes (como en las operaciones JOIN de SQL).
- Concatenar datasets vertical u horizontalmente.
Remodelación de Datos:
- Cambiar la estructura del dataset (por ejemplo, de formato "ancho" a "largo" o viceversa).

Herramientas de Python para la Limpieza y Preparación de Datos:

Pandas: La librería principal para la manipulación de datos tabulares en Python. Proporciona funciones poderosas para:
- Identificar y manejar datos faltantes (isnull(), fillna(), dropna()).
- Filtrar y seleccionar datos para identificar valores atípicos o errores.
- Realizar transformaciones en columnas (apply(), map(), replace()).
- Codificar variables categóricas (get_dummies()).
- Detectar y eliminar duplicados (duplicated(), drop_duplicates()).
- Unir y combinar DataFrames (merge(), concat()).
- Remodelar DataFrames (pivot(), stack(), unstack()).
NumPy: Útil para operaciones numéricas en arrays, incluyendo la detección y el tratamiento de valores NaN y la realización de transformaciones matemáticas.
SciPy: Proporciona funciones para el análisis estadístico, incluyendo la detección de valores atípicos basada en pruebas estadísticas.
Scikit-learn: Ofrece herramientas para el preprocesamiento de datos, como el escalado (StandardScaler, MinMaxScaler), la codificación de variables categóricas (OneHotEncoder, LabelEncoder) y la imputación de valores faltantes (SimpleImputer).
Expresión Regular (regex - módulo re): Útil para la limpieza y transformación de datos de texto.

Ejemplo Básico con Pandas:

Python
			
		

			import pandas as pd
import numpy as np

# Crear un DataFrame con algunos problemas
data = {'ID': [1, 2, 2, 3, 4, 5],
        'Nombre': ['Alice', 'Bob', 'Bob', 'Charlie', 'David', 'Eva'],
        'Edad': [25, 30, 30, 22, np.nan, 28],
        'Ciudad': ['Nueva York', 'Londres', 'Londres', 'París', 'Nueva York', 'Tokio'],
        'Ingresos': [50000, 60000, 60000, 45000, 70000, -1000]}  # Ingreso inválido
df = pd.DataFrame(data)

print("DataFrame Original:\n", df)

# Manejar duplicados (mantener el primero)
df_sin_duplicados = df.drop_duplicates(subset=['ID', 'Nombre'], keep='first')
print("\nDataFrame sin duplicados por ID y Nombre:\n", df_sin_duplicados)

# Manejar valores faltantes (imputar la media de la edad)
media_edad = df_sin_duplicados['Edad'].mean()
df_sin_nan = df_sin_duplicados.fillna({'Edad': media_edad})
print("\nDataFrame con valores faltantes de Edad imputados:\n", df_sin_nan)

# Corregir valor inválido en Ingresos (reemplazar con NaN)
df_sin_nan['Ingresos'] = df_sin_nan['Ingresos'].where(df_sin_nan['Ingresos'] >= 0, np.nan)
print("\nDataFrame con ingresos inválidos tratados:\n", df_sin_nan)

# Codificar la columna Ciudad (one-hot encoding)
df_encoded = pd.get_dummies(df_sin_nan, columns=['Ciudad'], prefix='Ciudad')
print("\nDataFrame con Ciudad codificada:\n", df_encoded)

# Escalar la columna Edad (estandarización)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df_encoded['Edad_Escalada'] = scaler.fit_transform(df_encoded[['Edad']])
print("\nDataFrame con Edad escalada:\n", df_encoded)

			

La limpieza y preparación de datos es un proceso iterativo y a menudo requiere una comprensión profunda de los datos y del problema que se está tratando de resolver. No existe una receta única, y las técnicas específicas a utilizar dependerán de las características de los datos y los objetivos del análisis.