1 usuario conectado

Análisis y ciencia de datos en Python.Librerías.Pandas

Comparte esto

Continuando con nuestras librerías fundamentales para el análisis de datos y la ciencia de datos en Python, ahora vamos a explorar Pandas.

Pandas: Poderosas Herramientas para la Manipulación y el Análisis de Datos

Pandas es una librería de Python que proporciona estructuras de datos de alto rendimiento y fáciles de usar, junto con herramientas para el análisis de datos. Se ha convertido en una de las librerías más populares y esenciales para trabajar con datos estructurados (tabulares, series de tiempo, etc.) en Python.

Estructuras de Datos Clave de Pandas:

  1. Series: Un array unidimensional etiquetado capaz de contener cualquier tipo de dato (enteros, flotantes, strings, objetos de Python, etc.). Las etiquetas se denominan "índices". Puedes pensar en una Serie como una columna de una hoja de cálculo o una tabla SQL.

  2. DataFrame: Una estructura de datos bidimensional tabular con etiquetas en las filas (índices) y las columnas. Puedes pensar en un DataFrame como una hoja de cálculo completa, una tabla SQL o una colección de Series (donde cada columna es una Serie). Los DataFrames son la estructura de datos más comúnmente utilizada en Pandas para el análisis de datos.

Características Clave de Pandas:

Un Ejemplo Básico de Pandas:

Python
 
import pandas as pd

# Creación de una Serie desde una lista
s = pd.Series([10, 20, 30, 40, 50])
print("Serie s:\n", s)

# Creación de una Serie con índice personalizado
s_indexado = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print("\nSerie s con índice:\n", s_indexado)

# Creación de un DataFrame desde un diccionario de listas
data = {'Nombre': ['Alice', 'Bob', 'Charlie', 'David'],
        'Edad': [25, 30, 22, 35],
        'Ciudad': ['Nueva York', 'Londres', 'París', 'Tokio']}
df = pd.DataFrame(data)
print("\nDataFrame df:\n", df)

# Selección de columnas
nombres = df['Nombre']
print("\nColumna 'Nombre':\n", nombres)

# Selección de filas por índice
primera_fila = df.loc[0]
print("\nPrimera fila:\n", primera_fila)

# Selección de filas por condición
mayores_de_25 = df[df['Edad'] > 25]
print("\nPersonas mayores de 25:\n", mayores_de_25)

# Agregar una nueva columna
df['Profesión'] = ['Ingeniero', 'Doctor', 'Estudiante', 'Abogado']
print("\nDataFrame con nueva columna:\n", df)

# Estadísticas descriptivas
estadisticas_edad = df['Edad'].describe()
print("\Estadísticas de la columna 'Edad':\n", estadisticas_edad)

# Agrupación de datos
grupos_por_ciudad = df.groupby('Ciudad')['Edad'].mean()
print("\nEdad promedio por ciudad:\n", grupos_por_ciudad)

# Manejo de datos faltantes
data_con_nan = {'A': [1, 2, np.nan], 'B': [5, np.nan, 8]}
df_nan = pd.DataFrame(data_con_nan)
print("\nDataFrame con NaN:\n", df_nan)
df_sin_nan = df_nan.fillna(0)
print("\nDataFrame con NaN llenados con 0:\n", df_sin_nan)

# Lectura de un archivo CSV (ejemplo)
# df_csv = pd.read_csv('mi_archivo.csv')
# print("\nDataFrame desde CSV:\n", df_csv.head())

Ventajas de Usar Pandas:

Cuándo Usar Pandas:

Pandas se ha convertido en una herramienta indispensable para cualquier persona que trabaje con datos en Python. Su flexibilidad y el conjunto de herramientas que proporciona simplifican enormemente el proceso de manipulación y análisis de datos.