Cómo importar datos de Excel en scripts de Python usando pandas
Anuncio
Microsoft Excel es el software de hoja de cálculo más utilizado en el mundo, y por una buena razón: la interfaz fácil de usar y las potentes herramientas integradas facilitan el trabajo con datos.
Pero si desea hacer un procesamiento de datos más avanzado, deberá ir más allá de las capacidades de Excel y comenzar a usar un lenguaje de programación / scripting como Python. En lugar de copiar manualmente sus datos en bases de datos, aquí hay un tutorial rápido sobre cómo cargar sus datos de Excel en Python usando Pandas.
Nota: Si nunca antes ha usado Python, este tutorial puede ser un poco difícil. Recomendamos comenzar con estos sitios web para aprender Python Los 5 mejores sitios web para aprender la programación de Python Los 5 mejores sitios web para aprender la programación de Python ¿Desea aprender la programación de Python? Estas son las mejores formas de aprender Python en línea, muchas de las cuales son completamente gratuitas. Lea más y estos ejemplos básicos de Python para comenzar 10 Ejemplos básicos de Python que lo ayudarán a aprender rápido 10 Ejemplos básicos de Python que lo ayudarán a aprender rápido Este artículo de ejemplos básicos de Python es para aquellos que ya tienen algo de experiencia en programación y simplemente quieren transición a Python lo más rápido posible. Lee mas .
¿Qué son los pandas?
Python Data Analysis Library ("Pandas") es una biblioteca de código abierto para el lenguaje de programación Python que se utiliza para el análisis y la manipulación de datos.
Pandas carga datos en objetos Python conocidos como Dataframes, que almacenan datos en filas y columnas al igual que una base de datos tradicional. Una vez que se crea un Dataframe, se puede manipular usando Python, abriendo un mundo de posibilidades.
Instalar pandas
Nota: Debe tener Python 2.7 o posterior para instalar Pandas.
Para comenzar a trabajar con Pandas en su máquina, deberá importar la biblioteca de Pandas. Si está buscando una solución de peso pesado, puede descargar Anaconda Python Distribution, que tiene Pandas incorporado. Si no tiene un uso para Anaconda, Pandas es fácil de instalar en su terminal.
Pandas es un paquete de PyPI, lo que significa que puede instalar usando PIP para Python a través de la línea de comandos. Los sistemas Mac modernos vienen con PIP. Para otros sistemas Windows, Linux y anteriores, es fácil aprender cómo instalar PIP para Python Cómo instalar Python PIP en Windows, Mac y Linux Cómo instalar Python PIP en Windows, Mac y Linux Muchos desarrolladores de Python confían en una herramienta llamado PIP para Python para hacer que todo sea más fácil y rápido. Aquí se explica cómo instalar Python PIP. Lee mas .
Una vez que haya abierto su terminal, puede instalar la última versión de Pandas usando el comando:
>> pip install pandas
Pandas también requiere la biblioteca NumPy, también instalemos esto en la línea de comando:
>> pip install numpy
¡Ahora tiene Pandas instalado y listo para crear su primer DataFrame!
Preparando los datos de Excel
Para este ejemplo, usemos un conjunto de datos de muestra: un libro de Excel titulado Cars.xlsx .
Este conjunto de datos muestra la marca, modelo, color y año de automóviles ingresados en la tabla. La tabla se muestra como un rango de Excel. Pandas es lo suficientemente inteligente como para leer los datos adecuadamente.
Este libro de trabajo se guarda en el directorio de escritorio, aquí está la ruta de archivo utilizada:
/Users/grant/Desktop/Cars.xlsx
Necesitará conocer la ruta del archivo del libro de trabajo para utilizar Pandas. Comencemos abriendo Visual Studio Code para escribir el script. Si no tiene un editor de texto, le recomendamos Visual Studio Code o Atom Editor Visual Studio Code vs. Atom: ¿Qué editor de texto es el adecuado para usted? Visual Studio Code vs. Atom: ¿Qué editor de texto es el adecuado para usted? ¿Busca un editor de código gratuito y de código abierto? Visual Studio Code y Atom son los dos candidatos más fuertes. Lee mas .
Escribir el script de Python
Ahora que tiene su editor de texto de elección, comienza la verdadera diversión. Vamos a reunir a Python y nuestro libro de trabajo de Cars para crear un Pandas DataFrame.
Importar las bibliotecas de Python
Abra su editor de texto y cree un nuevo archivo Python. Llamémoslo Script.py .
Para trabajar con Pandas en su script, deberá importarlo a su código. Esto se hace con una línea de código:
import pandas as pd
Aquí estamos cargando la biblioteca Pandas y adjuntándola a una variable "pd". Puede usar cualquier nombre que desee, estamos usando "pd" como abreviatura de Pandas.
Para trabajar con Excel usando Pandas, necesita un objeto adicional llamado ExcelFile . ExcelFile está integrado en el ecosistema de Pandas, por lo que importa directamente desde Pandas:
from pandas import ExcelFile
Trabajando con la ruta del archivo
Para dar acceso a Pandas a su libro de trabajo, debe dirigir su secuencia de comandos a la ubicación del archivo. La forma más fácil de hacer esto es proporcionando a su script la ruta completa al libro de trabajo.
Recordemos nuestra ruta en este ejemplo: /Users/grant/Desktop/Cars.xlsx
Necesitará esta ruta de archivo referenciada en su script para extraer los datos. En lugar de hacer referencia a la ruta dentro de la función Read_Excel, mantenga el código limpio almacenando la ruta en una variable:
Cars_Path = '/Users/grant/Desktop/Cars.xlsx'
¡Ahora está listo para extraer los datos usando una función Pandas!
Extraiga datos de Excel con Pandas.Read_Excel ()
Con Pandas importados y su conjunto de variables de ruta, ahora puede utilizar funciones en el objeto Pandas para realizar nuestra tarea.
La función que necesitará usar se denomina apropiadamente Read_Excel . La función Read_Excel toma la ruta del archivo de un libro de Excel y devuelve un objeto DataFrame con el contenido del libro de trabajo. Pandas codifica esta función como:
pandas.read_excel(path)
El argumento "ruta" va a ser la ruta a nuestro libro Cars.xlsx, y ya hemos establecido la cadena de ruta en la variable Cars_Path.
¡Estás listo para crear el objeto DataFrame! Pongamos todo junto y establezcamos el objeto DataFrame en una variable llamada "DF":
DF = pd.read_excel(Cars_Path)
Por último, desea ver el DataFrame, así que imprimamos el resultado. Agregue una declaración de impresión al final de su secuencia de comandos, utilizando la variable DataFrame como argumento:
print(DF)
¡Es hora de ejecutar el script en su terminal!
Ejecutando el script de Python
Abra su terminal o línea de comando, y navegue hasta el directorio que alberga su script. En este caso, tengo "Script.py" ubicado en el escritorio. Para ejecutar el script, use el comando python seguido del archivo de script:
Python extraerá los datos de "Cars.xlsx" en su nuevo DataFrame e imprimirá el DataFrame en la terminal.
Una mirada más cercana al objeto DataFrame
A primera vista, el DataFrame se parece mucho a una tabla de Excel normal. Los Pandas DataFrames son fáciles de interpretar como resultado.
Sus encabezados están etiquetados en la parte superior del conjunto de datos, y Python ha completado las filas con toda su información leída del libro de trabajo "Cars.xlsx".
Observe la columna más a la izquierda, un índice que comienza en 0 y numera las columnas. Pandas aplicará este índice a su DataFrame de forma predeterminada, lo que puede ser útil en algunos casos. Si no desea que se genere este índice, puede agregar un argumento adicional en su código:
DF = pd.read_excel(Cars_Path, index=False)
Establecer el argumento "índice" en Falso eliminará la columna de índice, dejándolo solo con sus datos de Excel.
Haciendo más con Python
Ahora que tiene la capacidad de leer datos de hojas de cálculo de Excel, puede aplicar la programación de Python de la forma que elija. Trabajar con Pandas es una forma sencilla para que los programadores experimentados de Python trabajen con datos almacenados en libros de Excel.
La facilidad con la que Python puede usarse para analizar y manipular datos es una de las muchas razones por las que Python es el lenguaje de programación del futuro. 6 Razones por las que Python es el lenguaje de programación del futuro. 6 razones por las que Python es el lenguaje de programación del futuro. ¿Quieres aprender o ampliar tus habilidades de programación? He aquí por qué Python es el mejor lenguaje de programación para aprender este año. Lee mas .
Haber de imagen: Rawpixel / Depositphotos
Explore más sobre: Análisis de datos, Microsoft Excel, Python, Scripting.