En esta entrada, compartiremos nuestra experiencia en el análisis de datos con las librerías de Python Pandas Profiling y PyGWalker.
Pandas Profiling
Pandas Profiling es una librería que proporciona una forma rápida y sencilla de generar informes de análisis exploratorio de datos (EDA). Estos informes incluyen información sobre la distribución de los datos, la presencia de valores atípicos, la multicolinealidad, etc.
PyGWalker
PyGWalker es una librería que permite realizar análisis exploratorio de datos de forma interactiva. Esta librería proporciona una interfaz gráfica que permite explorar los datos de forma visual y sencilla.
Procesos realizados hasta el momento
En el análisis del conjunto de datos de diabetes, he
utilizado las siguientes herramientas:
- Pandas para cargar los datos.
- Pandas Profiling para generar un informe de EDA.
- PyGWalker para realizar un análisis exploratorio de datos de forma interactiva.
Contraste de información relevante con conocimiento de fondo y medidas de interés de los datos
En el informe de EDA generado por Pandas Profiling, he identificado los siguientes aspectos relevantes:
- · El nivel de glucosa en sangre presenta una distribución sesgada a la derecha.
- · Existe una correlación positiva entre la edad y
el nivel de glucosa en sangre.
·
Estos aspectos relevantes son consistentes con el conocimiento de fondo que tenemos sobre la diabetes. Por ejemplo, sabemos que la diabetes es una enfermedad crónica que se caracteriza por niveles elevados de glucosa en sangre. También sabemos que la edad y el peso son factores de riesgo para la diabetes.
A continuación se muestra algunas capturas de pantalla de PyGWalker del ejercicio realizado para la Actividad 6, y que está en el repositorio GitHub:
Apropiación de las técnicas de visualización de datos
Hemos utilizado PyGWalker para explorar los datos de forma interactiva. Esta herramienta me ha permitido identificar los siguientes patrones y tendencias:
- Los pacientes con diabetes tienen, en general, un nivel de glucosa en sangre más elevado que los pacientes sin diabetes.
- El nivel de glucosa en sangre aumenta con la edad.
- El nivel de glucosa en sangre disminuye con el peso.
Estos patrones y tendencias son consistentes con los resultados obtenidos a partir del informe de EDA generado por Pandas Profiling.
Conclusión
Pandas Profiling y PyGWalker son herramientas útiles para
el análisis exploratorio de datos. Estas herramientas permiten identificar
rápidamente los aspectos relevantes de los datos y generar informes que
facilitan la comunicación de los resultados.
No hay comentarios:
Publicar un comentario