Overview del Proyecto
En este proyecto de análisis de datos exploratorio (EDA) tomamos la data proporcionada por el repositorio de Kaggle que recopila información de los salarios de Data Science en el 2023 en un grupo de países donde se realizó la encuesta.
La base del análisis de datos se baso en las siguientes preguntas:
- ¿Cuál es el top 5 de los trabajos relacionados al Data Science que tienen mayor demanda?
- ¿Cómo ha evolucionado la demanda de los perfiles de Data Science en los últimos años para el top 10?
- ¿Cuáles son los 3 trabajos con mayor demanda dependiendo del nivel de experiencia?
- ¿Qué tipo de distribución tienen los salarios en dólares para las variables nivel de experiencia, tipo de contratación, modalidad de trabajo y tamaño de compañía?
- ¿Qué países tienen mayor volumen de demanda en la data presentada?
- ¿Qué variables tienen correlación entre sí?
- ¿Cuál es el salario promedio por nivel de experiencia, tipo de contratación, modalidad de trabajo y tamaño de compañía?
Antes de poder entrar al análisis de cada una de las preguntas antes mencionadas necesitamos revisar la información con la que contamos. Para ello genero un script para poder revisar las siguientes características del dataframe:
Con el siguiente script analizamos de manera general la información que contiene el dataset para poder limpiarlo en caso sea necesario o transformar el tipo de datos en caso sea necesario. Con ello obtuvimos el siguiente resultado:
Luego del análisis general vemos que hay columnas categóricas y numéricas categóricas por lo que procedo a hacer la mención para que no sean consideradas como numéricas y se apliquen funciones que adicionales que podrían alterar el modelo.
Para la visualización de datos cambiamos las nomenclaturas de 4 campos en particular para que nuestras visualizaciones sean mucho más entendibles.
Empezamos con las respuestas a la preguntas del proyecto
1. ¿Cuál es el top 5 de los trabajos relacionados al Data Science que tienen mayor demanda?
En los últimos 4 años los 4 primeros lugares de puestos de trabajo para Data Science se han mantenido en el transucrso del tiempo. Sin embargo, en la actualidad, el puesto de Data Engenieer ha superado en una posición al puesto de Data Scientist.
Por otro lado, vemos que posterior a la pandemia el número de empleados relacionados a estos puesto de trabajo ha tenido un incremento exponencial que abarcan, en algunos casos, incrementos de hasta el 4000%.
2. ¿Cómo ha evolucionado la demanda de los perfiles de Data Science en los últimos años para el top 10?
Haciendo el análisis para los últimos 10 años vemos un incremento constante en el volumen de puestos de trabajos relacionados a Data Science.
Vemos como los 4 primeros puestos (Data Engineer, Data Scientist, Data Analyst y Machine Learning Engineer) representa más del 50% del total de puestos. Además que la diferencia en volumen de contratados es mucho más grande al resto del grupo en evaluación.
3. ¿Cuáles son los 3 trabajos con mayor demanda dependiendo del nivel de experiencia?
Según el análisis se ve que las cantidad de empleados en Entry-Level representan un número mayor al puesto de Executive-Level. Deberiamos ahondar más en este hallazgo, ya que teniendo en cuenta que cada nivel deviene del nivel anterior no permite plantear la hipotesis de que gran parte de los empleados en Entry-Level desisten de seguir con esta línea de conocimiento y por ello se ve la disminución en Executive-Level.
Adicional vemos que las empresas apuestan mucho más por empleados con Senior-Level sobre los demás.
4. ¿Qué tipo de distribución tienen los salarios en dólares para las variables nivel de experiencia, tipo de contratación, modalidad de trabajo y tamaño de compañía?
Realizando una generación iterativa de diagramas vemos que la distribución normal ajusta los datos de manera correcta.
Puntos relevantes:
- El salario actual ha aumentado llegando a una media de 150 mil dólares anules.
- Los Executive-Level tienen el salario más alto con un máximo de 450 mil dólares anulaes aproximadamente.
- Los fulltime tienen un salario medio de 150 mil dólares anuales. Aunque existen casos donde el tipo de contrato tipo Contract tiene salarios mayores.
- Para las modalidades de trabajo On-Site y Remote no existen una diferencia significativa en los salarios anuales.
- Las compañías de tamaño Large tienen mayor cantidad de empleados con salarios anuales bajos que las otras compañías.
5. ¿Qué países tienen mayor volumen de demanda en la data presentada?
Según el mapa de calor podemos ver que entre Alaska y Estados únidos reunen la mayor conentración de empleados para el estudio según el dataset proporcionado.
6. ¿Qué variables tienen correlación entre sí?
Las variables con más alto correlación son la de Salary y Work_Year, Y la de Salary con Salary_USD.
Al ser cuantitativas y proporcionales es el único hallazgo que nos brinda el Matrix Plot.
7. ¿Cuál es el salario promedio por nivel de experiencia, tipo de contratación, modalidad de trabajo y tamaño de compañía?
Dentro de los hallazgos encontrados en este gráfico vemos que la modalidad de trabajo On-Site es ligeramente mayor a la modalidad Remota. Y ambas son aproximadamente el doble que la modalidad Hybrid.
Por otro lado vemos que las compañias de tamaño Medium tiene un salario promedio mucho mayor a las empresas Large.