Data Science Minimum: 10 Essential Skills You Need to Know to Start Doing Data Science — Lo fundamental en la ciencia de datos: 10 habilidades esenciales que necesita saber para empezar a utilizar la ciencia de datos

Francisco Martínez
8 min readOct 20, 2020

--

Data Science Minimum: 10 Essential Skills You Need to Know to Start Doing Data Science

Shar

This article is a translation of the original that appears on KDnuggets: Data Science: Essential Skills You Need to Know to Start Doing Data Science

Thank you very much for allowing its publication in Spanish.

Muchas gracias por permitir su publicación en español.

Lo fundamental en la ciencia de datos: 10 habilidades esenciales que necesita saber para empezar a utilizar la ciencia de datos

Shar

Etiquetas: Algorithms, Communication, Data Preprocessing, Data Science, Data Science Skills, Data Visualization, Ethics, Mathematics, Python, R

La ciencia de datos está en constante evolución, por lo que dominar las habilidades técnicas y sociales básicas le ayudará a tener éxito en su carrera como científico de datos, así como abordar conceptos avanzados, como el aprendizaje profundo y la inteligencia artificial.

Autor: Benjamin Obi Tayo, Ph.D., DataScienceHub.

La ciencia de datos es un campo tan amplio que se puede dividir en varios apartados como son la preparación y exploración de datos, representación y transformación de datos, visualización y presentación de datos, análisis predictivo y aprendizaje automático, etc. Para los principiantes, es natural plantearse la siguiente pregunta: ¿Qué habilidades necesito dominar para convertirme en científico de datos?

En este artículo se presentarán 10 habilidades esenciales necesarias para los científicos de datos en la práctica. Estas habilidades pueden agruparse en 2 categorías, a saber, habilidades tecnológicas (matemáticas y estadística, codificación, preprocesamiento y manipulación de datos, visualización de datos, aprendizaje automático y habilidades para tratar proyectos del mundo real) y habilidades blandas (habilidades de comunicación, aprendizaje permanente, habilidades de para jugar en equipo y habilidades éticas).

La ciencia de datos es un campo en constante evolución, sin embargo, dominar sus fundamentos le proporcionará los antecedentes necesarios que necesita para abordar conceptos avanzados como son el aprendizaje profundo, la inteligencia artificial, etc. Este artículo presentará 10 habilidades esenciales para científicos de datos en la práctica.

1. Habilidades en matemáticas y estadística

(i) Estadística y cálculo de probabilidades

La estadística y el cálculo de probabilidades se utilizan para la visualización de características, el preprocesamiento de datos, la transformación de características, la imputación de datos, la reducción de dimensionalidad, la ingeniería de características, la evaluación de modelos, etc. Estos son los temas con los que debe estar familiarizado:

a) Media

b) Mediana

c) Moda

d) Desviación/varianza estándar

e) Coeficiente de correlación y matriz de covarianza

f) Distribuciones del cálculo de probabilidades (Binomial, Poisson, Normal)

g) Valor de p

h) ECM (error cuadrático medio)

i) Puntuación R2

j) Teorema de Bayes (precisión, sensibilidad, valor predictivo positivo, valor predictivo negativo, matriz de confusión, curva ROC)

k) Prueba A/B

l) Simulación Monte Carlo

(ii) Cálculo de varias variables

La mayoría de los modelos de aprendizaje automático se crean con un conjunto de datos que tiene varias características o predictores. Por lo tanto, la familiaridad con el cálculo multivariable es extremadamente importante para crear un modelo de aprendizaje automático. Estos son los temas con los que debe familiarizarse:

a) Funciones de varias variables

b) Derivadas y gradientes

c) Función por pasos, función sigmoide, función logit, función ReLU (Rectified Linear Unit)

d) Función de coste

e) Trazado de funciones

f) Valores máximo y mínimo de unafunción

(iii) Álgebra lineal

El álgebra lineal es la habilidad matemática más importante en el aprendizaje automático. Un conjunto de datos se representa como una matriz. El álgebra lineal se utiliza en el preprocesamiento de datos, la transformación de datos y la evaluación de modelos. Estos son los temas con los que debe familiarizarse:

a) Vectores

b) Matrices

c) Traspuesta de una matriz

d) Inversa de una matriz

e) Determinante de una matriz

f) Producto escalar

g) Eigenvalores

h) Eigenvectores

(iv) Métodos de optimización

La mayoría de los algoritmos de aprendizaje automático realizan modelos predictivos minimizando una función objetivo, aprendiendo así los pesos que se deben aplicar a los datos de prueba para obtener las etiquetas predichas. Estos son los temas con los que debe familiarizarse:

a) Función coste / Función objetivo

b) Función de verosimilitud

c) Función error

d) Algoritmo de descenso de gradiente y sus variantes (por ejemplo el el algoritmo de descenso de gradiente estocástico)

Obtenga más información sobre el algoritmo de descenso de gradiente aquí: Machine Learning: How the Gradient Descent Algorithm Works.

2. Habilidades esenciales en programación

Las habilidades de programación son esenciales en la ciencia de datos. Dado que Python y R se consideran los dos lenguajes de programación más populares en la ciencia de datos, el conocimiento esencial en ambos lenguajes es crucial. Algunas organizaciones pueden requerir solo habilidades en R o Python, no en ambos.

(i) Habilidades en Python

Familiarícese con las habilidades básicas de programación en Python. Estos son los paquetes más importantes de los que debe dominar su uso:

a) Numpy

b) Pandas

c) Matplotlib

d) Seaborn

e) Scikit-learn

f) PyTorch

(ii) Habilidades en R

a) Tidyverse

b) Dplyr

c) Ggplot2

d) Caret

e) Stringr

(iii) Habilidades en otros lenguajes de programación

Algunas organizaciones o industrias pueden requerir habilidades en los siguientes lenguajes de programación:

a) Excel

b) Tableau

c) Hadoop

d) SQL

e) Spark

3. Habilidades en preprocesamiento y manipulación de datos

Los datos son clave para cualquier análisis en ciencia de datos, ya sea análisis inferencial, análisis predictivo o análisis prescriptivo. El poder predictivo de un modelo depende de la calidad de los datos que se utilizaron para crear el modelo. Los datos vienen en diferentes formatos, como texto, tabla, imagen, voz o video. Muy a menudo, los datos que se utilizan para el análisis deben extraerse, procesarse y transformarse para convertirlos en una forma adecuada para un análisis posterior.

i) Manipulación de datos: El proceso de manipulación de datos es un paso fundamental para cualquier científico de datos. Muy rara vez se puede acceder fácilmente a los datos en un proyecto de ciencia de datos para su análisis. Es muy probable que los datos estén en un archivo, una base de datos o se extraigan de documentos como páginas web, tweets o archivos PDF. Saber cómo manipular y limpiar los datos le permitirá obtener información crítica de sus datos que de otro modo estarían ocultos.

ii) Preprocesamiento de datos: El conocimiento sobre el preprocesamiento de datos es muy importante e incluye temas como:

a) Tratamiento de datos ausentes

b) Imputación de datos

c) Manejo de datos categóricos

d) Etiquetas de clase de cosificación para tratar problemas de clasificación

e) Técnicas de transformación de características y reducción de la dimensionalidad, tales como el análisis de componentes principales (Principal Component Analysis (PCA)) y el análisis de discriminación lineal (Discriminant Analysis (LDA)).

4. Habilidades en visualización de datos

Hay que comprender los componentes esenciales de una buena visualización de datos.

a) Componente de datos: Un primer paso importante para decidir cómo visualizar los datos es saber qué tipo de datos son, por ejemplo, datos categóricos, datos discretos, datos continuos, datos de series de tiempo, etc.

b) Componente geométrico: Aquí es donde usted decide qué tipo de visualización es adecuada para sus datos, por ejemplo, diagrama de dispersión, gráficos de líneas, diagramas de barras, histogramas, gráficos q-q, densidades suaves, diagramas de caja, diagramas de pares, mapas de calor, etc.

c) Componente de mapeado: Aquí debe usted decidir qué variable usar como su variable x y como variable y. Esto es importante, especialmente cuando su conjunto de datos es multidimensional con varias características.

d) Componente de escala: Aquí usted decide qué tipo de escalas utilizar, por ejemplo, escala lineal, escala logarítmica, etc.

e) Componente de etiquetas: Esto incluye cosas como etiquetas de eje, títulos, leyendas, tamaño de la fuente a utilizar, etc.

f) Componente ético: Aquí, desea asegurarse de que su visualización cuente la historia real. Debe ser consciente de sus acciones al limpiar, resumir, manipular y producir la visualización de datos y asegurarse de que no está usando su visualización para engañar o manipular a su audiencia.

5. Habilidades básicas en aprendizaje automático

El aprendizaje automático es una rama muy importante de la ciencia de datos. Es vital comprender la estructura del aprendizaje automático: elaboración de problemas, análisis de datos, creación de modelos, pruebas y evaluación y aplicación de modelos. Obtenga más información sobre el marco de aprendizaje automático desde aquí: The Machine Learning Process.

Los siguientes son algoritmos importantes de aprendizaje automático con los que debe familiarizarse.

i) Aprendizaje supervisado (predicción de variable contínua)

a) Regresión Básica

b) Análisis de multiregresión

c) Regresión regularizada

ii) Aprendizaje supervisado (predicción de variable discreta)

a) Clasificador de regresión logística

b) Clasificador de máquina de vectores de soporte

c) Clasificador de K vecinos más próximos (KNN)

d) Clasificador de árbol de decisiones

e) Clasificador de bosque aleatorio

iii) Aprendizaje no supervisado

a) Algoritmo de agrupamiento KMeans

6. Habilidades para finalizar proyectos de ciencia de datos del mundo real

Las habilidades adquiridas solo con el trabajo del curso no lo convertirán en un científico de datos. Un científico de datos cualificado debe poder mostrar la evidencia de la finalización con éxito de un proyecto de ciencia de datos del mundo real que incluye todas las etapas de la ciencia de datos y el proceso de aprendizaje automático, como la definición de problemas, la adquisición y análisis de datos, la creación de modelos, las pruebas de modelos, la evaluación de modelos y su implementación. Los proyectos de ciencia de datos del mundo real se pueden encontrar en las siguientes referencias:

a) Proyectos Kaggle

b) Puestos de interno

c) En entrevistas

7. Habilidades en comunicación

Los científicos de datos deben poder comunicar sus ideas a otros miembros del equipo o a los gestores comerciales de la organización. Las buenas habilidades de comunicación jugarían un papel clave aquí para poder transmitir y presentar información muy técnica a personas con poca o ninguna comprensión de los conceptos técnicos en ciencia de datos. Las buenas habilidades de comunicación ayudarán a fomentar una atmósfera de unidad y unión con otros miembros del equipo, como son los analistas de datos, ingenieros de datos, ingenieros de campo, etc.

8. Sea siempre un aprendiz

La ciencia de datos es un campo en constante evolución, así que prepárese para adoptar y aprender nuevas tecnologías. Una forma de mantenerse en contacto con los desarrollos en este campo es establecer una red con otros científicos de datos. Algunas plataformas que promueven la creación de redes son LinkedIn, GitHub y Medium (publicaciones Towards Data Science y Towards AI). Las plataformas son muy útiles para obtener información actualizada sobre desarrollos recientes en el campo.

9. Habilidades como jugador de equipo

Como científico de datos, trabajará en un equipo formado por analistas de datos, ingenieros, gerentes, por lo que necesita buenas habilidades de comunicación. También debe ser un buen oyente, especialmente durante las primeras fases de desarrollo del proyecto, donde debe confiar en ingenieros u otro personal para poder diseñar y formular un buen proyecto de ciencia de datos. Ser un buen jugador de equipo le ayudará a prosperar en un entorno empresarial y a mantener buenas relaciones con otros miembros de su equipo, así como con los gerentes o directores de su organización.

10. Habilidades éticas en ciencia de datos

Comprenda las implicaciones de su proyecto. Sea sincero con usted mismo. Evite manipular datos o usar métodos que produzcan sesgos en los resultados de forma intencionada. Sea ético en todas las fases, desde la recopilación y el análisis de datos hasta la creación, el análisis, las pruebas y la aplicación de modelos. Evite crear resultados con el propósito de engañar o manipular a su audiencia. Sea ético cuando interpreta los hallazgos de los proyectos de ciencia de datos.

En resumen, hemos analizado 10 habilidades esenciales necesarias para los científicos de datos en ejercicio. La ciencia de datos es un campo que está en constante evolución, sin embargo, dominar los fundamentos de la ciencia de datos le proporcionará los conocimientos necesarios para abordar conceptos avanzados como el aprendizaje profundo, la inteligencia artificial, etc.

Original. Publicado de nuevo con permiso.

Enlaces relacionados:

· Modern Data Science Skills: 8 Categories, Core Skills, and Hot Skills

· These Data Science Skills will be your Superpower

· Top 5 must-have Data Science skills for 2020

--

--