Data Science | Conociendo el Proceso de Ciencia de Datos

El proceso del Data Science, o de la ciencia de datos, es empleado para poder conocer de mejor manera todos los datos posibles en relación a cualquier empresa o negocio, o a cualquier problema que se le pueda plantear en su camino. Además, su uso sirve para poder explicar todos aquellos eventos o situaciones que puedan llegar a ser interesantes para tal fin. De esta forma, será posible estimar, o mejor aún, predecir aquellas futuras situaciones o comportamientos que puedan llegar a generar algún tipo de impacto en dicha empresa o negocio.

Está claro que, en el mundo del Data Science, la toma de decisiones estratégicas implica mezclar algunas disciplinas. Entre ellas podemos encontrar al diseño, la creatividad, la perspectiva UX, la manipulación de datos sensibles y la inteligencia artificial.

Ahora bien, ¿qué es Data Science? Se trata de una disciplina, dentro del mundo de la tecnología digital, que utiliza todos aquellos datos que puede recabar, para poder tomar mejores decisiones. Respecto a ello cabe destacar que la pregunta más importante a realizarse, a decir verdad, no es qué hace, sino más bien cómo puede llegar a conseguirlo.

Para esto, este mecanismo de trabajo se vale de cuatro pilares específicos:

Analítica, para poder llegar a los insights
Estadística, para poder comprender a fondo las causas que los provocan
Poder computacional
Machine learning, al mismo tiempo, para poder realizar las predicciones que necesite.

Data Science | Conceptos fundamentales

Para poder ser sumamente certeros en esta ciencia, es imprescindible manejar algunos conceptos de base.

¿Qué son los datos?

Los datos son todas aquellas informaciones referidas a algo concreto. Estas informaciones, permiten su conocimiento exacto respecto a aquello a lo que se esté tratando. De esta manera será mucho más sencillo deducir las consecuencias derivadas de un hecho específico y de qué maneras podrá repercutir en la empresa u organización de la que se trate.

¿Qué es la información?

Una vez que se han recabado todos los datos pertinentes, estos serán unidos y complementados entre sí para poder informar mejor, es decir, aportar más contexto (todo aquello que sea verídico y sume) respecto a uno o varios hechos específicos.

¿Qué es data analytics?

Data analytics es aquella ciencia cuyo objetivo principal es encontrar aprendizajes en los datos preexistentes. De esta forma será mucho más sencillo ayudar a crear hipótesis al respecto, se podrá mejorar la calidad de las preguntas realizadas respecto a los problemas a solucionar, etcétera. Esta ciencia se vale de las informaciones obtenidas a través de procesos cuantitativos y cualitativos para poder extraer insights de los datos que se van obteniendo.

¿Qué son las estadísticas?

Se trata de todos aquellos estudios que puedan sumar contenido de valor para aportar más información a las hipótesis planteadas. El objetivo es que estas hipótesis, sea en el momento que sea dentro del journey que deberán atravesar los datos (que lo veremos a continuación), puedan ser testeadas.

¿Qué es Business Intelligence?

Se trata de un mecanismo de trabajo, el cual aprovecha las capacidades de software y la información obtenida por los servicios de las organizaciones que lo emplean, para poder transformar los datos que manipula en conocimientos prácticos. Estos conocimientos tienen como finalidad asesorar o informar todo aquello que se pueda acerca de las decisiones comerciales estratégicas de las empresas.

Data Science | Los pasos del Data Journey

El Data Journey es una etapa fundamental del Data Science. Se trata del recorrido que realizan los datos desde su creación (o desde su obtención), hasta el momento en que, ya transformados, realizan un impacto directo en la empresa u organización.

Consta de cinco etapas:

Existencia (o acceso): que es el momento en el cual el dato es extraído
Ingesta: el momento de preparación, transformación y enriquecimiento del dato
Data Science puro: que consiste en la estandarización de los datos obtenidos. Allí el científico de datos deberá encontrar problemas y/o soluciones que pueda llegar a enfrentar el proyecto que está tratando.
Storytelling Data: en este momento se deberán preparar los datos para su posterior visualización. De igual manera deberá ocurrir con las hipótesis de problemas y potenciales soluciones presentadas.
Impacto en el negocio: aquí es cuando se debe comenzar a llevar a cabo el seguimiento de las acciones propuestas en el paso anterior. De esta manera se podrá comenzar a ver resultados en el corto plazo.

Los pasos del Data Science Journey

De igual manera que en el paso anterior, el propio Data Science, para lograr a ser tal, debe contar con una sucesión de etapas en su estructuración:

Identificación del problema o necesidad del negocio: que es el momento en el cual deberán encontrarse las preguntas que se desean responder (por ejemplo “¿por qué no tengo conversiones en mi página web?” o “¿por qué están cayendo las ventas en mi aplicación móvil?”)
Preparación de datos: una vez que los datos ya han sido ingestados (recuerda el segundo paso del data journey), será necesario ver cuáles de ellos pueden llegar a ser útiles para posteriormente extraerlos de sus fuentes. En este momento deberá realizarse también la limpieza de los mismos y su posterior estandarización.
Comprensión de los datos: aquí deberán tomarse todos los datos extraídos, extrapolados, limpios y estandarizados, para comenzar a realizar todas las interpretaciones sobre ellos posibles al respecto.
Creación de un modelo: en esta etapa será necesario determinar el modelo de análisis de datos (Data Science puro) que se utilizará, para posteriormente comenzar a entrenarlo.
Validación: este es el punto en el cual se deberá verificar que el modelo decidido sea acorde al problema que se desea solucionar.
Storytelling Data: finalmente, con todo resuelto (al menos en un principio), será momento de preparar todo para poder mostrar los datos. Habrá que hacerlo de forma tal que se ayude al usuario (es decir, al cliente) a comprender todas aquellas hipótesis que se hayan querido plantear.

Para realizar ambas tareas, será necesario comprender al 100% las preguntas que se han querido resolver. Y, a decir verdad, esto puede llegar a significar un 90% del resultado final del trabajo que se está por comenzar a hacer.

¿Qué es la arquitectura de los datos?

El rol del científico de Data Science es explotar y sacarle valor a grandes volúmenes de información. De esta manera, entre mejor reciba los datos, mejor tiempo necesitará emplear para llevar a cabo la estandarización y la limpieza de los mismos.

En efecto, podríamos decir que casi el 80% del trabajo del científico de la ciencia de datos consiste en purificarlos. Sólo de esta manera podrán encontrarse datos de calidad, y es por ello que la arquitectura de datos cobra tanta importancia.

Para realizar su cometido, el Data Science cobra valor y puede desarrollar sus objetivos gracias a dos áreas específicas. Estamos hablando del Data Technology y el Software Engineering, y las explicaremos a continuación.

Data Technology: consiste en la aplicación de la computación para almacenar, estudiar, transmitir y manipular los datos o informaciones recabados en el contexto de la empresa u organización en cuestión. Desde su ámbito, lo que hace es aportar herramientas al Data Science.
Software Engineering: en este caso, consiste en la aplicación sistemática (con un enfoque cuantificable) de material informático para el desarrollo, operación y mantenimiento de un software. A su vez, desde su perspectiva, aportará todo aquello que sea necesario para aportar al proceso de trabajo.

¿Cuál es el impacto de la arquitectura de datos en los procesos de trabajo?

Para comprender la importancia de la arquitectura de datos, es necesario, en principio, comprender qué es la ingesta de datos.

Consiste, básicamente, en todas aquellas técnicas que permitan recopilar información a partir de la mayor cantidad posible de fuentes (heterogéneas) a gran escala.

Básicamente podríamos decir que se trata de una limpieza, o bien de una normalización de los datos. Esto, de forma tal que puedan quedar listos y disponibles, sea en el momento que sea, para todos los equipos de trabajo que necesiten analizarlos. Este podría ser el caso, por ejemplo, de las APIs REST.

El desafío consistirá, desde la perspectiva de la arquitectura, en descubrir cómo almacenar los datos disponibles. Y para esta tarea deberán emplearse lo que dentro del Data Science se conoce como técnicas de persistencia de datos.

Finalmente, para concluir este extenso proceso, y antes de su traducción final en las predicciones que podrían realizarse, llega el momento de la transformación de los datos obtenidos.

Data Science: Adiós a la Subjetividad

En este caso será necesario poder procesar toda aquella información recabada, de manera tal que los datos puedan volverse escalables y perdurables en el tiempo. Para ello, una vez más, será necesaria otra técnica de trabajo conocida como procesamiento paralelo, o bien otra conocida como spark, o bien, el entrenamiento de modelos que mencionamos anteriormente.

La utilización del Data Science para la predicción de probabilidades es una práctica sumamente complicada para los usuarios inexpertos. No obstante, como pudiste observar, se trata de un método sumamente efectivo para poder dejar atrás la subjetividad.

Lógicamente, puede que no se trate de un método infalible, pero estamos ante un mundo que, para una mayor eficiencia, propone también el uso y la combinación de la inteligencia artificial con el machine learning. Y llegado a este punto, si de su utilización se trata, ya no queda mucho por dudar al respecto.