Conocimiento del dominio (ciencia de los datos) - Visión general, áreas temáticas, estudio de caso

Qué es el conocimiento del dominio (ciencia de los datos)?

En la ciencia de los datosFundamentos de la ciencia de los datosInscríbase en este curso de Fundamentos de la ciencia de los datos por nuestro sitio web y avance en su carrera. Los estudiantes obtienen una visión general de cómo se utiliza la ciencia de los datos en los negocios y las finanzas., el término conocimiento de dominio se utiliza para referirse al conocimiento general de fondo del campo o entorno al que se aplican los métodos de la ciencia de datos. La ciencia de los datos, como disciplina, puede considerarse el estudio de las herramientas utilizadas para modelar los datos, generar ideas a partir de ellos y tomar decisiones basadas en los datos. Son herramientas genéricas aplicables a muchos campos como la ingeniería, las leyes, la medicina, las finanzas, etc.

Áreas temáticas de la ciencia de datos

A grandes rasgos, la ciencia de los datos se compone de las tres principales áreas temáticas:

1. Ciencia de la computación y programación

La ciencia computacional y la programación se refieren al estudio de las herramientas computacionales, como los lenguajes de programación, las bibliotecas de software y otras herramientas. El conocimiento de la programación es esencial para cualquiera que desee aplicar la ciencia de datos a los problemas de su campo.

2. Estadística y aprendizaje automático

Estadística y aprendizaje automáticoAprendizaje automático (en finanzas)El aprendizaje automático en finanzas se considera ahora un aspecto clave de varios servicios y aplicaciones financieras, como la gestión de activos, la evaluación de los niveles de riesgo forman los fundamentos teóricos de los métodos y algoritmos de la ciencia de datos. Es necesario comprender los fundamentos teóricos de la ciencia de datos para conocer los límites de los métodos que se aplican, así como para interpretar adecuadamente los resultados del proceso de ciencia de datos.

3. Conocimiento del dominio

El conocimiento del dominio se refiere a menudo a una disciplina o campo general al que se aplica la ciencia de datos. Un experto o especialista en un campo como la biotecnología se dice que posee conocimiento de dominio de esa industria.

Los dos primeros puntos de la lista anterior son habilidades esenciales que requieren todos los profesionales de la ciencia de datos y son comunes a todas las aplicaciones de la ciencia de datos, independientemente del dominio.

Por otro lado, el conocimiento del dominio es más especializado. La falta de conocimiento del dominio dificulta la aplicación de los métodos adecuados, así como la evaluación de su rendimiento. De hecho, la aplicación del conocimiento del dominio debe ser omnipresente en todo el proceso de la ciencia de datos para que sea eficaz.

Proceso de ciencia de datos y conocimiento del dominio

A continuación, analizaremos cómo el conocimiento del dominio se aplica a cada parte del proceso de la ciencia de datos. El proceso de ciencia de datos puede dividirse en cuatro subprocesos, como se describe a continuación. La siguiente figura resume el proceso de la ciencia de los datos:

1. Definición del problema

El primer paso en cualquier ciencia de datos es definir el problema que hay que resolver. Se parte de una descripción genérica del problema y se definen los criterios de rendimiento deseados.

Definir el problema es un paso sencillo para un problema simple como la predicción de impagos, donde la definición del problema es simplemente la predicción de la probabilidad de impago basada en los datos de los prestatarios anteriores. Por otro lado, consideremos un problema de robótica o medicina, en el que una persona sin conocimientos de dominio no puede ni siquiera definir el patrón que busca en los datos.

2. Limpieza de datos e ingeniería de características

La mayoría de los datos recogidos en cualquier campo rara vez están limpios y listos para su uso. El proceso de preparación de los datos para el proceso de modelización es la limpieza de datos y la ingeniería de características. La limpieza de datos y la ingeniería de características implican la transformación de los datos. Una transformación incorrecta de los datos puede dar lugar a resultados espurios.

Por ejemplo, al analizar la relación entre, por ejemplo, el precio de las acciones y los resultados financieros, como los flujos de caja, se pueden reducir los flujos de caja. Sin embargo, el escalado introduciría un sesgo de anticipaciónSesgo de anticipaciónEl sesgo de anticipación es un tipo de sesgo que se produce cuando un estudio o simulación se basa en datos o información que aún no estaban disponibles o no se conocían durante el periodo de tiempo estudiado. Generalmente conduce a resultados inexactos de un estudio o simulación. en los datos como el naïl proceso de escalado utilizará los datos futuros para escalar los datos pasados. Llevará a resultados espurios en cualquier análisis basado en datos transformados incorrectamente.

Además, es necesario el conocimiento del dominio para elegir las características correctas de los datos, que proporcionarán el mayor poder de predicción.

3. Construcción de modelos

El paso de construcción del modelo consiste en ajustar un modelo a los datos. El modelo construido aquí se utiliza para resolver el problema definido en el primer paso. La elección de un modelo adecuado es esencial para el éxito del proceso de ciencia de datos. Una vez más, esta elección depende del campo de aplicación y se ve reforzada por un sólido conocimiento del dominio.

4. Medición del rendimiento

La medición del rendimiento es el último paso del proceso de la ciencia de los datos que consiste en medir el rendimiento del modelo con datos nuevos o con datos fuera de la muestra, que no se utilizaron al construir el modelo. La elección de las métricas de rendimientoIndicadores clave de rendimiento (KPI)Los indicadores clave de rendimiento (KPI) son métricas que se utilizan para seguir y evaluar periódicamente el rendimiento de una organización para alcanzar objetivos específicos. También se utilizan para medir el rendimiento general de una empresa y los umbrales se basan principalmente en el conocimiento del dominio.

Por ejemplo, cuando se construye un modelo para predecir los impagos de créditos, un falso negativo (predecir que un potencial moroso tiene buen crédito) es más costoso que un falso positivo (predecir que un no moroso es un moroso). Estas asimetrías serán diferentes en las distintas disciplinas, y sería difícil detectarlas sin el conocimiento del dominio. Además, el cálculo de los costes derivados de los fallos del modelo sólo puede ser estimado con precisión por una persona con conocimientos del dominio.

Estudio de caso: Predicción de la morosidad de las tarjetas de crédito

En esta sección, veremos un caso de estudio que ilustra la importancia del conocimiento del dominio. Predecir la morosidad de las tarjetas de crédito es un problema común en las finanzas de consumo, donde un proveedor de tarjetas de crédito debe decidir si emite tarjetas de crédito a un cliente concreto. También ayuda al proveedor a realizar evaluaciones de riesgo y tomar decisiones estratégicas.

Vamos a ver un pequeño proyecto de ciencia de datos que pretende predecir la morosidad en los clientes de tarjetas de crédito. Los datos consisten en unos 100.000 clientes individuales con datos sobre 10 atributos, incluido uno que indica si el cliente era moroso. Empezando por la definición del problema, pasaremos por los distintos pasos del proceso de ciencia de datos descrito anteriormente.

Paso 1: Definición del problema

En este caso, el problema es fácil de definir. Predecir el valor del indicador de morosidad.

Paso 2: Limpieza de datos e ingeniería de características

La limpieza de datos y la ingeniería de rasgos es una parte importante del proceso en nuestro caso. El motivo es que los datos están desequilibrados, lo que significa que no tienen una representación equitativa de delincuentes y no delincuentes.

De hecho, los datos tienen un 93% de no morosos, lo que se espera en el mundo real, ya que la mayoría de la gente no incumple su deuda de tarjeta de crédito. Este desequilibrio puede afectar a la elección del modelo y la métrica de rendimiento utilizados. También afectará a la calidad del modelo.

Un experto en riesgo de créditoEl riesgo de crédito es el riesgo de pérdida que puede producirse por el incumplimiento de los términos y condiciones de cualquier contrato financiero, principalmente, sería consciente de que este desequilibrio crearía la necesidad de métodos para abordar el problema. Una solución sencilla sería volver a muestrear los datos, lo que crearía un conjunto de datos equilibrado pero más pequeño. Esta compensación entre la calidad y la cantidad de datos requiere un conocimiento del ámbito para identificarla y ajustarla.

Paso 3: Construcción del modelo

Cuando se construye un modelo para predecir la morosidad, un experto en el dominio estaría familiarizado con los enfoques anteriores del problema. En este caso, la literatura incluye un amplio uso de la regresión logística. Por tanto, puede ser un buen punto de partida para la selección de modelos y un punto de referencia para evaluar nuevos enfoques.

Paso 4: Medición del rendimiento

La selección de buenos criterios de medición del rendimiento es un paso fundamental en el desarrollo de un modelo de riesgo crediticio, ya que una métrica incorrecta puede llevar a la selección de un modelo equivocado. En nuestro caso, en el que los datos están desequilibrados, un naïn modelo que etiquete a todos los clientes como no delincuentes tendrá una precisión muy alta, pero en el proceso, puede etiquetar a todos los morosos como no delincuentes también.

Este problema requiere un modelo que prediga correctamente a la mayoría de los morosos y que identifique erróneamente sólo a unos pocos no morosos. Debería reflejarse en la métrica de rendimiento. Además, en este caso, etiquetar erróneamente a un cliente moroso es más costoso que etiquetar erróneamente a uno no moroso, y esta compensación requiere una comprensión adecuada de los costes y los riesgos que conlleva. No puede ser una decisión completamente objetiva basada en una métrica singular y se requiere un juicio subjetivo basado en el conocimiento del dominio.

Lecturas relacionadas

Gracias por leer nuestra página web’Guía del conocimiento del dominio (ciencia de los datos). Para seguir aprendiendo y desarrollando su base de conocimientos, explore los recursos adicionales pertinentes que se indican a continuación:

Conocimiento del dominio (ciencia de los datos) – Visión general, áreas temáticas, estudio de caso