En los modelos predictivos de Oracle Analytics se usan varios algoritmos embebidos de Oracle Machine Learning para realizar la minería de sus juegos de datos, realizar la predicción de un valor de destino o identificar clases de registros. Utilice el editor de flujos de datos para crear, entrenar y aplicar modelos predictivos a los datos.
Un modelo predictivo de Oracle Analytics aplica un algoritmo específico a un juego de datos para predecir valores o clases, o para identificar grupos en los datos.
También puede usar los modelos de Machine Learning de Oracle para realizar predicciones de los datos.
Oracle Analytics incluye algoritmos para ayudarle a entrenar modelos predictivos para diferentes fines. Algunos ejemplos de algoritmos son los árboles de clasificación y regresión (CART), la regresión logística y k-means.
Utilice el editor de flujos de datos para entrenar un modelo en un juego de datos de entrenamiento por primera vez. Una vez que se ha entrenado el modelo predictivo, aplíquelo a los juegos de datos que desea predecir.
Puede poner un modelo entrenado a disposición de otros usuarios para que puedan aplicarlo en sus datos para predecir valores. En algunos casos, determinados usuarios entrenan los modelos y otros usuarios aplican los modelos.
Nota:
Si no está seguro de qué debe buscar en los datos, puede empezar usando Explain, que utiliza el Machine Learning para identificar tendencias y patrones. A continuación, puede utilizar el editor de flujos de datos para crear y entrenar modelos predictivos con los que detallar las tendencias y los patrones que ha encontrado Explain.Utilice el modelo terminado para puntuar datos, desconocidos o sin etiqueta, a fin de generar un juego de datos en un flujo de datos o para agregar la visualización de una predicción a un libro de trabajo.
Ejemplo
Suponga que desea crear y entrenar un modelo de clasificación múltiple para predecir qué pacientes tienen un alto riesgo de desarrollar una enfermedad cardiaca.
Oracle Analytics proporciona algoritmos para todas sus necesidades de modelado de Machine Learning: predicción numérica, clasificador múltiple, clasificador binario y agrupación en clusters.
La funcionalidad de Machine Learning de Oracle ha sido diseñada para los analistas de datos avanzados que tienen una idea de lo que desean buscar en sus datos, están familiarizados con la práctica de análisis predictivos y comprenden las diferencias entre los algoritmos.
Nota:
Si está usando los datos de Oracle Autonomous Data Warehouse, puede usar la función AutoML para entrenar un modelo predictivo de forma rápida y sencilla, sin necesitar conocimientos de Machine Learning. Consulte Entrenamiento de un modelo predictivo con AutoML en Autonomous Data Warehouse.Normalmente, los usuarios desean crear varios modelos de predicción, compararlos y seleccionar el que sea más probable que pueda producir resultados que satisfagan sus criterios y requisitos. Estos criterios pueden variar. Por ejemplo, a veces los usuarios seleccionan modelos que tienen una mejor precisión global, a veces seleccionan modelos que tienen el menor número de errores del tipo I (falso positivo) y el tipo II (falso negativo), y a veces seleccionan modelos que devuelven resultados con más rapidez y con un nivel aceptable de precisión aunque los resultados no sean ideales.
Oracle Analytics contiene varios algoritmos de Machine Learning para cada tipo de predicción o clasificación. Con estos algoritmos, los usuarios pueden crear más de un modelo, utilizar diferentes parámetros ajustados o utilizar juegos de datos de entrenamiento de entrada y, posteriormente, seleccionar el mejor modelo. El usuario puede seleccionar el mejor modelo comparando y ponderando los modelos en relación con sus propios criterios. Para determinar el mejor modelo, los usuarios pueden aplicar el modelo y visualizar los resultados de los cálculos para determinar la precisión, o bien abrir y explorar los juegos de datos relacionados con los que Oracle Analytics ha utilizado el modelo para generar la salida.
Consulte la siguiente tabla para obtener más información sobre los algoritmos proporcionados:
Nombre | Tipo | Categoría | Función | Descripción |
---|---|---|---|---|
CART |
Clasificación Regresión |
Clasificador binario Clasificador múltiple Numérico |
- | Utiliza árboles de decisión para predecir tanto valores discretos como continuos.
Se utiliza con juegos de datos grandes. |
Regresión lineal de red elástica | Regresión | Numérico | ElasticNet | Modelo de regresión avanzado. Proporciona información adicional (regularización), realiza una selección de variables y realiza combinaciones lineales. Penalizaciones de los métodos de regresión Lazo y Resalto.
Se utiliza con un gran número de atributos para evitar la colinealidad (por la cual varios atributos están perfectamente correlacionados) y el sobreajuste. |
Jerárquico | Agrupación en clusters | Agrupación en clusters | AgglomerativeClustering | Crea una jerarquía de agrupación en clusters de abajo arriba (cada observación es su propio cluster y posteriormente se fusiona) o de arriba abajo (todas las observaciones empiezan como un cluster) y utilizando métricas de distancia.
Se utiliza cuando el juego de datos no es grande y no se conoce el número de clusters de antemano. |
K-Means | Agrupación en clusters | Agrupación en clusters | k-means | Particiona los registros de forma iterativa en k clusters de modo que cada observación pertenece al cluster con la media más cercana.
Se utiliza para la agrupación en clusters de columnas de métrica y con una expectación definida del número de clusters necesarios. Funciona bien con juegos de datos grandes. Los resultados son diferentes con cada ejecución. |
Regresión lineal | Regresión | Numérico | Mínimos cuadrados ordinarios
Resalto Lazo |
Enfoque lineal para una relación de modelado entre la variable de destino y otros atributos del juego de datos.
Se utiliza para predecir valores numéricos cuando los atributos no están perfectamente correlacionados. |
Regresión logística | Regresión | Clasificador binario | LogisticRegressionCV | Se utiliza para predecir el valor de una variable categóricamente dependiente. La variable dependiente es una variable binaria que contiene datos codificados en 1 o 0. |
Naive Bayes | Clasificación |
Clasificador binario Clasificador múltiple |
GaussianNB | Clasificación probabilística basada en el teorema de Bayes que asume que no hay ninguna dependencia entre las funciones.
Se utiliza cuando hay un gran número de dimensiones de entrada. |
Red neuronal | Clasificación |
Clasificador binario Clasificador múltiple |
MLPClassifier | Algoritmo de clasificación iterativo que aprende comparando el resultado de su clasificación con el valor real y lo devuelve a la red para modificar el algoritmo para iteraciones posteriores.
Se utiliza para el análisis de texto. |
Bosque aleatorio | Clasificación |
Clasificador binario Clasificador múltiple Numérico |
- | Método de aprendizaje de conjunto que crea varios árboles de decisión y da como resultado el valor que representa de forma colectiva todos los árboles de decisión.
Se utiliza para predecir variables numéricas y categóricas. |
SVM | Clasificación |
Clasificador binario Clasificador múltiple |
LinearSVC, SVC | Clasifica registros asignándolos en el espacio y creando hiperplanos que pueden utilizarse para la clasificación. Los nuevos registros (datos de puntuación) se asignan en el espacio y se predice que pertenecen a una categoría en función del lado del hiperplano en el que caen. |
Al utilizar datos de Oracle Autonomous Data Warehouse, puede utilizar su capacidad AutoML para recomendar y entrenar un modelo predictivo. AutoML analiza los datos, calcula el mejor algoritmo que se puede utilizar y registra un modelo de predicción en Oracle Analytics para que pueda realizar predicciones sobre sus datos.
OML_Developer
y de que no es un superusuario 'admin'. De lo contario, fallará el flujo de datos cuando intente guardarlo o ejecutarlo.Los analistas de datos avanzados crean y entrenan modelos predictivos que pueden utilizar para desplegar algoritmos de Oracle Machine Learning para realizar una minería de juegos de datos, predecir un valor de destino o identificar clases de registros. Utilice el editor de flujos de datos para crear y entrenar modelos predictivos y aplicarlos a los datos.
La obtención de un modelo preciso es un proceso iterativo en el que el analista de datos avanzado puede probar diferentes modelos, comparar sus resultados y ajustar los parámetros basándose en un enfoque de ensayo y error. El analista de datos puede utilizar el modelo predictivo preciso terminado para predecir tendencias en otros juegos de datos o agregar el modelo a libros de trabajo.
Nota:
Si utiliza datos cuyo origen es Oracle Autonomous Data Warehouse, puede utilizar la capacidad AutoML para entrenar de forma rápida y sencilla su propio modelo predictivo sin requerir habilidades en Machine Learning. Consulte Entrenamiento de un modelo predictivo mediante AutoML en Autonomous Data Warehouse.Oracle Analytics proporciona algoritmos de predicción numérica, clasificación múltiple, clasificación binaria y agrupación en clusters.
Oracle Analytics le permite entrenar modelos de Machine Learning mediante pasos en flujos de datos. Cuando haya entrenado un modelo de Machine Learning, podrá aplicarlo a sus datos mediante el paso Aplicar modelo.
Nombre del paso | Descripción |
---|---|
AutoML (requiere Oracle Autonomous Data Warehouse) | Use la función AutoML de Oracle Autonomous Data para recomendar y entrenar un modelo predictivo para usted. El paso AutoML analiza los datos, calcula el mejor algoritmo que se puede utilizar y registra un modelo de predicción en Oracle Analytics. |
Entrenar clasificador binario |
Entrenar un modelo de Machine Learning para clasificar los datos en una de dos categorías predefinidas. |
Entrenar agrupación en clusters | Entrenar un modelo de Machine Learning para separar los grupos con rasgos similares y asignarlos a clusters. |
Entrenar multiclasificador | Entrenar un modelo de Machine Learning para clasificar los datos en tres o más categorías predefinidas. |
Entregar predicción numérica | Entrenar un modelo de Machine Learning para predecir un valor numérico basado en valores de datos conocidos. |
Una vez que se ha creado el modelo predictivo y se ha ejecutado el flujo de datos, puede revisar la información sobre el modelo para determinar su precisión. Utilice esta información para ajustar los valores del modelo de forma iterativa para mejorar su precisión y predecir mejores resultados.
La información detallada de un modelo predictivo le ayuda a entender el modelo y a determinar si es adecuado para la predicción de los datos. Los detalles del modelo incluyen la clase, el algoritmo, las columnas de entrada y las columnas de salida del modelo.
Vea la información que le ayuda a conocer la calidad de un modelo predictivo. Por ejemplo, puede revisar las métricas de precisión, la precisión, la recuperación, el valor F1, la tasa de falsos positivos, etc. del modelo.
Al ejecutar el flujo de datos para crear el modelo de entrenamiento de un modelo predictivo de Oracle Analytics, Oracle Analytics crea un juego de juegos de datos relacionados. Puede abrir y crear proyectos en estos juegos de datos para obtener más información sobre la precisión del modelo.
En función del algoritmo que haya seleccionado para el modelo, los juegos de datos relacionados contienen detalles sobre el modelo como las reglas de predicción, las métricas de precisión, la matriz de confusión y los inductores clave para la predicción. Puede usar esta información para ajustar el modelo y obtener mejores resultados y usar los juegos de datos relacionados para comparar los modelos y decidir qué modelo es el más preciso.
Por ejemplo, puede abrir el juego de datos Inductores para detectar las columnas que tengan una importante influencia positiva o negativa en el modelo. Al examinar esas columnas, descubre que algunas columnas no se consideran variables de modelo porque no son entradas realistas o son demasiados granulares para la previsión. Usted usa el editor de flujo de datos para abrir el modelo y, en función de la información detectada, elimina las columnas irrelevantes o demasiado granulares y vuelve a generar el modelo. Comprueba los separadores Calidad y Resultados y verifica si ha mejorado la precisión del modelo. Siga este proceso hasta que esté satisfecho con la precisión del modelo y esté listo para puntuar un nuevo juego de datos.
Los algoritmos diferentes generan juegos de datos relacionados similares. Los distintos nombres de columnas y parámetros pueden cambiar en el juego de datos en función del tipo de algoritmo, pero la funcionalidad del juego de datos sigue igual. Por ejemplo, los nombres de columnas de un juego de datos de estadísticas puede cambiar de Regresión lineal a Regresión logística, pero el juego de datos de estadísticas contiene métricas de precisión del modelo.
Juegos de datos relacionados para modelos de AutoML
Cuando entrena un modelo predictivo utilizando AutoML, Oracle Analytics crea juegos de datos adicionales que contienen información útil sobre el modelo. El número de juegos de datos creados depende del algoritmo del modelo. Por ejemplo, para los modelos Naive Bayes, Oracle Analytics crea un juego de datos que proporciona información sobre las probabilidades condicionales. Para un árbol de decisión, el juego de datos proporciona información sobre las estadísticas del árbol de decisión. Al inspeccionar un modelo generado por AutoML mediante el algoritmo de modelo lineal generalizado (GLM), aparecen entradas con el prefijo GLM* para los juegos de datos específicos del modelo que contienen información de metadatos sobre el modelo.
.png
Juegos de datos relacionados
Nota:
Oracle Analytics agrega el nombre de salida del flujo de datos al tipo de juego de datos relacionado. Por ejemplo, para un modelo CART, si la salida del flujo de datos se denomina cart_model2, el juego de datos se denomina cart_model2_CART.CART
Oracle Analytics crea una tabla para el juego de datos relacionado CART (Árbol de clasificación y regresión), que contiene columnas que representan las condiciones y los criterios de las condiciones en el árbol de decisión, una predicción para cada grupo y la confianza de predicción. Utilice la visualización del diagrama de árbol para visualizar este árbol de decisión.
El juego de datos CART se crea al seleccionar estas combinaciones de modelo y algoritmo.
Modelo | Algoritmo |
---|---|
Numérico | CART para predicción numérica |
Clasificación binaria | CART |
Clasificación múltiple | CART |
Informe de clasificación
Oracle Analytics crea una tabla para el juego de datos relacionado Informe de clasificación. Por ejemplo, si la columna de destino puede tener dos valores distintos, Sí o No, este juego de datos muestra métricas de precisión como F1, Precisión, Volver a llamar y Soporte (número de filas del juego de datos de formación con este valor) para cada valor distinto de la columna de destino.
El juego de datos Clasificación se crea al seleccionar estas combinaciones de modelo y algoritmo.
Modelo | Algoritmos |
---|---|
Clasificación binaria |
Naive Bayes Red neuronal Máquina de vector soporte |
Clasificación múltiple |
Naive Bayes Red neuronal Máquina de vector soporte |
Matriz de confusión
Oracle Analytics crea una tabla dinámica para el juego de datos relacionado Matriz de confusión, que también se denomina matriz de error. Cada fila representa una instancia de una clase prevista y cada columna representa una instancia en una clase real. En esta tabla se indica el número de falsos positivos, falsos negativos, verdaderos positivos y verdaderos negativos, que se usan para calcular las métricas de Precisión, Volver a llamar y F1.
El juego de datos Matriz de confusión se crea al seleccionar estas combinaciones de modelo y algoritmo.
Modelo | Algoritmos |
---|---|
Clasificación binaria |
Regresión logística CART (Árbol de decisión) Naive Bayes Red neuronal Bosque aleatorio Máquina de vector soporte |
Clasificación múltiple |
CART (Árbol de decisión) Naive Bayes Red neuronal Bosque aleatorio Máquina de vector soporte |
Inductores
Oracle Analytics crea una tabla para el juego de datos relacionado Controladores, que contiene información sobre las columnas que determinan los valores de la columna de destino. Las regresiones lineales se usan para identificar estas columnas. A cada columna se le asignan valores de coeficiente y correlación. El valor de coeficiente describe la ponderación de la columna que se usa para determinar el valor de la columna de destino. El valor de correlación indica la dirección de la relación entre la columna de destino y la columna dependiente. Por ejemplo, si el valor de la columna de destino aumenta o disminuye en función de la columna dependiente.
El juego de datos Controladores se crea al seleccionar estas combinaciones de modelo y algoritmo.
Modelo | Algoritmos |
---|---|
Numérico |
Regresión lineal Regresión lineal de red elástica |
Clasificación binaria |
Regresión logística Máquina de vector soporte |
Clasificación múltiple | Máquina de vector soporte |
Hitmap
Oracle Analytics crea una tabla para el juego de datos relacionado Hitmap, que contiene información sobre los nodos hoja del árbol de decisión. Cada fila de la tabla representa un nodo de hoja y contiene información que describe lo que representa un nodo de hoja, como el tamaño del segmento, la confianza y el número de filas esperado. Por ejemplo, número esperado de predicciones correctas = Tamaño de segmento * Confianza.
El juego de datos Hitmap se crea al seleccionar estas combinaciones de modelo y algoritmo.
Modelo | Algoritmo |
---|---|
Numérico | CART para predicción numérica |
Residuales
Oracle Analytics crea una tabla para el juego de datos relacionado Residuales, que contiene información sobre la calidad de las predicciones residuales. Un valor residual es la diferencia entre el valor medido y el valor previsto de un modelo de regresión. Este juego de datos contiene un valor de suma agregado de la diferencia absoluta entre los valores reales y previstos para todas las columnas del juego de datos.
El juego de datos Residuales se crea al seleccionar estas combinaciones de modelo y algoritmo.
Modelo | Algoritmos |
---|---|
Numéricos |
Regresión lineal Regresión lineal de red elástica CART para predicción numérica |
Clasificación binaria | CART (Árbol de decisión) |
Clasificación múltiple | CART (Árbol de decisión) |
Estadísticas
Oracle Analytics crea una tabla para el juego de datos relacionado Estadísticas. Las métricas de este juego de datos dependen del algoritmo usado para generarlo. Observe esta lista de métricas basada en un algoritmo:
Este juego de datos se crea al seleccionar estas combinaciones de modelo y algoritmo.
Modelo | Algoritmo |
---|---|
Numérico |
Regresión lineal Regresión lineal de red elástica CART para predicción numérica |
Clasificación binaria |
Regresión logística CART (Árbol de decisión) Naive Bayes Red neuronal Bosque aleatorio Máquina de vector soporte |
Clasificación múltiple |
Naive Bayes Red neuronal Bosque aleatorio Máquina de vector soporte |
Resumen
Oracle Analytics crea una tabla para el juego de datos relacionado Resumen, que contiene información como el nombre del destino y el nombre del modelo.
El juego de datos Resumen se crea al seleccionar estas combinaciones de modelo y algoritmo.
Modelo | Algoritmos |
---|---|
Clasificación binaria |
Naive Bayes Red neuronal Máquina de vector soporte |
Clasificación múltiple |
Naive Bayes Red neuronal Máquina de vector soporte |
Los juegos de datos relacionados se generan cuando se entrena un modelo predictivo.
Cuando se crea un escenario en un libro de trabajo, se debe aplicar un modelo predictivo al juego de datos del libro de trabajo para revelar las tendencias y los patrones para cuya búsqueda se diseñó el modelo.
Nota:
No puede aplicar un modelo de Machine Learning de Oracle a los datos de un libro de trabajo.