Cuando se trata de modelado de uplift, las métricas de rendimiento tradicionales comúnmente utilizadas para otras tareas de aprendizaje automático pueden resultar insuficientes.Cuando se trata de modelado de uplift, las métricas de rendimiento tradicionales comúnmente utilizadas para otras tareas de aprendizaje automático pueden resultar insuficientes.

Por qué la "Precisión" Falla en los Modelos de Uplift (y Qué Usar en Su Lugar)

2026/01/11 04:00
Lectura de 4 min
Si tienes comentarios o inquietudes sobre este contenido, comunícate con nosotros mediante crypto.news@mexc.com

Cuando se trata de modelado de uplift, las métricas de rendimiento tradicionales comúnmente utilizadas para otras tareas de aprendizaje automático pueden quedarse cortas.

Los algoritmos estándar de aprendizaje automático / casos de negocio aprenden de los datos de entrenamiento, predicen el objetivo en los datos de prueba y lo comparan con la verdad fundamental.

Sin embargo, en el modelado de uplift, el concepto de verdad fundamental se vuelve elusivo ya que no podemos observar el impacto de ser tratado y no tratado en un individuo simultáneamente.

¿Cómo elegir el conjunto de datos de validación?

La elección de datos para entrenar y probar un modelo de uplift depende de la información disponible y el contexto específico.

Los modelos de uplift se utilizan comúnmente para campañas de marketing. Ilustremos cómo se eligen los datos de validación desde esta perspectiva.

Si tenemos una sola campaña, podemos dividir a los clientes dentro de esa campaña en conjuntos de entrenamiento y validación.

Sin embargo, si hay múltiples campañas disponibles, podemos utilizar algunas campañas para entrenar el modelo y reservar otras para validación. Esta estrategia permite que el modelo aprenda de una gama más amplia de escenarios y potencialmente mejora sus capacidades de generalización.

Sin estos componentes esenciales, capturar con precisión el uplift se vuelve desafiante.

Los principales enfoques

Hay dos formas principales de evaluar el rendimiento de un modelo de uplift: Ganancia Acumulativa y Qini. Explorémoslas:

Ganancia Acumulativa:

La ganancia acumulativa ilustra la tasa de respuesta incremental o el resultado logrado al dirigirse a un porcentaje específico de la población.

Para calcular la ganancia acumulativa, los individuos se clasifican según sus puntuaciones de uplift, y la lista ordenada se divide en una serie de deciles o grupos percentiles de igual tamaño. La ganancia acumulativa se calcula sumando los resultados o respuestas de los individuos dentro de cada grupo.

N : número de clientes para los grupos de control (C) y tratamiento (T) para el primer p% de los clientes

Y : Suma de nuestro uplift en una métrica que elegimos para los grupos de control (C) y tratamiento (T) para el primer p% de los clientes

Por ejemplo, CG al 20% de la población objetivo corresponde a la ganancia incremental total si tratamos solo las instancias con el 20% superior de puntuaciones más altas.

En el ejemplo proporcionado a continuación, observamos que dirigirse al 20% superior de clientes con las puntuaciones más altas produce una ganancia acumulativa de 0.019.

Una curva más pronunciada indica un mejor modelo, ya que muestra que se está dirigiendo a una mayor proporción de individuos con el uplift predicho más alto.

Coeficiente Qini:

El coeficiente Qini funciona con la misma idea que la Ganancia Acumulativa, con una distinción clave.

La fórmula para calcularlo:


Eso es genial, pero ¿cómo vamos a elegir entre diferentes modelos? Confiar únicamente en estas curvas para elegir entre diferentes modelos podría no ser el enfoque más basado en datos.

Las métricas de calidad

Hay tres métricas más útiles que pueden ayudarnos y todas ellas son aplicables tanto a los enfoques Qini como a los de Ganancia Acumulativa.

Área bajo Uplift (AUC-U):

Similar al área bajo la curva ROC (AUC-ROC) en la clasificación tradicional, el AUC-U mide el rendimiento general de un modelo de uplift. Calcula el área bajo la curva de uplift / Qini, que representa el uplift acumulativo a lo largo de individuos ordenados por las predicciones del modelo de uplift.

Uplift@K:

Uplift@K se enfoca en identificar el K% superior de la población con el uplift predicho más alto. Mide la proporción de individuos verdaderamente receptivos dentro de este grupo seleccionado. Un valor más alto de uplift@K indica un mejor modelo para dirigirse a los individuos correctos.

En el ejemplo siguiente, Uplift@0.2 para el primer modelo es aproximadamente 0.16 y para el segundo modelo es 0.19, y la elección del mejor modelo es obvia.

¿Cuándo puede ayudar esta métrica?

Uplift máx.:

Uplift máx. se refiere al uplift máximo logrado por el modelo. Representa la diferencia entre los grupos tratados y de control con las puntuaciones de uplift más altas.

Conclusión

Hemos presenciado que las métricas tradicionales de clasificación y regresión pueden no medir adecuadamente la efectividad de los modelos de uplift.

Para superar esto, dos enfoques principales, CG y Qini, ofrecen métricas valiosas para la evaluación.

Es crucial experimentar continuamente con diferentes variaciones y encontrar las métricas que mejor se alineen con sus objetivos. Al explorar y refinar su enfoque, puede medir efectivamente el impacto de los modelos de uplift y optimizar su rendimiento.

\n

\

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección crypto.news@mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.