Cumpără crypto Piețe Spot FuturesDELL Earn Centru de evenimente

Mai mult

Când vine vorba de modelarea uplift, metricile tradiționale de performanță utilizate în mod obișnuit pentru alte sarcini de învățare automată pot fi insuficiente.Când vine vorba de modelarea uplift, metricile tradiționale de performanță utilizate în mod obișnuit pentru alte sarcini de învățare automată pot fi insuficiente.

De ce „Acuratețea" eșuează pentru modelele Uplift (și ce să folosești în schimb)

Sursă: Hackernoon

2026/01/11 04:00

4 min de lectură

Distribuire

Pentru opinii sau preocupări cu privire la acest conținut, contactează-ne la crypto.news@mexc.com

Când vine vorba de modelarea uplift, valorile tradiționale de performanță utilizate în mod obișnuit pentru alte sarcini de învățare automată pot fi insuficiente.

Algoritmii standard de învățare automată / cazurile de afaceri învață pe baza datelor de antrenament, prezic ținta pe baza datelor de testare și o compară cu adevărul de bază.

Cu toate acestea, în modelarea uplift, conceptul de adevăr de bază devine evaziv, deoarece nu putem observa simultan impactul tratamentului și al lipsei tratamentului asupra unui individ.

Cum să alegeți setul de date de validare?

Alegerea datelor pentru antrenarea și testarea unui model uplift depinde de informațiile disponibile și de contextul specific.

Modelele uplift sunt utilizate frecvent pentru campanii de marketing. Să ilustrăm cum sunt alese datele de validare din această perspectivă.

Dacă avem o singură campanie, putem împărți clienții din acea campanie în seturi de antrenament și validare.

Cu toate acestea, dacă sunt disponibile mai multe campanii, putem utiliza unele campanii pentru antrenarea modelului și rezerva altele pentru validare. Această strategie permite modelului să învețe dintr-o gamă mai largă de scenarii și potențial îi îmbunătățește capacitățile de generalizare.

Fără aceste componente esențiale, capturarea precisă a uplift-ului devine dificilă.

Abordările principale

Există două modalități principale de a evalua performanța unui model uplift: Câștigul Cumulativ și Qini. Să le explorăm:

Câștigul Cumulativ:

Câștigul cumulativ ilustrează rata incrementală de răspuns sau rezultatul obținut prin țintirea unui anumit procent din populație.

Pentru a calcula câștigul cumulativ, indivizii sunt clasați pe baza scorurilor lor de uplift, iar lista sortată este împărțită într-o serie de decile sau grupuri percentile de dimensiuni egale. Câștigul cumulativ este apoi calculat prin însumarea rezultatelor sau răspunsurilor indivizilor din fiecare grup.

N : numărul de clienți pentru grupurile de control (C) și tratament (T) pentru primii p% dintre clienți

Y : Suma uplift-ului nostru într-o valoare pe care am ales-o pentru grupurile de control (C) și tratament (T) pentru primii p% dintre clienți

De exemplu, CG la 20% din populația țintită corespunde câștigului incremental total dacă tratăm doar instanțele cu cele mai mari 20% scoruri cele mai mari.

În exemplul furnizat mai jos, observăm că țintirea primilor 20% dintre clienții cu cele mai mari scoruri produce un câștig cumulativ de 0,019.

O curbă mai abruptă indică un model mai bun, deoarece arată că o proporție mai mare de indivizi cu cel mai mare uplift prezis sunt vizați.

Coeficientul Qini:

Coeficientul Qini funcționează pe aceeași idee ca și Câștigul Cumulativ, cu o distincție cheie.

Formula pentru a-l calcula:

E grozav, dar cum vom alege între diferite modele? A ne baza exclusiv pe aceste curbe pentru a alege între diferite modele ar putea să nu fie cea mai bazată pe date abordare.

Valorile de calitate

Există trei dintre cele mai utile valori care ne pot ajuta și toate sunt aplicabile atât pentru abordările Qini, cât și pentru Câștigul Cumulativ.

Aria sub Uplift (AUC-U):

Similar cu aria sub curba ROC (AUC-ROC) în clasificarea tradițională, AUC-U măsoară performanța generală a unui model uplift. Aceasta calculează aria sub curba uplift / Qini, care reprezintă uplift-ul cumulativ de-a lungul indivizilor sortați după predicțiile modelului uplift.

Uplift@K:

Uplift@K se concentrează pe identificarea primilor K% din populație cu cel mai mare uplift prezis. Aceasta măsoară proporția de indivizi cu adevărat receptivi din acest grup selectat. O valoare mai mare a uplift@K indică un model mai bun la țintirea indivizilor corecți.

În exemplul de mai jos, Uplift@0,2 pentru primul model este aproximativ 0,16, iar pentru al doilea model este 0,19, iar alegerea celui mai bun model este evidentă.

Când poate ajuta această valoare?

Uplift max:

Uplift max se referă la uplift-ul maxim obținut de model. Acesta reprezintă diferența dintre grupurile tratate și de control cu cele mai mari scoruri de uplift.

Concluzie

Am constatat că valorile tradiționale de clasificare și regresie ar putea să nu măsoare adecvat eficiența modelelor uplift.

Pentru a depăși acest lucru, două abordări principale, CG și Qini, oferă valori valoroase pentru evaluare.

Este crucial să experimentați continuu cu diferite variații și să găsiți valorile care se aliniază cel mai bine cu obiectivele dumneavoastră. Prin explorarea și rafinarea abordării dumneavoastră, puteți măsura eficient impactul modelelor uplift și optimiza performanța acestora.

SPACEX(PRE) Launchpad

Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează crypto.news@mexc.com pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.