Jeśli chodzi o modelowanie uplift, tradycyjne metryki wydajności powszechnie stosowane w innych zadaniach uczenia maszynowego mogą okazać się niewystarczające.Jeśli chodzi o modelowanie uplift, tradycyjne metryki wydajności powszechnie stosowane w innych zadaniach uczenia maszynowego mogą okazać się niewystarczające.

Dlaczego „dokładność" zawodzi w modelach uplift (i czego użyć zamiast tego)

2026/01/11 04:00
3 min. lektury
W przypadku uwag lub wątpliwości dotyczących niniejszej treści skontaktuj się z nami pod adresem crypto.news@mexc.com

Jeśli chodzi o modelowanie wzrostu (uplift modeling), tradycyjne metryki wydajności powszechnie stosowane w innych zadaniach uczenia maszynowego mogą okazać się niewystarczające.

Standardowe algorytmy uczenia maszynowego / przypadki biznesowe uczą się na danych treningowych, przewidują cel na danych testowych i porównują go z prawdą podstawową.

Jednak w modelowaniu wzrostu koncepcja prawdy podstawowej staje się nieuchwytna, ponieważ nie możemy jednocześnie obserwować wpływu bycia poddanym działaniu i niepoddanym działaniu na daną osobę.

Jak wybrać zbiór danych walidacyjnych?

Wybór danych do trenowania i testowania modelu wzrostu zależy od dostępnych informacji i konkretnego kontekstu.

Modele wzrostu są powszechnie stosowane w kampaniach marketingowych. Zilustrujmy, jak wybiera się dane walidacyjne z tej perspektywy.

Jeśli mamy pojedynczą kampanię, możemy podzielić klientów w ramach tej kampanii na zbiory treningowe i walidacyjne.

Jednak jeśli dostępnych jest wiele kampanii, możemy wykorzystać niektóre kampanie do trenowania modelu, a inne zarezerwować do walidacji. Ta strategia pozwala modelowi uczyć się z szerszego zakresu scenariuszy i potencjalnie poprawia jego zdolności generalizacji.

Bez tych podstawowych komponentów dokładne uchwycenie wzrostu staje się trudne.

Główne podejścia

Istnieją dwa główne sposoby oceny wydajności modelu wzrostu: Cumulative Gain i Qini. Przyjrzyjmy się im:

Cumulative Gain:

Cumulative gain ilustruje przyrostową stopę odpowiedzi lub wynik osiągnięty poprzez targetowanie określonego procentu populacji.

Aby obliczyć cumulative gain, osoby są klasyfikowane na podstawie ich wyników wzrostu, a posortowana lista jest podzielona na serię decyli lub grup percentylowych o równej wielkości. Cumulative gain jest następnie obliczany poprzez zsumowanie wyników lub odpowiedzi osób w każdej grupie.

N : liczba klientów dla grup kontrolnych (C) i testowych (T) dla pierwszych p% klientów

Y : Suma naszego wzrostu w wybranej metryce dla grup kontrolnych (C) i testowych (T) dla pierwszych p% klientów

Na przykład, CG przy 20% targetowanej populacji odpowiada całkowitemu przyrostowemu zyskowi, jeśli traktujemy tylko instancje z top 20% najwyższych wyników.

W poniższym przykładzie obserwujemy, że targetowanie top 20% klientów z najwyższymi wynikami daje cumulative gain wynoszący 0.019.

Bardziej stroma krzywa wskazuje na lepszy model, ponieważ pokazuje, że wyższy odsetek osób z najwyższym przewidywanym wzrostem jest targetowany.

Współczynnik Qini:

Współczynnik Qini działa na tym samym pomyśle co Cumulative Gain, z jedną kluczową różnicą.

Formuła do jego obliczenia:


To świetnie, ale jak mamy wybrać między różnymi modelami? Poleganie wyłącznie na tych krzywych do wyboru między różnymi modelami może nie być najbardziej data-driven podejściem.

Metryki jakości

Istnieją trzy najbardziej przydatne metryki, które mogą nam pomóc i wszystkie one są stosowane zarówno do podejść Qini, jak i Cumulative Gain.

Area under Uplift (AUC-U):

Podobnie jak pole pod krzywą ROC (AUC-ROC) w tradycyjnej klasyfikacji, AUC-U mierzy ogólną wydajność modelu wzrostu. Oblicza pole pod krzywą wzrostu / Qini, która reprezentuje skumulowany wzrost wzdłuż osób posortowanych według przewidywań modelu wzrostu.

Uplift@K:

Uplift@K koncentruje się na identyfikacji top K% populacji z najwyższym przewidywanym wzrostem. Mierzy proporcję rzeczywiście responsywnych osób w tej wybranej grupie. Wyższa wartość uplift@K wskazuje na lepszy model w targetowaniu właściwych osób.

W poniższym przykładzie Uplift@0.2 dla pierwszego modelu wynosi około 0.16, a dla drugiego modelu 0.19, a wybór najlepszego modelu jest oczywisty.

Kiedy ta metryka może pomóc?

Uplift max:

Uplift max odnosi się do maksymalnego wzrostu osiągniętego przez model. Reprezentuje różnicę między grupami testowymi i kontrolnymi z najwyższymi wynikami wzrostu.

Podsumowanie

Przekonaliśmy się, że tradycyjne metryki klasyfikacji i regresji mogą nie mierzyć odpowiednio skuteczności modeli wzrostu.

Aby to przezwyciężyć, dwa podstawowe podejścia, CG i Qini, oferują wartościowe metryki do oceny.

Kluczowe jest ciągłe eksperymentowanie z różnymi wariacjami i znalezienie metryk, które najlepiej odpowiadają Twoim celom. Poprzez eksplorację i udoskonalanie swojego podejścia możesz skutecznie mierzyć wpływ modeli wzrostu i optymalizować ich wydajność.

\n

\

Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z crypto.news@mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.