Une explication très succincte des fonctions de perte, avec deux exemples faciles à comprendre du célèbre classificateur softmax et de la fonction de perte SVM.

Introduction

Une tâche de prédiction peut être considérée comme une simple tâche d'optimisation.Le modèle tente d'optimiser ses performances en prédisant la valeur correcte. La valeur réelle que nous optimisons, s'appelle la «perte» (que nous essayons de minimiser, bien sûr). Pour ce faire, le modèle doit pouvoir mesurer ce que l'on appelle la «perte», qui dépend du problème.

                             Tiré du cours "CNN for Visual Recognition", à l'Université de Stanford

Généralement, la fonction de perte, L, est une fonction sur l'entrée, un ensemble de paramètres (appelés "poids") et le vrai label (Dans la famille multi-classe, Li est défini comme la perte sur la classe i) .

R est une fonction de régularisation. Cette fonction est utilisée pour pénaliser W "complexe" (par exemple, elle "préférera" Ws plus petit). Cela force le modèle à préférer les modèles plus simples aux plus complexes.

lambda, le coefficient de R, est un autre paramètre que ce processus optimisé.

Perte SVM multi-classe (aka “Hinge Loss”)

Intuitivement, cette perte permet de vérifier si le score correct est une "marge" meilleure que les autres scores

                                Tiré du cours "CNN for Visual Recognition", à l'Université de Stanford

Si est le score du classifieur sur l'exemple i, Yi est le vrai label de Xi.

           tiré du cours "CNN for Visual Recognition", à l'Université de Stanford

Dans cet exemple, 1 est le "tampon de sécurité". Cela signifie que nous considérons "pas d'erreur" si Syi> = Sj + 1 (le score de la vraie étiquette est plus grand que le score de la mauvaise étiquette - avec un tampon).

Dans l'ensemble, pour cette fonction de perte: 0 <= L <infini

Une autre option est une "fonction de perte de charnière au carré", qui est au carré de la sortie max. Cela donne une pénalité supplémentaire aux mauvais scores en les quadrillant.

Softmax Classifier (perte entropique)

                              Tiré du cours "CNN for Visual Recognition", à l'Université de Stanford

 

Donc, essentiellement, nous avons:

                  Tiré du cours "CNN for Visual Recognition", à l'Université de Stanford

 

Dans l'ensemble, pour cette fonction de perte: 0 <= L <infini

Voici une bonne explication du raisonnement derrière la fonction softmax:

L'exposant dans la fonction softmax annulé à peu près le log dans la perte d'entropie croisée, causant la perte à peu près linéaire en Z (l'entrée pondérée pour les neurones). Cela conduit à un gradient à peu près constant, lorsque le modèle est faux, ce qui lui permet de se corriger rapidement. Ainsi, une mauvaise softmax saturée ne provoque pas de gradient de fuite.

Anecdote: Softmax vs fonctions de perte de SVM

Tandis que softmax ne sera "jamais heureux" avec notre prédiction (puisque la perte ne peut jamais être réellement 0 [seulement théoriquement, parce qu'elle exige s = -infinity),

la fonction de perte SVM sera "heureux" juste pour être degré dans une certaine mesure, et il considérera comme la meilleure prédiction possible (ou, la perte la plus faible possible).

 

auteur: HOURRANE Oumaima 
PhD. sous la direction de Pr. Ben Lahmar à la faculté des sciences Ben M'Sik.