wake-up-neo.com

Warum wird die Methode der Kreuzentropie der Methode der mittleren Fehlerquadrate vorgezogen? In welchen Fällen hält das nicht aus?

Obwohl beide der obigen Verfahren eine bessere Punktzahl für eine bessere Prädiktionsnähe liefern, wird dennoch eine Kreuzentropie bevorzugt. Ist dies in jedem Fall der Fall oder gibt es einige besondere Szenarien, in denen wir Cross-Entropie gegenüber MSE bevorzugen?

31
Amogh Mishra

Kreuzentropie wird für Klassifizierung bevorzugt, während der mittlere quadratische Fehler eine der besten Möglichkeiten für Regression ist. Dies ergibt sich direkt aus der Angabe der Probleme selbst. Bei der Klassifizierung wird mit einem bestimmten Satz möglicher Ausgabewerte gearbeitet, sodass die MSE schlecht definiert ist (da diese Art von Wissen nicht vorhanden ist, werden Fehler auf inkompatible Weise bestraft). Um die Phänomene besser zu verstehen, ist es gut, die Beziehungen zwischen ihnen zu verfolgen und zu verstehen

  1. kreuzentropie
  2. logistische Regression (binäre Kreuzentropie)
  3. lineare Regression (MSE)

Sie werden feststellen, dass beide als Maximum-Likelihood-Schätzer angesehen werden können, einfach mit unterschiedlichen Annahmen über die abhängige Variable.

39
lejlot

Wenn Sie die Kostenfunktion unter dem Aspekt der Wahrscheinlichkeit und Verteilung ableiten, können Sie feststellen, dass MSE auftritt, wenn Sie davon ausgehen, dass der Fehler der Normalverteilung folgt, und dass bei Annahme einer Binomialverteilung eine Kreuzentropie vorliegt. Dies bedeutet, dass Sie implizit bei Verwendung von MSE eine Regression (Schätzung) durchführen und bei Verwendung von CE eine Klassifizierung durchführen. Hoffe es hilft ein bisschen.

25
Duc Nguyen

Wenn Sie beispielsweise eine logistische Regression durchführen, verwenden Sie die Sigmoid-Funktion, um die Wahrscheinlichkeit zu schätzen, die Kreuzentropie als Verlustfunktion und den Gradientenabfall, um sie zu minimieren. Wenn Sie dies tun, aber MSE als Verlustfunktion verwenden, kann dies zu einem nicht konvexen Problem führen, bei dem möglicherweise lokale Minima gefunden werden. Die Verwendung der Kreuzentropie führt zu einem konvexen Problem, bei dem Sie möglicherweise die optimale Lösung finden.

https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35

Hier gibt es auch eine interessante Analyse: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error- oder-Mittelwert-Quadrat-Fehler-für-neuronales-Netzwerk-Klassifikator-Training /

8
Julian