wake-up-neo.com

Guter Datensatz für die Stimmungsanalyse?

Ich arbeite an der Sentiment-Analyse und verwende das in diesem Link angegebene Dataset: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html. Ich habe mein Dataset in ein 50: 50-Verhältnis unterteilt. 50% werden als Testproben verwendet und 50% werden als Zugproben verwendet, und die Merkmale werden aus den Zugproben extrahiert und führen eine Klassifizierung mit dem Weka-Klassifikator durch, aber meine Vorhersagegenauigkeit beträgt etwa 70-75%.

Kann mir jemand andere Datensätze vorschlagen, die mir dabei helfen können, das Ergebnis zu steigern - ich habe Unigram, Bigram und POStags als Funktionen verwendet.

13
user3512562

Es gibt viele Quellen zum Abrufen von Sentiment-Analyse-Datasets:

Das bedeutet jedoch nicht, dass es Ihnen dabei helfen wird, eine bessere Genauigkeit für Ihren aktuellen Datensatz zu erzielen, da sich der Korpus möglicherweise stark von Ihrem Datensatz unterscheidet. Abgesehen von der Reduzierung des Testprozentsatzes gegenüber dem Training können Sie: andere Klassifizierer testen oder alle Hyperparameter mit halbautomatischem Wrapper wie CVParameterSelection oder GridSearch oder sogar Auto-Weka (falls vorhanden) fein abstimmen.

Es ist ziemlich selten, 50/50 zu verwenden, 80/20 ist ein ziemlich häufig auftretendes Verhältnis. Besser ist es zu verwenden: 60% für das Training, 20% für die Kreuzvalidierung, 20% für das Testen.

25
doxav

Ich fing an, Sentiment-Analyse-Tools/-Datensätze/-Lexicons an einem Ort zu sammeln. Dies könnte auch für Sie nützlich sein: https://github.com/laugustyniak/awesome-sentiment-analysis

Starten Sie PR, wenn Sie mehr hinzufügen möchten, oder schreiben Sie mir einfach. Ich habe viel mit Amazon-Daten gearbeitet [Millionen von Rezensionen]. 

1
l.augustyniak

Hier ist eine Liste von Datensätzen, die die Gefühle für einzelne Wörter angeben .. http://positivewordsresearch.com/sentiment-analysis-resources/

0
Default picture