wake-up-neo.com

Was ist das CoNLL-Datenformat?

Ich bin neu im Text-Mining. Ich verwende eine Open-Source-JAR-Datei (Mate Parser), die mir nach dem Parsen von Abhängigkeiten eine Ausgabe im CoNLL 2009-Format liefert. Ich möchte die Ergebnisse der Abhängigkeitsanalyse für die Informationsextraktion verwenden. Aber ich bin in der Lage, etwas von der Ausgabe zu verstehen, aber nicht in der Lage, das CoNLL-Datenformat zu verstehen. Kann mir jemand helfen, das CoNLL-Datenformat zu verstehen? Über Hinweise jeglicher Art würde ich mich freuen.

49

Es gibt viele verschiedene CoNLL Formate, da CoNLL jedes Jahr eine andere gemeinsame Aufgabe ist. Das Format für CoNLL 2009 wird beschrieben hier . Jede Zeile steht für ein einzelnes Wort mit einer Reihe von durch Tabulatoren getrennten Feldern. _s geben leere Werte an. Handbuch von Mate-Parser besagt, dass die ersten 12 Spalten von CoNLL 2009 verwendet werden:

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

Die Definition einiger dieser Spalten stammt aus früheren gemeinsamen Aufgaben (das in 2006 und 2007 verwendete CoNLL-X-Format ):

  • ID (Index im Satz, beginnend mit 1)
  • FORM (Wortform selbst)
  • LEMMA (das Lemma oder der Stiel von Word)
  • POS (Teil der Rede)
  • FEAT (Liste der morphologischen Merkmale, getrennt durch |)
  • HEAD (Index des syntaktischen übergeordneten Elements, 0 für ROOT)
  • DEPREL (syntaktische Beziehung zwischen HEAD und diesem Wort)

Es gibt Varianten dieser Spalten (z. B. PPOS, aber nicht POS), die mit P beginnen und anzeigen, dass der Wert automatisch als Goldstandardwert vorhergesagt wurde.

Update: Es gibt jetzt auch ein CoNLL- -Datenformat, das das CoNLL-X-Format erweitert.

57
dmcc