Part-of-Speech Tagging löst das Problem die Wortarten in einem Satz zu erkennen und zu markieren.
Die folgenden verschiedenen Typen von Tagging Notationen existieren um Texte mit Meta Informationen zu versehen
- Part-of-Speech Tagging. Stuttgart-Tübingen-Tagset (STTS) Wikipedia
- STTS Tag Table (1995/1999) (Deutsch) – aktuelles PDF
- STTS Uni München *.PDF
- POS Tags des Brown Corpus (Englisch)
- Morphy Tagset (Kleines Tagset mit 51 Tags und großes Tagset mit 456 Tags)
- Morphologische Analyse. Dort wird auch das STTS-Tagset eingesetzt
- Modifikationen des STTS
- University of Zürich, 2000
- TIGER, 2001 bzw. 2003
- TIGER Shema Syntax
- Verbmobil, 1996
- ELM-DE = EAGLES/Lexicon/Morphosyntax-Proposal, for German
- EAGLES specifications for German morphosyntax, 1996 (Spezifikation)
- Study of the relation between Tagsets and Taggers, EAGLES project, 1996
- Xerox Tagset
- Die grammatische Funktion in der direkt dominierenden Phrase. Liste der grammatischen Funktionen
- Die Kategorie von nicht terminalen Knoten (Phrasen). Liste der Phrasenkategorien
PoS Tagger & NLP Software
TnT — Statistical Part-of-Speech Tagging
- TnT — Statistical Part-of-Speech Tagging – Webseite des Projektes
- TnT User Manual PDF
- http://www.coli.uni-saarland.de/~thorsten/publications/Brants-ANLP00.pdf
Brills Tagger – Regelbasiertes Tagging
Zu diesen Tagger kann ich leider nicht mehr viel im Netz finden
Morphy – Morphologie Tagging System
Das Deutsches Morphologie-Lexikon hat ein PoS-Tagger mit an Bord
Tree Tagger
Webseite von TreeTagger
Apache OpenNLP
Webseite vom Apache OpenNLP
Text Korporen, Wörterbucher, Sprachdatenbanken, Lexikas und Nachschlagewerke
- NEGRA KORPUS [German]
Der NEGRA Korpus Version 2 besteht aus 355.096 Tokens (20.602 Sätzen) deutschen Zeitungstextes aus der Frankfurter Rundschau. - TIGER Korpus [German]
The TIGER Corpus (versions 2.1 and 2.2) consists of app. 900,000 tokens (50,000 sentences) of German newspaper text, taken from the Frankfurter Rundschau. - Penn Treebank [English]
ca. 1200000 Einträge – Penn Treebank Webseite – Weitere Projektinfos - Susanne Corpus [English]
ca. 150000 Einträge – Susanne Corpus Webseite - Huge German Corpus (HGC)
204 million tokens including punctuation in 12.2 million sentences (about 180 million „real“ words) - German web corpus SdeWaC (Faaß and Eckart, 2013)
contains approx. 880 million words, and a Wikipedia dump from April 10, 2011, containing approx. 430 million words. - Lingua
Lingua Verzeichnis mit einer Menge an Rohdaten – Webseite - Wörterbuch der deutschen Gegenwartssprache (WDG) – Webseite
- Digitales Wörterbuch der deutschen Sprache –
- Deutsches Textarchiv
http://www.deutschestextarchiv.de/download - Linguistic Data Consortium https://www.ldc.upenn.edu/
- http://www.mmmann.de/Sprache/corpora-deutsch.html
- WaCky – The Web-As-Corpus Kool Yinitiative
- SdeWaC – Download
- TermIng – Ein Online-Nachschlagewerk der FH Karlsruhe, das mehr bietet als Fachvokabular in mehreren Sprachen. TermIng Webseite
- Deutsches Morphologie-Lexikon – Website & Downloads
- German Tagsets – Website & Downloads
- Morphy – Morphologie und Tagging System
Ein Deutsches Morphologie-Lexikon mit Stammformen. Das Lexikon ist von Daniel Naber und umfasst über 51.000 Einträgen mit ca. 360.000 Vollformen. - German Logical Metonymy Database GLMDB – Website
- German Verb Subcategorisation Database extracted from MATE Dependency Parses –
- BilderNetle – A Dataset of German Noun-to-ImageNet Mappings – Website – Download TXT – Download Image Mapping File *.txt
- SCOWL (Spell Checker Oriented Word Lists) – Website
- Deep Semantic Analogies – Website & Download
- DErivBase – Website + Downloads
weitere Ressourcen Sammlungen
- http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/
- Liste mit weiteren Korporen
- Vortrainierte Modele für NLP Parser