Textverarbeitung mit Python
Python Praxis 9
In dieser Übung wird mit Dateien aus NLTK gearbeitet.
Übung 1:
Schreiben Sie ein Programm, dass einen Text aus der NLTK nimmt und
für diesen Text ein Dictionary erstellt, in dem für jedes
Wort gespeichert wird, wie oft es vorkommt. Filtern Sie
Funktionswörter mittels der stopwords Liste aus NLTK aus.
Das Programm sollte folgendes tun:
- Das gesamte Dictionary in einer Datei speichern und den User
informieren, wie diese Datei heisst.
- Die häufigsten 20 Worte ausgeben, die im Text
vorkommen.
- Alle Worte ausgeben, die nur einmal vorkommen, und die Anzahl
dieser Worte.
- Beide Berechnungen (die 20 häufigsten Worte und die Worte, die
nur einmal vorkommen sowie wie viele es sind) in eine
Datei schreiben und dem User sagen, wie diese Datei heisst.
Das alles sollte auf 2 Texte im Vergleich angewandt werden. Gibt es
irgendwelche interessante Beobachtungen?
Ende