Textverarbeitung mit Python

Python Praxis 9

In dieser Übung wird mit Dateien aus NLTK gearbeitet.


Übung 1: Schreiben Sie ein Programm, dass einen Text aus der NLTK nimmt und für diesen Text ein Dictionary erstellt, in dem für jedes Wort gespeichert wird, wie oft es vorkommt. Filtern Sie Funktionswörter mittels der stopwords Liste aus NLTK aus. Das Programm sollte folgendes tun:

  1. Das gesamte Dictionary in einer Datei speichern und den User informieren, wie diese Datei heisst.
  2. Die häufigsten 20 Worte ausgeben, die im Text vorkommen.
  3. Alle Worte ausgeben, die nur einmal vorkommen, und die Anzahl dieser Worte.
  4. Beide Berechnungen (die 20 häufigsten Worte und die Worte, die nur einmal vorkommen sowie wie viele es sind) in eine Datei schreiben und dem User sagen, wie diese Datei heisst.
Das alles sollte auf 2 Texte im Vergleich angewandt werden. Gibt es irgendwelche interessante Beobachtungen?

Ende