Textverarbeitung mit Python

Python Praxis 10

In dieser Übung wird das Arbeiten mit Dateien wiederholt.


Übung 1: Schreiben Sie ein Programm, dass einen Text nimmt (entweder aus der NLTK oder woanders her) und diesen wie folgt bearbeitet:

  1. Filtern Sie alle Satzzeichen heraus.
  2. Erstellen Sie zwei getrennte Dictionaries. Eines für die Stopwords (Dictionary 1) und eines für alle anderen Worte (Dictionary 2). Die Dictionaries sollten die Worte als keys enthalten, die Frequenz der Worte im Text als value. Als Stopwordliste können Sie z.B. die Liste aus NLTK zugrundelegen.
  3. Speichern Sie beide Dictionaries in je einer Datei und informieren Sie den User, wie diese Dateien heissen.
  4. Errechnen Sie, was der Prozentsatz an Funktionsworten im Text ist (also die Worte, die in Dictionary 1 sind).
  5. Geben Sie die 5 häufigsten Funktionsworte aus, wie auch die 5 häufigsten aus Dictionary 2.
  6. Stellen Sie den Prozentsatz an Hapax Legomena im Dictionary 2 fest und berechnen Sie auch den Prozentsatz, der sich auf die Gesamtanzahl der Worte im Text bezieht.
  7. Rechnen Sie nun die Hapax Legomena unter den Funktionsworten (Dictionary 1) mit hinein. Wieviel Prozent machen die Hapax Legomena im Dictionary 1 aus, wieviel auf den Gesamttext bezogen?
  8. Alle Resultate sollten in eine Datei geschrieben werden und dem User sollte gesagt werden, wie diese Datei heisst.

Übung 2: Nehmen Sie nun 2 Texte und vergleichen Sie diese im Hinblick auf Hapax Legomena wie auch Dis Legomena. Nehmen Sie einmal Texte vom gleichen Autor, einmal von unterschiedlichen Autoren. Gibt es tatsächlich einen Unterschied von Autor zu Autor, wie oft behauptet wird?


Ende