Textverarbeitung mit Python
Python Praxis 10
In dieser Übung wird das Arbeiten mit Dateien wiederholt.
Übung 1: Schreiben Sie ein Programm, dass einen Text
nimmt (entweder aus der NLTK oder woanders her) und diesen wie folgt
bearbeitet:
- Filtern Sie alle Satzzeichen heraus.
- Erstellen Sie zwei getrennte Dictionaries. Eines für die
Stopwords (Dictionary 1) und eines für alle anderen Worte
(Dictionary 2). Die Dictionaries sollten die Worte als keys
enthalten, die Frequenz der Worte im Text als value. Als
Stopwordliste können Sie z.B. die Liste aus NLTK
zugrundelegen.
- Speichern Sie beide Dictionaries in je einer Datei und
informieren Sie den User, wie diese Dateien heissen.
- Errechnen Sie, was der Prozentsatz an Funktionsworten im Text ist
(also die Worte, die in Dictionary 1 sind).
- Geben Sie die 5 häufigsten Funktionsworte aus, wie auch die 5
häufigsten aus Dictionary 2.
- Stellen Sie den Prozentsatz an
Hapax
Legomena im Dictionary 2 fest und berechnen Sie auch den
Prozentsatz, der sich auf die Gesamtanzahl der Worte im Text
bezieht.
- Rechnen Sie nun die Hapax Legomena unter den Funktionsworten
(Dictionary 1) mit hinein. Wieviel Prozent machen die Hapax
Legomena im Dictionary 1 aus, wieviel auf den Gesamttext bezogen?
- Alle Resultate sollten in eine Datei geschrieben werden und dem
User sollte gesagt werden, wie diese Datei heisst.
Übung 2: Nehmen Sie nun 2 Texte und vergleichen Sie
diese im Hinblick auf Hapax Legomena wie auch Dis Legomena. Nehmen
Sie einmal Texte vom gleichen Autor, einmal von unterschiedlichen
Autoren. Gibt es tatsächlich einen Unterschied von Autor zu
Autor, wie oft behauptet wird?
Ende