WOrdCOUnter and STastistics
[http://www.lilix.de] Institut für elektronisch unterstützte Kommunikation

Die Hauptseite der Martin-Luther-Universität Halle-Wittenberg

Das Institut für Informatik an der UNIVERSITÄT Leipzig

MAIL: mail@belix.net - Kontakt zu IfEUK

Das Programm entstand in einem Projekt in der uk-Beratungsstelle der Luther - Universität in Halle(Saale)
Programmierung: Sandy Pleißner
Entwicklungs - Status: funktionsfähiges Beta
Version: 1.08
Veröffentlichung der vorliegenden Version: 02.05.2005
Lizens-Status: FreeWare
Download: siehe unten
Kontakt: wocoust@belix.net

SCREENSHOT

Das Programm analysiert eine Text-Datei. Gezählt werden alle unterscheidbaren Wörter oder Wortformen und nach ihrer Häufigkeit gelistet.
Vorlage sollte ein plain - text - file wie *.txt sein, also ein ASCII - ähnliches Format, ohne Formatierungen, wie *.rtf, *.doc, *.xls, o.ä.
In die 5 Zeilen unter Ausnahmen koennen 5 Begriffe eingetragen werden. Es werden alle Zeilen der Vorlage - Datei aussortiert, die diese Wörter enthalten.
Achtung: Es wird jetzt auch Groß-Kleinschreibung unterschieden.
In Wortformen enthaltene bzw. angehängte Satzzeichen werden entweder entfernt oder ignoriert. Als Satzzeichen werden insbesondere ( [öffnende Klammer], ) [schließende Klammer], . [Punkt], " [Anführungszeichen zur wörtlichen Rede], , [Komma], ; [Semikolon], - [Bindestrich], & [kaufmänn. UND], : [Doppelpunkt], ? [Fragezeichen] und ! [Ausrufezeichen] betrachtet.
Ist diese Option nicht gesetzt, wird versucht, diese Satzzeichen vom vorhergehenden bzw. nachfolgendem bzw. einschließendem Wort zu trennen, um die Wortidentifikation nicht zu beeinflussen. Sonstige Satzsegmente, die Sonderzeichen enthalten, werden gelöscht.
Die Check - Boxen unter Zähle Wortformen können markiert werden, wenn diese Wortarten extra gefiltert werden sollen. Die Muster werden aus den entsprechenden Dateien im Verzeichnis systems/ gelesen und können dort ergänzt werden. Wird das Kästchen eigene Definition aktiviert, werden alle Wörter aus der Datei systems/own.woc gelesen. Die Datei ist zur Definition eigener Listen vorgesehen.
Die Verarbeitung der Muster erfolgt real und ziemlich lazy, deswegen können die Listen während der Programm - Ausführung editiert werden. Änderung sind persistent, bleiben also dauerhaft erhalten.

Die neuste Option ist der English Tagger. Wie der Name hergibt, ist er zum Taggen englischer Texte gedacht. Dabei wird ein Text in seine Wortformen zerlegt und diese Wortformen analysiert und identifiziert.

Die Analyse der Datei erscheint sofort im Hauptfenster bzw. wird unter files/counted.html abgelegt.

Hinweise willkommen, Sandy Pleißner

Verbesserungsvorschläge an wocoust@lilix.de

Aktuelle Downloads:

update: 17. Februar 2009 | by: wocoust@belix.netPage