FindWord erkennt fremdsprachige Dokumente

und zeigt sie getrennt von deutschsprachigen an.

Die Erkennung fremdsprachiger Texte basiert auf folgender Überlegung:

Bei normalen deutsch-sprachigen Texten wird aufgrund des Wörterbuches und der Parser eine gewisse Anzahl von Worten erkannt und in der Wortliste mit einem * (Stern) versehen. Das Verhältnis von erkannten Worten zur Gesamtanzahl der Worte wird für jede im »Dateien-Fenster« angezeigte Datei als Prozentzahl in der rechten Spalte angegeben.
Bei fremdsprachigen Texten und bei Sondertexten (Adressbücher, die großenteils Eigennamen und Straßen enthalten, oder bei Dokumentationen von Computer-Quell-Programmen etc.) werden deutlich weniger Worte erkannt werden, so dass sich die Erkennungsquote stark vermindert.
Daher liegt es nahe, durch Festlegen einer Mindest-Erkennungsquote fremdsprachige Dokumente und Sondertexte von normalen deutsch-sprachigen zu unterscheiden. Auf Wunsch können daher innerhalb eines Projektes
- alle Dokumente,
- nur normale deutsch-sprachige Dokumente, oder
- nur fremdsprachige Dokumente und Sondertexte
zur Anzeige gebracht werden.

Beispiel

In einem Projekt enthalten 13 Dokumente das Wort "patent":

Fremdsprache 1

Die »Erkennungsquote« gibt für das aktuelle Projekt in Prozent an, wieviele Worte einer Datei vom Wörterbuch oder einem Parser erkannt sein müssen, um diese Datei als normales deutsch-sprachiges Dokument zu interpretieren. Üblicherweise werden bei

normalen deutsch-sprachigen Dokumente mehr als 30% und bei
fremdsprachigen Dokumenten oder Sondertexten weniger als 15%

der Worte erkannt. Daher empfiehlt sich als Erkennungsquote ein Wert im Bereich von 20%.

Fremdsprache 2

Wenn nun die Erkennungsquote auf 20% gesetzt und »Nur fremdsprachige Dateien« ausgewählt wird, werden 3 englische Dokumente gefunden, deren Erkennungsquoten von 6%, 12% und 8% unter den eingestellten 20% liegen:

Fremdsprache 3

Demnach müssen sich bei Wahl von »Nur deutschsprachige Dateien« 13 - 3 = 10 Dateien ergeben, deren Erkennungsquote mindestens 20% beträgt:

Fremdsprache 4

Zu erfassende Verzeichnisse und Dateitypen sind wählbar »