FindWord erkennt fremdsprachige Dokumente

und zeigt sie getrennt von deutschsprachigen an.

Die Erkennung fremdsprachiger Texte basiert auf folgender Überlegung:


Beispiel

In einem Projekt enthalten 13 Dokumente das Wort "patent":

Fremdsprache 1

Die »Erkennungsquote« gibt für das aktuelle Projekt in Prozent an, wieviele Worte einer Datei vom Wörterbuch oder einem Parser erkannt sein müssen, um diese Datei als normales deutsch-sprachiges Dokument zu interpretieren. Üblicherweise werden bei

der Worte erkannt. Daher empfiehlt sich als Erkennungsquote ein Wert im Bereich von 20%.

Fremdsprache 2

Wenn nun die Erkennungsquote auf 20% gesetzt und »Nur fremdsprachige Dateien« ausgewählt wird, werden 3 englische Dokumente gefunden, deren Erkennungsquoten von 6%, 12% und 8% unter den eingestellten 20% liegen:

Fremdsprache 3

Demnach müssen sich bei Wahl von »Nur deutschsprachige Dateien« 13 - 3 = 10 Dateien ergeben, deren Erkennungsquote mindestens 20% beträgt:

Fremdsprache 4


Zu erfassende Verzeichnisse und Dateitypen sind wählbar »