FindWord erkennt fremdsprachige Dokumente
und zeigt sie getrennt von deutschsprachigen an.
Die Erkennung fremdsprachiger Texte basiert auf folgender Überlegung:
- Bei normalen deutsch-sprachigen Texten wird aufgrund des Wörterbuches und der Parser eine gewisse Anzahl von Worten erkannt und in der Wortliste mit einem * (Stern) versehen. Das Verhältnis von erkannten Worten zur Gesamtanzahl der Worte wird für jede im »Dateien-Fenster« angezeigte Datei als Prozentzahl in der rechten Spalte angegeben.
- Bei fremdsprachigen Texten und bei Sondertexten (Adressbücher, die großenteils Eigennamen und Straßen enthalten, oder bei Dokumentationen von Computer-Quell-Programmen etc.) werden deutlich weniger Worte erkannt werden, so dass sich die Erkennungsquote stark vermindert.
- Daher liegt es nahe, durch Festlegen einer
Mindest-Erkennungsquote fremdsprachige Dokumente und Sondertexte von normalen
deutsch-sprachigen zu unterscheiden. Auf Wunsch können daher innerhalb eines
Projektes
- alle Dokumente,
- nur normale deutsch-sprachige Dokumente, oder
- nur fremdsprachige Dokumente und Sondertexte
Beispiel
In einem Projekt enthalten 13 Dokumente das Wort "patent":
Die »Erkennungsquote« gibt für das aktuelle Projekt in Prozent an, wieviele Worte einer Datei vom Wörterbuch oder einem Parser erkannt sein müssen, um diese Datei als normales deutsch-sprachiges Dokument zu interpretieren. Üblicherweise werden bei
- normalen deutsch-sprachigen Dokumente mehr als 30% und bei
- fremdsprachigen Dokumenten oder Sondertexten weniger als 15%
der Worte erkannt. Daher empfiehlt sich als Erkennungsquote ein Wert im Bereich von 20%.
Wenn nun die Erkennungsquote auf 20% gesetzt und »Nur fremdsprachige Dateien« ausgewählt wird, werden 3 englische Dokumente gefunden, deren Erkennungsquoten von 6%, 12% und 8% unter den eingestellten 20% liegen:
Demnach müssen sich bei Wahl von »Nur deutschsprachige Dateien« 13 - 3 = 10 Dateien ergeben, deren Erkennungsquote mindestens 20% beträgt: