Binärsuche

Anhang ›› EDV Allgemein ››
Parent Previous Next

Ein Text-Dokument besteht




Im Allgemeinen sind Text- und Steuerzeichen bunt durcheinander gemischt. Eine jede Textverarbeitung hat dafür ihre eigene Methode, und daher kann eine jede auch nur diejenigen Dateien lesen, die ihrer internen Struktur entsprechen. Um die Identifikation zu erleichtern, hat es sich durchgesetzt, daß jedes Programm eigene Dateiendungen vergibt. So erwartet z.B. Word, daß eine .DOC-Datei der Word-Spezifikation entspricht, oder ein Internet-Browser, daß eine .HTM-Datei dem HTML (Hypertext Markup Language) - Standard folgt.




Einige Suchmaschinen ignorieren diese innere Dateistruktur.


Eine solche Methode bezeichnet man


Sie hat viele Vorteile, da sie


Aber sie hat einen gravierenden Nachteil, der hier am Beispiel von Word-Dateien erläutert werden soll:




Dies ist ein grundsätzliches Problem. Eine fehlerfreie Analyse von z.B. Word-Dateien kann nicht durch eine Binärsuche erfolgen.


Aus diesem Grund verzichtet FindWord auf eine auf den ersten Blick verlockend erscheinende Binärsuche und analysiert jede Textdatei anhand ihrer inneren Struktur. Diese Struktur muß bekannt oder über externe Programme zugänglich sein, so daß nicht beliebige Dateitypen verarbeitet werden können. Der Vorteil dieses aufwendigeren Verfahrens besteht darin, daß FindWord keine oder zumindest erheblich weniger Fehltreffer generiert als jede Binärsuche.