Invertierte Datei

Invertierte Dateien werden im Bereich des Information Retrievals als Grundlage für die Durchführung verschiedener Suchanfragen benötigt, beispielsweise für die Suche mit Booleschen Operatoren und Trunkierungen.

Dazu wird ein Index für eine Dokumentsammlung (beispielsweise eine Literaturdatenbank) angelegt, der den einzelnen suchbaren Begriffen jeweils die entsprechenden Dokumente zuordnet. Die invertierte Datei zu einem (Such-)Begriff verweist auf alle Dokumente, die mit diesem bestimmten Begriff verknüpft sind. Dazu erhält die invertierte Datei Informationen wie beispielsweise die Dokumentnummern bzw. deren Adressen in der Datenbank, eine Angabe, wie häufig der Begriff in der Gesamtdatenbank vorkommt (bzw. die Anzahl der Dokumente, in denen der Eintrag mindestens einmal vorkommt). Für das Retrieval und die Gewichtung der Suchergebnisse nützlich sind außerdem Angaben dazu, an welcher Position im Dokument der Begriff vorkommt (als wievieltes Wort, im wievielten Satz oder Absatz). Soll eine Linkstrunkierung ermöglicht werden, muss zusätzlich jeder Begriff rückwärts geschrieben mit angelegt werden.

Vorteil dieses Systems ist ein rascher Zugriff auf Dokumente, da nur der Index (und nicht die Dokumente selbst) durchsucht werden muss. Der Index lässt sich gut für die Erstellung von Retrievalsystemen nutzen. Suchmöglichkeiten können ausgeschöpft und die Suchoberfläche relativ frei gestaltet werden. Nachteilig sind jedoch zum einen der enorme Aufwand, den die Erstellung eines solchen Indexes erfordert, und zum anderen der große benötigte Speicherplatz. Zudem muss der Index jedes Mal aktualisiert werden, sobald neue Dokumente hinzukommen.

Das Prinzip der Invertierten Dateien basiert auf einem System von Herman Hollerith, der 1890 als erster Lochkarten für die Auswertung einer Volkszählung in den USA einsetzte.

Die technische Umsetzung geschieht durch eine Indexstruktur.

Siehe auch