Erweitertes Boolesches Retrieval

Erweitertes Boolesches Retrieval ist eine Abwandlung des Booleschen Retrieval, die eine flexiblere Handhabung der Suchbegriffe und eine Bewertung der Suchresultate erlaubt.

Beim klassischen Booleschen Retrieval legt die Anfrage fest, welche Begriffe in den Suchresultaten vorkommen sollen. Die Anfrage teilt die Dokumente in zwei Mengen: Die einen Dokumente erfüllen die Anfrage, die anderen nicht. Das bringt zwei Probleme mit sich:

  1. Ein Dokument, das einen verlangten Term nicht enthält, wird nicht gefunden. Dennoch könnte das Dokument relevant sein. Womöglich benennt es den gesuchten Begriff einfach mit einem anderen Namen (Synonymie). Die anderen Suchterme sind vielleicht zahlreich vertreten.
  2. Die Dokumente, die den Suchkriterien entsprechen, können nicht nach Relevanz geordnet werden.

Das erweiterte Boolesche Modell versucht, diesen Problemen zu begegnen, indem die binäre Natur der Booleschen Algebra (wahr - falsch) aufgehoben und stattdessen Werte erlaubt werden, die sich dazwischen bewegen. Die Werte werden dabei mathematisch über einem Intervall [0,1] definiert, wobei null für „falsch“, eins für „wahr“ steht.

Mathematische Definition

Ein erweitertes Boolesches Modell wird definiert durch den 4-Tupel (T, Q, D, rank(.,.)) mit

  • T = {ti | i = 1, …, n}: Menge der Indexterme, die Dokumente und Queries beschreiben.
  • Q = {qj | i = 1, …}: Menge aller erlaubten Queries.
  • D = {dk | k = 1, …, m}: Menge der vorliegenden Dokumente. Bei den erweiterten Booleschen Modellen besitzt jeder Term tki eines Dokumentes dk ein Gewicht wki ∈ [0,1], welches die Wichtigkeit des Termes im Dokument repräsentiert. Ein Dokument dk besitzt somit die Struktur dk = ((tk1, wk1), …, (tkn, wkn)).
  • rank(.,.): Rankingfunktion, welche die Ähnlichkeit eines Dokumentes mit einer Query beschreibt. Sie ist allgemein definiert durch: rank(dk, qj): D x Q → [0,1]: (dk, qj) |→ rank(dk, qj) ∈ [0,1].

Die Rankingfunktion beschreibt die unterschiedlichen Klassen von erweiterten Booleschen Modellen, wobei alle Modelle zwischen der Verwendung der logischen Operatoren AND und OR in der Query unterscheiden.

Erweiterte Boolesche Modelle ohne Query-Gewichte

Bei dieser Klasse von Modellen wird jede Query repräsentiert als eine Kombination der Indexterme und der logischen Operatoren AND, OR, NOT unter der möglichen Verwendung von beliebig geklammerten Ausdrücken. Es wird angenommen, dass alle Terme die gleiche Bedeutung besitzen, was durch fehlende Termgewichte in der Query repräsentiert ist. Folgende erweiterte Boolesche Modelle lassen sich unterscheiden:

Einfache Fuzzy-Mengen-Modell (Buell 1981, Bookstein 1980, Radecki 1979)

rank(dk, t1 AND t2) = MIN{wk1, wk2};
rank(dk, t1 OR t2) = MAX{wk1, wk2}.

Dieses einfache Modell besitzt die Einschränkung, dass es nur zwei Terme evaluieren kann, im Gegensatz zu den folgenden Modellen, die beliebig viele Terme verarbeiten können.

Waller-Kraft-Modell (Waller & Kraft 1979)

rank(dk, t1 AND … AND tn) = (1 − γ) · MIN{wk1, …, wkn} + γ · MAX{wk1, …, wkn}, 0 ≤ γ ≤ 0,5;
rank(dk, t1 OR … OR tn) = (1 – γ) · MIN{wk1, …, wkn} + γ · MAX{wk1, …, wkn}, 0,5 ≤ γ ≤ 1.

Paice-Modell (Paice 1984)

Bei einer AND-Verknüpfung ordne zunächst die Gewichte wki mit ansteigenden Werten, d. h. wk1 ≤ … ≤ wkn, und berechne dann

rank(dk, t1 AND … AND tn) = (∑i=1n (ri-1 · wki))/(∑i=1n ri-1), 0 ≤ r ≤ 1.

Bei einer OR-Verknüpfung ordne zunächst die Gewichte wki mit absteigenden Werten, d. h. wk1 ≥ … ≥ wkn, und berechne dann

rank(dk, t1 OR … OR tn) = (∑i=1n (ri-1 · wki))/(∑i=1n ri-1), 0 ≤ r ≤ 1.

P-Norm-Modell (Salton et al. 1983)

rank(dk, t1 AND … AND tn) = 1 − (1/n · ∑i=1n (1 − wki)p)1/p, 1 ≤ p < ∞,
rank(dk, t1 OR … OR tn) = 1 − (1/n · ∑i=1n (wki)p)1/p, 1 ≤ p < ∞.

Infinite-One-Modell (Smith 1990)

rank(dk, t1 AND … AND tn) = γ · (1 − MAX{1 − wk1, …, 1 − wkn}) + (1 − γ) · (1/n · ∑i=1n wki), 0 ≤ γ ≤ 1;
rank(dk, t1 OR … OR tn) = γ · MAX{wk1, …, wkn} + (1 − γ) · (1/n · ∑i=1n wki), 0 ≤ γ ≤ 1.

Erweiterte Boolesche Modelle mit Query-Gewichten

Die Retrieval-Effektivität lässt sich steigern, indem den Termen Wichtigkeitsfaktoren in Form von Gewichten zugeordnet werden. Eine Query qj bekommt somit eine Struktur analog zu einem Dokument dk mit Tupeln aus Termen und Gewichten. Werden Terme, die nicht in der Ursprungs-Query auftreten mit einem Gewicht von Null kodiert, so kann jede Ursprungs-Query in eine Query umkodiert werden, die alle in T vorkommenden Terme mit berücksichtigt:

qj = ((tq(j)1, wq(j)1), …, (tq(j)n, wq(j)n)).

Bei den Relevanz-Gewichtungs Ansätzen (siehe Buell (1981)) werden die Rankingfunktionen derart reformuliert, dass die Gewichte der Dokumente und Queries multipliziert werden, d. h.:

rank(dk, (tq(j), wq(j))) = wk · wq(j).

Unter dieser Annahme sind von den vorgestellten erweiterten Booleschen Modellen das P-Norm- und das Infinite-One-Modell in der Lage, die Gewichte in den Dokumenten und einer Query zu evaluieren:

P-Norm-Modell mit Query-Gewichten

rank(dk, (tq(j)1, wq(j)1) AND … AND (tq(j)n, wq(j)n)) = 1 − ((∑i=1n (1 − wki)p · wq(j)ip)/(∑i=1n wkip))1/p, 1 ≤ p < ∞,
rank(dk, (tq(j)1, wq(j)1) OR … OR (tq(j)n, wq(j)n)) = 1 − ((∑i=1n wkip · wq(j)ip)/(∑i=1n wkip))1/p, 1 ≤ p < ∞.

Infinite-One-Modell mit Query-Gewichten

rank(dk, (tq(j)1, wq(j)1) AND … AND (tq(j)n, wq(j)n)) = γ · (1 − ((MAX{(1 − wk1) · wq(j)1, …, (1 − wkn) · wq(j)n})/(MAX{wq(j)1, …, wq(j)n})) + (1 − γ) · ((∑i=1n (wki · wq(j)i)/(∑i=1n wq(j)i)), 0 ≤ γ ≤ 1;
rank(dk, (tq(j)1, wq(j)1) OR … OR (tq(j)n, wq(j)n)) = γ · (MAX{wk1 · wq(j)1, …, wkn · wq(j)n})/(MAX{wq(j)1, …, wq(j)n}) + (1 − γ) · ((∑i=1n (wki · wq(j)i))/(∑i=1n wq(j)i)), 0 ≤ γ ≤ 1.

Literatur

  • D. A. Buell: A general model for query processing in information retrieval system. In: Information Processing and Management. 17, 1981, S. 249–262.
  • A. Bookstein: Fuzzy requests: an approach to weighted boolean searches. In: Journal of the American Society for Information Science. 31, 1980, S. 240–247.
  • E. A. Fox, S. Betrabet, M. Koushik, W. Lee: Extended boolean models. In: W. B. Frankes, R. B. Yates (Hrsg.): Information Retrieval Data Structures and Algorithms. Prentice Hall. 1992, S. 393–418.
  • M. H. Kim, J. H. Lee, Y. J. Lee: Analysis of fuzzy operators for high quality information retrieval. In: Information Processing Letters. 46 (5), 1993, S. 251–256.
  • J. H. Lee, M. H. Kim, Y. J. Lee: Ranking documents in thesaurus-based boolean retrieval systems. In: Information Processing and Management. 30, 1994, S. 79–91.
  • J. H. Lee, M. I. I. Kim, Y. J. Lee: Enhancing the fuzzy set model for high quality document rankings. In: Proceedings of the 19th Euromicro Conference. 1992, S. 337–344.
  • J. H. Lee, W. Y. Kim, M. H. Kim, Y. J. Lee: On the evaluation of boolean operators in the extended boolean retrieval framework. In: SIGIR. 1993, S. 291–297.
  • Joon Ho Lee: Properties of extended Boolean models in information retrieval. In: Croft & Rijsbergen: SIGIR. 1994, S. 182–190.
  • C. P. Paice: Soft evaluation of boolean search queries in information retrieval systems. In: Information Technology: Research and Development. 3 (1), 1984, S. 33–42.
  • T. Radecki: Fuzzy set theoretical approach to document retrieval. In: Information Processing and Management. 15, 1979, S. 247–259.
  • W. M. Sachs: An approach to associative retrieval through the theory of fuzzy sets. In: Journal of the American Society for Information Science. 27, 1976, S. 85–87.
  • G. Salton, E. A. Fox, H. Wu: Extended boolean information retrieval. In: Communication of the ACM. 26(11), 1983, S. 1022–1036.
  • M. E. Smith: Aspekts of the p-norm model of information retrieval: syntactic query generation, efficiency, and theoretical properties. PhD thesis. Cornell University, 1990.
  • W. G. Waller, D. H. Kraft: A mathematical Model for weighted Boolean retrieval systems. In: Information Processing and Management. 15, 1979, S. 235–245.