Hubs und Authorities
Als Hubs und Authorities lassen sich in der Netzwerktheorie herausragende Knoten anhand ihrer Verlinkung einteilen. Vereinfacht gesagt sind Hubs und Authorities dabei Knoten, die mit vielen anderen Knoten verbunden sind – beispielsweise bekannte Persönlichkeiten in sozialen Netzwerken und Linkverzeichnisse im World Wide Web.
Berechnung
Das Konzept der Hubs und Authorities liefert ähnlich wie der PageRank-Algorithmus ein Konzept zur automatischen Beurteilung von Webseiten anhand ihrer Verlinkung, mit dem sich ein Ranking-Verfahren angeben lässt. Es wurde 1999 von Jon Kleinberg vorgeschlagen und ist unter dem Namen hypertext-induced topic selection (HITS) bekannt.
Dabei wird jede Seite nach zwei Kategorien bewertet:
- Hubs sind Seiten, die auf viele inhaltlich wertvolle Dokumente zeigen.
- Authorities sind Seiten, deren Inhalt als besonders gut angesehen wird.
Der Algorithmus geht davon aus, dass gute Hubs Hyperlinks zu vielen Authorities haben und Authorities von vielen Hubs aus erreichbar sind.
Zur Bewertung wird jeder Seite aus einer Grundmenge von Seiten ein Hub-Gewicht und ein Authority-Gewicht zugeordnet. Die Grundmenge wird aus der Suchanfrage generiert. Dazu werden Seiten, die auf die Suchbegriffe zutreffen, um eine gewisse Anzahl an Seiten, die aus der Grundmenge verlinkt sind oder die auf die Grundmenge zeigen, erweitert. Danach werden die Gewichte wie folgt aktualisiert, bis eine Konvergenz festzustellen ist:
Dabei ist die Verlinkungsmatrix, in der , falls die Seite einen Link auf die Seite besitzt, und , falls dies nicht der Fall ist. ist die transponierte Matrix von , d. h. . Es gilt also:
- Der Hub-Wert einer Seite ergibt sich aus der Summe aller Authority-Werte der Seiten, die von verlinkt sind.
- Der Authority-Wert einer Seite ergibt sich aus der Summe aller Hub-Werte der Seiten, die auf verlinken.
Durch gegenseitiges Einsetzen der Definitionen erhält man die Abhängigkeiten:
Dabei konvergieren und gegen einen der Eigenvektoren zum größten Eigenwert von bzw. .
und sind dabei meist Normierungen auf den Einheitskreis. Außerdem sind bzw. jeweils symmetrisch und positiv semidefinit. Daraus ergibt sich, dass beide Matrizen diagonalisierbar sind und damit eine Orthonormalbasis haben. Die wiederholte Multiplikation konvergiert damit gegen den größten Eigenvektor.
Siehe auch: Skalenfreies Netzwerk
Literatur
- Jon Kleinberg: Authoritative sources in a hyperlinked environment. In: Journal of the ACM. 46, Nr. 5, 1999, S. 604–632. doi:10.1145/324133.324140.