Bucketsort

Bucketsort (von englisch bucketEimer“) ist ein Sortierverfahren, das für bestimmte Werte-Verteilungen eine Eingabe-Liste in linearer Zeit sortiert. Der Algorithmus ist in drei Phasen eingeteilt:

  1. Verteilung der Elemente auf die Buckets (Partitionierung)
  2. Jeder Bucket wird mit einem weiteren Sortierverfahren wie beispielsweise Mergesort sortiert.
  3. Der Inhalt der sortierten Buckets wird konkateniert.

Das Verfahren arbeitet also out-of-place.

Algorithmus

Die Eingabe von Bucketsort ist eine Liste mit Elementen und eine Funktion , die jedes Element der Liste in das halboffene Intervall monoton in der Weise abbildet, dass für sortiermäßig . Basiert die Sortierreihenfolge auf einem Vergleich binärer Daten, kann man die Bits mit der höchsten Signifikanz nehmen. Während der Sortierung verwendet der Algorithmus „Buckets“, die in einem Array angeordnet sind. Die Verteilung der Elemente geschieht über dieses Array, indem jedes Element in den -ten Bucket gelegt wird. Danach wird nacheinander jeder Bucket sortiert. In der letzten Phase werden die Bucket-Listen in der Reihenfolge, wie sie im Array angeordnet sind, konkateniert, was als Ergebnis die sortierte Ausgabe darstellt.

Als Pseudo-Code:

 bucket_sort(l, f, k)
   buckets = array(k)
   foreach (e in l)
     buckets[ floor(f(e) * k) ].add(e)
   r = []
   foreach (b in buckets)
     x = mergesort(b)
     r.append(x)
   return r

Der Algorithmus sortiert stabil, wenn der für die Sortierung der Buckets verwendete Sortier-Algorithmus, hier mergesort, stabil ist.

Komplexität

Die Verteilung der Funktionswerte von bestimmt die Laufzeit von Bucketsort. Die Laufzeit ist in (in O-Notation), wobei die Anzahl der Elemente im -ten Bucket bezeichnet. Bei einer Gleichverteilung ist die Gesamtlaufzeit in , da die Summe über die Buckets linear ist und ihre Summanden als konstant (bei exakter Gleichverteilung =1) angesehen werden können. Die effiziente Laufzeit von ist nicht nur bei einer Gleichverteilung gegeben, sondern bei allen Verteilungen, nach denen der Summenterm asymptotisch linear ist. Sie wird auch als Average-Case-Laufzeit angesehen.[1]

Bei anderen Werte-Verteilungen kann die Laufzeit des Bucketsortalgorithmus von der Laufzeit des Sortier-Algorithmus dominiert werden, der zur Sortierung eines Buckets verwendet wird. Ein solcher Worst-Case tritt beispielsweise ein, wenn alle Elemente einem einzigen Bucket zugeordnet werden. Bei Verwendung von mergesort für die Sortierung der Buckets ist die Gesamtlaufzeit dann in .

Natürlich lässt sich diese Sortierung zweiter Stufe wieder als Bucketsort implementieren, dann mit Sub-Buckets pro Bucket. Diese Vorgehensweise ist im Artikel Radixsort beschrieben und ist eine Form des MSD Radixsort.

Der Speicherbedarf liegt in .

Siehe auch

  • Hybridsort, ein Sortierverfahren, das die Eigenschaften von Bucketsort und Heapsort kombiniert.
  • Sortierverfahren

Einzelnachweise

  1. s. #Mehlhorn.
    Aber auch eine erschöpfende Rechnung
    Partitio-
    nenzahl
    Anzahl
    Vergleiche
    220,50000,25000
    330,96300,32099
    451,41670,35417
    571,86750,37349
    6112,31690,38616
    7152,76570,39510
    8223,21400,40175
    9303,66200,40689
    10424,10980,41098
    11564,55750,41432
    12775,00510,41709
    131015,45260,41943
    141355,90000,42143
    151766,34740,42316
    162316,79470,42467
    172977,24200,42600
    183857,68930,42718
    194908,13660,42824
    206278,58380,42919
    217929,03100,43005
    2210029,47820,43083
    2312559,92540,43154
    24157510,3730,43219
    25195810,8200,43279
    26243611,2670,43334
    27301011,7140,43386
    28371812,1610,43433
    29456512,6080,43477
    30560413,0560,43518
    31684213,5030,43557
    32834913,9500,43593
    331014314,3970,43627

    über alle Permutationen zeigt, dass bis zu einer Elementeanzahl von im Mittel weniger als Vergleiche zum vollständigen Sortieren erforderlich sind.

Literatur

  • Kurt Mehlhorn, Peter Sanders: Algorithms and Data Structures. The Basic Toolbox. Springer, Berlin / Heidelberg 2008, ISBN 978-3-540-77977-3, doi:10.1007/978-3-540-77978-0. 5.6 Breaking the Lower Bound
  • Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, Clifford Stein: Introduction to Algorithms. 2. Auflage. MIT Press, Cambridge MA 2001, ISBN 0-262-03293-7, S. 174 (englisch).
  • Donald E. Knuth: The Art of Computer Programming. 2. Auflage. Volume 3: Sorting and Searching. Addison-Wesley, Reading MA 1997, ISBN 0-201-89685-0, S. 169 (englisch).
  • Apostolos Burnetas und Daniel Solow und Rishi Agarwal: An analysis and implementation of an efficient in-place bucket sort. In: Acta Informatica. Band 34, Nr. 9, 1997, S. 687–700, doi:10.1007/s002360050103 (englisch, Die Bucketsort-Variante wird als Groupsort bezeichnet).
  • E. J. Isaac und R. C. Singleton: Sorting by Address Calculation. In: Journal of the ACM. Band 3, Nr. 3, Juli 1956, S. 169–174, doi:10.1145/320831.320834 (englisch).