Mersenne-Twister

Der Mersenne-Twister ist ein Pseudozufallszahlengenerator, der 1997 von Makoto Matsumoto und Takuji Nishimura entwickelt wurde. Er generiert Sequenzen von Pseudozufallszahlen und wurde darauf zugeschnitten, die Probleme älterer Algorithmen zu überwinden (wie z. B. linearer Kongruenzgeneratoren).

Es gibt zwei Varianten dieses Algorithmus; die neuere und weiter verbreitete ist der Mersenne-Twister „MT 19937“, der hier beschrieben wird.

Eigenschaften

  1. Extrem lange Periode von . Diese Periodenlänge erklärt auch den Namen des Algorithmus: Sie ist eine Mersenne-Primzahl, und einige Eigenschaften des Algorithmus resultieren daraus.
  2. Alle Bits der Ausgabesequenz sind gleichverteilt. Somit sind die zurückgelieferten Integer-Werte ebenfalls hochgradig gleichverteilt (bis zur Dimension 623, siehe unten). Daraus folgt eine extrem geringe Korrelation zwischen aufeinanderfolgenden Wertefolgen der Ausgabesequenz.
  3. Der Algorithmus ist schnell. Er generiert immer 624 neue Zustandswörter auf einmal, die er bei den nächsten 624 Aufrufen dann Wert für Wert zurückliefert. Die Neuberechnung des Zustandsvektors lässt sich auf SIMD-Rechnerarchitekturen fast beliebig parallelisieren, was der Ausführungsgeschwindigkeit zugutekommt.

Andererseits hat er den Nachteil, auf einer großen Datenmenge von etwa 2,5 kByte (624 Wörter mit je 32 Bits) zu arbeiten. Das kann bei Rechnerarchitekturen mit relativ kleinem Cache und langsamerem Arbeitsspeicher einen Geschwindigkeitsnachteil ergeben.

Das Wort „Twister“ bezieht sich auf eine bestimmte Transformation innerhalb des Algorithmus, durch die diese hochgradige Gleichverteilung sichergestellt wird (reine lineare Kongruenzgeneratoren können mit vertretbarem Aufwand nur fünfdimensionale Gleichverteilung garantieren).

Eine n-dimensionale Gleichverteilung heißt: teilt man die Ausgabesequenz in Tupel von je n Zahlen, dann ist die Sequenz der n-Tupel gleichverteilt im n-dimensionalen Raum.

Im Gegensatz zu anderen Algorithmen ist der Mersenne-Twister in seiner Reinform nicht kryptographisch sicher. Für viele andere Anwendungen wird er aber bereits erfolgreich verwendet.

Algorithmus

Die Werte bis (mit ) werden als Startwerte vorgegeben. Die weiteren Werte mit werden folgendermaßen berechnet:

Das Symbol bezeichnet die bitweise XOR-Verknüpfung, und „hex“ steht für hexadezimal. Das Symbol ist die Gaußklammer und steht für den abgerundeten Wert, d. h. die größte Ganzzahl, die nicht größer als das Argument in der Klammer ist.

Um die 623-dimensionale Gleichverteilung für alle 32 Bits der sicherzustellen, werden die noch modifiziert:

Dabei steht für die bitweise UND-Verknüpfung.

Die so berechneten werden als Zufallszahlen verwendet.

Initialisierung

Als Startwerte bis wählt man im Idealfall echte Zufallszahlen, die z. B. durch einen physikalischen Zufallszahlengenerator erzeugt werden können. Es können aber auch Pseudozufallszahlen von einem anderen Generator verwendet werden.

Es dürfen nicht alle Bits, die den Zustand des Mersenne-Twisters ausmachen, mit Null initialisiert werden, denn sonst erzeugt er immer nur Null als „Zufallszahl“. Dies sind das höchstwertige Bit in sowie alle Bits in den übrigen Variablen bis .

Je weniger zufällig die Startwerte sind (d. h. je ungleicher die Bits verteilt sind), umso länger ist die „Aufwärmphase“, die der Mersenne-Twister braucht, bis er gute Pseudozufallszahlen ausgibt. Die schlechtest mögliche Initialisierung besteht aus nur einem einzigen gesetzten Bit im Initialisierungsvektor. In diesem Fall benötigt der Mersenne-Twister über 700.000 Aufrufe, bis er wieder eine gleichverteilte Bitsequenz liefert.[1] Im Zweifelsfall sollte man also etwa 800.000 Zufallszahlen generieren lassen, bevor man die Zahlen verwendet. Alternativ existieren auch moderne Generatoren, die wesentlich kürzere Erholungszeiten besitzen, wie z. B. der WELL oder Marsaglias Xorshift.

Allerdings kann man sich auf diese Weise auch die Initialisierung mit einem weiteren PRNG sparen (falls man diesem bspw. nicht traut): Man setzt (im Code y[1]) auf einen zufälligen Seed-Wert (z. B. die Uhrzeit) und alle weitere auf 0 (im C-Code sind sie das i. d. R. wegen des static-Attributs bereits). Anschließend ruft man den Generator einfach 800.000 mal auf.

Code

Diese Berechnungen lassen sich z. B. in C-Code effizient implementieren. Die folgende Funktion berechnet immer N = 624 Wörter auf einmal, und danach werden diese aus dem Vektor y der Reihe nach ausgelesen:

TT800

Matsumoto und Nishimura entwickelten zuvor bereits einen „kleinen Bruder“ des Mersenne-Twisters mit der Bezeichnung TT800. Er arbeitet nach dem gleichen Funktionsprinzip, aber auf einer kleineren Datenmenge von nur 25 Wörtern, und sein Algorithmus ist ein wenig einfacher, weil zur Berechnung des jeweils nächsten Zustandswortes nicht drei, sondern nur zwei alte 32-bit-Zustandworte verrechnet werden. Seine Periodenlänge beträgt .

Siehe auch

Literatur

  • Makoto Matsumoto, Takuji Nishimura: Mersenne twister. A 623-dimensionally equidistributed uniform pseudorandom number generator. In: ACM Transactions on Modeling and Computer Simulation. 8, 1998, ISSN 1049-3301, S. 3–30.

Weblinks

Einzelnachweise

  1. iro.umontreal.ca (PDF; 301 kB)