Tübinger russische Korpora

Reguläre Ausdrücke

  1. Alternation
  2. Quantoren
  3. Beliebige Zeichen
  4. Bereiche
  5. Interne Umwandlungen
Zurück zu: Hinweis zu Suchmöglichkeiten; Tübinger russische Korpora
In regulären Ausdrücken als Suchausdrücken werden neben normalen Zeichen (Buchstaben) folgende Sonderzeichen verwendet:

Alternation

Mehrere Möglichkeiten können durch "|" voneinander getrennt werden.

Beispiele

dom|izba=>"dom" oder "izba"
dom|ulica|dvor=>"dom" oder "ulica" oder "dvor"

Quantoren

Als Quantoren werden die Zeichen ?, + und * verwendet. Sie beziehen sich auf das Zeichen, dem sie folgen; wenn sie nach Klammern stehen, beziehen sie sich auf den Inhalt der Klammern.
?=>Ausdruck kann fehlen oder einmal vorkommen
+=>Ausdruck kann einmal oder beliebig oft vorkommen
*=>Ausdruck kann fehlen oder beliebig oft vorkommen

Beispiele

doma?=>"dom" oder "doma"
doma+=>"doma", "domaa" etc.
doma*=>"dom", "doma, "domaa" etc.

Weitere Quantoren

Zusätzlich können auch Anzahlen spezifiziert werden, wie oft ein Ausdruck vorkommen soll. Hierzu werden statt "+", "?", "*" folgende Formeln verwendet:
{n}=>Ausdruck muß n-mal vorkommen
{n,}=>Ausdruck muß mindestens n-mal vorkommen
{n,m}=>Ausdruck muß mindestens n-mal, höchstens m-mal vorkommen

Beliebige Zeichen

Für ein beliebiges Zeichen steht der Punkt ".". Eine Folgen von Zeichen in eckigen Klammern "[]" steht für ein beliebiges dieser Zeichen. Wenn das erste Zeichen nach der eckigen Klammer ein Zirkumflex "^" ist, steht der Ausdruck für ein beliebiges Zeichen außer den Zeichen in eckigen Klammern. Die Zeichenfolge kann auch mit Bindestrich abgekürzt werden; so steht "[a-z]" für einen beliebigen Kleinbuchstaben.

Beispiele

[abc]=>"a", "b" oder "c"
[^abc]=>beliebiger Buchstabe außer "a", "b" oder "c".
mit Quantoren:
[a-z]?=>ein Kleinbuchstabe, der auch fehlen kann
.*=>beliebig viele beliebige Buchstaben.

Bereiche: runde Klammern

Runde Klammern werden verwendet, um innerhalb des Ausdrucks einen Bereich festzulegen. Damit wird bestimmt, welchen Bereich eine Alternation ("|") oder ein Quantor betrifft: Die Alternation gilt innerhalb der Klammern, und der Quantor bezieht sich auf den durch die Klammern begrenzten Bereich.

Beispiele

dom(ami|om)=>"domami" oder "domom"
domami|om=>"domami" oder "om".
domami?=>"domami" oder "domam".
dom(ami)?=>"dom" oder "domami".

Interne Umwandlungen

In regulären Ausdrücken kann wie in anderen Suchausdrücken auch neben der intern verwendeten Korpustransliteration die ausgewählte kyrillische Kodierung (KOI8 oder Windows-Codepage 1251) für die Eingabe verwendet werden. Vor der Suche wird der eingegebene Ausdruck in die Korpustransliteration (vgl. Transliterationstabelle) umgewandelt, außerdem wird der Punkt . durch "[a-zA-Z]" ersetzt. Um diese Transformation nachvollziehbar zu machen, wird zusammen mit dem Ergebnis der Suchausdruck vor und nach der Umwandlung (als "transformierter Suchstring") ausgegeben. Die Transliteration von kyrillischer Kodierung zur Korpustransliteration kann in manchen Fällen dazu führen, daß Zeichen innerhalb von Bereichen ([]) oder vor Quantoren einen anderen Effekt haben.

Michael Betsch
Letzte Veränderungen vom 14.7.05