Тюбингенские корпусы русских текстов

Регулярные выражения

  1. Альтернативы
  2. Модификаторы
  3. Произвольные символы
  4. Группировка
  5. Внутренние преобразования
Обратно к: Справка о возможностях поиска; Тюбингенские корпусы русских текстов
В регулярных выражениях (шаблонах) наряду с алфавитными символами могут быть использованы следующие метасимволы:

Альтернативы

Альтернативные последовательности разделяются символом "|".

Примеры

дом|изба=>"дом" или "изба"
дом|улица|двор=>"дом" или "улица" или "двор"

Модификаторы

Модификаторы пишутся после символа, к которому они относятся. Если модификатор следует после круглых скобок (группировки), то он применяется к выражению в скобках.
+=>символ или выражение повторяется 1 или большее число раз
*=>повторяется 0 или большее число раз
?=>1 или 0 раз
{n}=>точно n раз
{n,}=>по меньшей мере n раз
{n,m}=>по меньшей мере n, но и не больше m раз

Примеры

дома?=>"дом" или "дома"
дома+=>"дома", "домаа" и т.д.
дома*=>"дом", "дома", "домаа" и т.д.

Произвольные символы

Точка "." обозначает один произвольный символ. Множество возможных символов (класс) заключается в квадратные скобки "[]" - это значит, что в данном месте может стоять один из указанных в скобках символ. Если первый символ в скобках это "^" - значит не один из указанных символов не может стоять в данном месте выражения. Внутри класса можно употреблять символ "-" обозначающий диапазон символов. Например "[a-z]" обозначает один из строчных букв латинского алфавита.

Примеры

[abc]=>"a", "b" или "c"
[^abc]=>любая строчная буква кроме "a", "b" или "c".
С применением модификаторов:
[a-z]?=>любая строчная буква, или отсутствие символа
.*=>любое число любых символов

Группировка: круглые скобки

Круглые скобки применяются для определения группы символов или части выражения, к которой относится символ альтернативы ("|") или модификатор.

Примеры

дом(ами|ом)=>"домами" или "домом"
домами|ом=>"домами" или "ом".
домами?=>"домами" или "домам".
дом(ами)?=>"дом" или "домами".

Внутренние преобразования

В регулярных выражениях допускаются русские буквы по выбранной кодировке (КОИ8 или Windows 1251). Перед самим поиском поисковое выражение трансформируется поисковой системой в латинские буквы по нашей системе транслитерации). Кроме того, точка . заменяется выражением "[a-zA-Z]". В редких случаях это преобразование может привести к тому, что некоторые символы внутри классов ([]) или перед модификаторами получают другое значение. Для наибольшего контроля над этими трансформациями преобразованное поисковое выражение дается в начале страницы результатов поиска.

Michael Betsch
Last modified: Mon Jul 5 14:32:43 MET DST