Тюбингенские корпусы русских текстов

Главная страница SFB 441
TUSNELDA
Проект B1
EnglishDeutsch

Корпус русских текстов

В рамках проекта "B1" специального научно-исследовательского сектора SFB 441 предоставляется возможность онлайн-поиска в корпусах русских текстов. Возможны два вида поиска: простой текстовой поиск и сложный поиск, который позволяет использовать дополнительные корпусы текстов и задавать более сложные поисковые выражения.

Если Вы располагаете какими-либо русскими текстами на машинных носителях и готовы предоставить их для электронной публикации в научно-исследовательских целях, мы будем благодарны за разрешение на использование Ваших материалов в нашей общедоступной поисковой системе.

Кодировка

Для ввода поискового выражения и вывода найденного текста можно выбрать одну из следующих кодировок: кириллицу (KOI8 или Windows-1251) или транслитерацию латинскими буквами (пожалуйста, ознакомьтесь с нашей таблицей транслитерации). В случае если была выбрана одна из кириллических кодировок, для ввода поискового выражения допускается использовать также и латинскую транслитерацию.

Простой поиск

В постом поиске доступны корпусы: Уппсальский корпус и корпус текстов интервью.
Кодировка:

Сложный поиск

В сложном поиске доступны Уппсальский корпус и корпус интервью, а также множество других текстов. Эти тескты можно разделить на три группы:
  • Современные тексты (преимущественно публицистика). К этой группе относится также и Уппсальский корпус, поиск в котором может производиться по отдельности в художественных и в публицистических текстах.
  • Литература XX века
  • Литература XIX века
Сложный поиск осуществляется при помощи программы CQP. CQP - это система для управления большими корпусами, разработанная Институтом машинной обработки языка Штутгартского университета (подробнее о CQP).
Кодировка:

Морфологическая разметка

Некоторые наши корпусы размечены знаками морфологической аннотации (тэгами). Разметка была осуществлена при помощи статистического тэггера (TnT, разработан Торстеном Брантсом). Поиск может производиться как по словоформам, так и по морфологическим тэгам. Возможен вывод текста вместе с разметкой.

Кодировка:

Уппсальский корпус

Уппсальский корпус современных русских текстов был составлен в Институте славистики Уппсальского университета под руководством профессора Леннарта Лённгрена. Мы благодарим за предоставленное разрешение пользоваться корпусом и за возможность онлай-поиска через интернет. Все права сохраняются за автором. Использование данных корпуса разрешается только в научно-исследовательских целях; коммерческое использование запрещено. Краткое описание корпуса находится здесь. На основе этого корпуса был составлен Частотный словарь современного русского языка (Частотный словарь современного русского языка/ Под ред. Леннарта Лённгрена. - Уппсала, 1993).

Тексты интервью

Постоянно расширяемый корпус русских интервью составляется и аннотируется сотрудниками проекта "B1" (Anja Gattnar, Sebastian Buecking и Jennifer Haberhauer). Интервью взяты из следующих русских журналов и газет, бесплатно доступных в интертете: Аргументы и факты, Аргументы и факты (Владивосток), Арт Петербург, Биржа труда, Ваша Газета, Ведомости, Вестник, Иностранец, Интербизнес, Киевские новости, Литературная газета, Мир денег, Музыкальная газета, На дне, Натали, Новая газета, Новости Петербурга, Огонек, Отдыхай, Психологическая Газета, Пять Углов, Пчела, Сегодня, Странник, Эхо Москвы. В копрус включены интревью, опубликованные в указанных изданиях с 1996 г. и относящиеся к следующим тематическим группам: "общество и политика", "экономика", "музыка", "литература", "молодежь" и "спорт".
Автор: Anja Gattnar. Настоящая редакция: Michael Betsch, 31. августа 2004 г. Перевод на русский язык: Дмитрий Трубчанинов