Описание корпусов.
Корпус I собирался с публичных сайтов интернет в 2007 году. Страницы собирались только из доменов второго уровня имя.ru.
Из страниц удалялась HTML разметка и скрипты. Тексты были разбиты на предложения.
Корпус содержит 30 млн. предложений, 380 млн. словоупотреблений.
Корпус занимает примерно 817 мбайт в сжатом виде bzip2.
Число различных токенов более 7 млн до токенизации. Случайная выборка.
Корпус II получен из корпуса I, путем фильтрации большой части мусора и токенизации.
Словарь корпуса уменьшен до 500 тыс. слов.
Корпус содержит 21 млн. предложений, 353 млн. словоупотреблений. Случайная выборка.
Корпус III получен из корпуса II, путем объединения части слов в словосочетания, например, "вдряд ли" > "вряд_ли". Слова переведены в нижний регистр.
Корпус содержит 11 млн. предложений, 153 млн. словоупотреблений. Случайная выборка.
Словарь корпуса уменьшен до 100 тыс. слов.