В корпусе состоящем из 2.5 млн предложений длины 3-45
слова-лексемы
отсортированы по частотности и каждому слову назначен частотный рейтинг.
Далее в корпусе искались предложения целиком состоящие из слов, рейтинг которых был не хуже заданного.
Таким образом образовались несколько корпусов с нарастающей частотностью слов.
Некоторые предложения встречаются в подкорпусах много раз.
Данные корпуса могут использоваться для тестирования систем машинного перевода, семантических/синтаксических анализаторов.