В корпусе состоящем из 2.5 млн предложений длины 2-45
слова-лексемы отсортированы по частотности и каждому слову назначен частотный рейтинг.
Далее в корпусе искались предложения целиком состоящие из слов, рейтинг которых был не лучше (не выше) заданного. Таким образом образовались несколько корпусов с нарастающей частотностью слов. Некоторые предложения встречаются в подкорпусах много раз.

Данные корпуса могут использоваться для тестирования систем машинного перевода, семантических/синтаксических анализаторов.
Чем ниже и правее подкорпус, тем сложнее предложения для анализа!

Рейтинг | Длина 2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20  
rating>6634(2) 2
rating>5431(1) 1
rating>4447(4) 4
rating>3640(11) 11
rating>2980(31) 22 7 2
rating>2440(41) 35 6
rating>1998(85) 1 74 9 1
rating>1635(95) 1 83 10 1
rating>1339(126) 1 103 19 3
rating>1096(149) 1 114 26 6 2
rating>897(203) 2 160 29 10 2
rating>735(385) 7 312 55 9 2
rating>601(332) 264 56 9 3
rating>492(367) 7 274 70 12 4
rating>403(485) 3 351 100 22 7 2
rating>330(702) 6 494 156 39 6 1
rating>270(514) 1 362 110 28 11 1 1
rating>221(830) 5 574 182 48 17 4
rating>181(883) 11 570 218 57 20 6 1
rating>148(1105) 43 683 256 92 24 6 1
rating>121(1381) 1 35 803 354 135 40 8 4 1
rating>99(1902) 1 29 1096 521 194 49 8 2 1 1
rating>81(2156) 1 39 935 739 317 93 21 9 1 1
rating>66(2283) 104 1182 600 245 104 37 7 2 1 1
rating>54(2323) 2 81 1162 606 293 111 41 13 11 2 1
rating>44(3257) 34 1426 921 521 227 96 18 8 5 1
rating>36(4596) 107 2133 1353 643 228 87 32 10 2 1
rating>29(6623) 187 2990 1838 940 398 168 61 30 4 5 2
rating>24(10884) 95 2806 4098 2245 1019 408 133 54 17 6 1 2
rating>20(9204) 77 3154 2741 1695 875 391 163 59 35 10 1 2 1
rating>16(17030) 80 3537 6636 3746 1829 738 277 107 55 15 6 2 2
rating>13(14863) 2 343 3987 5158 3044 1345 603 228 91 33 17 10 1 1
rating>11(11156) 1 90 2961 3421 2149 1160 683 341 153 95 50 24 13 9 3 3
rating>9(13307) 171 2732 3921 2910 1822 952 462 186 82 39 15 8 4 1 1 1