Автор проекта - Протасов Сергей, аспирант МФТИ Идея создания создания русскоязычной грамматики и парсера возникла в 2001 году после знакомства с оригинальной англоязычной грамматикой связей и личной практической потребностью семантической обработки русскоязычных текстов. Однако, чем больше автор погружался в задачу, тем больше новых задач давала система. Первой и основной проблемой было отсутствие общедоступных русскоязычных морфологических словарей. Наконец в 2002 году благодаря проекту aot.ru эту проблему удалось решить и примерно через полгода была готова первая работающая версия грамматики и парсера. Однако первая версия грамматики связей для русского языка не давала нужного эффекта, описывала довольно небольшое подмножество явлений в языке и поэтому в дальнейшем претерпела серьезные изменения в части значительно расширения списка разрешенных грамматических явлений. А из-за этого значительно выросли запросы к оперативной памяти и парсер пришлось серьезно переделать. Русскоязычные словари теперь генерятся перед разбором каждого предложения, и 2-ая версия парсера имеет скорость около 1-го предложения в секунду вместо 100/сек в первой версии. Парсер 2-ой версии корректно разбирал около 50% предложений из корпуса художественных текстов и по этому тесту был сравним с поверхностно-семантическими анализаторами aot.ru и rco.ru Весной 2004 года к парсеру 2-ой версии был прикручен web-интерфейс http://sz.ru/parser. Во второй версии используется в основном морфологический словарь от aot.ru. В 3-ей версии парсера используются несколько семантических словарей (например, многословные наречия), многие высокочастотные слова описываются индивидуально, а для некоторых создается свой собственный тип связи (например, если ... то ... ). Словари парсера постепенно развиваются в течении нескольких лет, самая последняя версия парсера, после успешного тестирования, выкладывается в web-интерфейс. В 2012 году русскоязычные словари грамматики парсера были выложены в свободный доступ. |