2017-02-16 15 views
2

Есть ли какой-либо современный парсератор партерной речи для русского языка? мне нужен инструмент или услуга, которая будет иметь возможность обрабатывать обычный текст и вывод:Современный анализатор зависимостей для русского языка

  • деления на предложения
  • деления на маркера
  • части-из-речи тегов (мелкозернистый MSD теги приветствуются)
  • леммы (базовые формы)
  • роль зависимость этикетки

Мне нужен инструмент для коммерческих целей. Это может быть проект с открытым исходным кодом с подготовленной статистической моделью, которая может использоваться в коммерческих целях (приобретается при необходимости) или веб-API. В конце концов, это может быть запатентованный двоичный код с закрытым кодом с запатентованной моделью. Модели синтаксического анализа для русского языка, которые я нашел в Интернете, требуют использования TreeTagger, который 1) имеет очень недружественную лицензию, 2) старше 20 лет.

ответ

0

Чтобы построить (хороший) анализатор зависимостей, вам понадобится банк дерева зависимостей. Все команды, которые создают свои парсеры зависимостей, имеют доступ к таким древовидным структурам, но им не разрешат передавать данные. Поэтому вы можете получить парсер, но обычно это не предварительная модель.

Вот почему вы должны сами обучить модель. Для русского языка существует дерево дерева зависимостей (SynTagRus). Я не знаю, сможете ли вы получить его в коммерческих целях. Может быть, эти сайты помогут вам:

https://github.com/UniversalDependencies/UD_Russian-SynTagRus 
https://habrahabr.ru/post/148124/ 
http://www.ruscorpora.ru/index.html 

Если вам удастся получить данные, обучение, ваша собственная модель является очень простой задачей. Или попросите здесь снова, или вы обязательно найдете достаточно гидов в Интернете (обучение парсеру совершенно одинаково, будь то русский или любой другой язык)

 Смежные вопросы

  • Нет связанных вопросов^_^