2013-03-28 5 views
2

Целью является синтаксический анализ научных текстов. И сначала мне нужно сделать частичную речь пометки предложений таких текстов. Тексты из arxiv.org. Поэтому они изначально находятся в LaTeX. При извлечении текста из документов LaTeX математические выражения могут быть преобразованы в MathML (или, возможно, в какой-то другой формат, но я предпочитаю MathML, потому что эта работа выполняется для создания определенного веб-приложения, а MathML - удобный инструмент для этого).Как сделать частичную запись тегов, содержащих математические выражения?

Единственная идея, которую я имею, состоит в том, чтобы заменить математические выражения на некоторые фразы естественного языка, а затем использовать некоторый реализованный алгоритм для пометки. Итак, вопрос заключается в том, как реализовать эти подстановки или, в общем, как реализовать пометку текстов с математикой в ​​них?

+0

Можно ли удалить все формулы? Если да, все, что вам нужно сделать, это добавить правило к вашему токенизатору, чтобы удалить математические выражения, заменив их чем-то вроде __formula__ – mbatchkarov

+0

Я попытался заменить математику одним словом. Но проблема в том, что математические выражения могут играть различную синтаксическую роль: они могут действовать как существительные, или как цифры, или как фразы, поэтому это решение дает много ошибок. – kseniyam

+1

Интересно, я видел аналогичную работу с твиттер-хэш-тегами. Можете ли вы разместить несколько примеров предложений? – mbatchkarov

ответ

0

Я реализовал алгоритм замещения формулы на вершине тестера Стэнфорда, и он работает довольно хорошо. Путь к тому, как написано abecadel, заменить каждую формулу уникальным, но новым словом, я использовал комбинацию слова и хеш-формулы-duwkziah.

0

Замена всех математических формул , уникальное слово, похоже, путь.

 Смежные вопросы

  • Нет связанных вопросов^_^