Целью является синтаксический анализ научных текстов. И сначала мне нужно сделать частичную речь пометки предложений таких текстов. Тексты из arxiv.org. Поэтому они изначально находятся в LaTeX. При извлечении текста из документов LaTeX математические выражения могут быть преобразованы в MathML (или, возможно, в какой-то другой формат, но я предпочитаю MathML, потому что эта работа выполняется для создания определенного веб-приложения, а MathML - удобный инструмент для этого).Как сделать частичную запись тегов, содержащих математические выражения?
Единственная идея, которую я имею, состоит в том, чтобы заменить математические выражения на некоторые фразы естественного языка, а затем использовать некоторый реализованный алгоритм для пометки. Итак, вопрос заключается в том, как реализовать эти подстановки или, в общем, как реализовать пометку текстов с математикой в них?
Можно ли удалить все формулы? Если да, все, что вам нужно сделать, это добавить правило к вашему токенизатору, чтобы удалить математические выражения, заменив их чем-то вроде __formula__ – mbatchkarov
Я попытался заменить математику одним словом. Но проблема в том, что математические выражения могут играть различную синтаксическую роль: они могут действовать как существительные, или как цифры, или как фразы, поэтому это решение дает много ошибок. – kseniyam
Интересно, я видел аналогичную работу с твиттер-хэш-тегами. Можете ли вы разместить несколько примеров предложений? – mbatchkarov