Я пытаюсь извлечь этот тип информации из следующей структуры пункта:NLP - извлечение информации в Python (Spacy)
women_ran men_ran kids_ran walked
1 2 1 3
2 4 3 1
3 6 5 2
text = ["On Tuesday, one women ran on the street while 2 men ran and 1 child ran on the sidewalk. Also, there were 3 people walking.", "One person was walking yesterday, but there were 2 women running as well as 4 men and 3 kids running.", "The other day, there were three women running and also 6 men and 5 kids running on the sidewalk. Also, there were 2 people walking in the park."]
Я использую Python, spaCy
как моя библиотека НЛП. Я новичок в работе НЛП, и я надеюсь на некоторое руководство относительно того, каким будет лучший способ извлечь эту табличную информацию из таких предложений.
Если бы это было просто вопрос идентификации, были ли люди работающими или ходящими, я бы просто использовал sklearn
, чтобы соответствовать модели классификации, но информация, которую мне нужно извлечь, явно более детальна, чем это (я пытаюсь извлекать подкатегории и значения для каждого). Любое руководство будет высоко оценено.
Я никогда не писал запрос XPath или селектор DOM. Не могли бы вы объяснить, пожалуйста? – kathystehl
@kathystehl XPath указывает местоположение в документе XML (HTML). Таким образом, запрос XPath - это способ найти определенный элемент в XML или HTML. См. [Wikpedia] (https://en.wikipedia.org/wiki/XPath). Селектор DOM - это любой элемент CSS 'id' или' class' в документе HTML (DOM - это структура данных для HTML/XML-документа/дерева, с которым вы работаете в javascript, и т. Д.). Таким образом, вы можете фильтровать по id и классу для поиска элементов. В NLP анализатор зависимостей превращает неструктурированный текст в структуру древовидных данных, похожую на HTML, с тегами, которые могут быть запрошены подобным образом с помощью фильтров DOM-селектора и запросов XPath. – hobs