Что я хочу сделать, так это разобрать необработанный естественный текст и найти все фразы, описывающие даты.Как найти ссылки на даты в естественном тексте?
У меня довольно большой корпус со всеми ссылками на даты размеченных:
I met him <date>yesterday</date>.
Roger Zelazny was born <date>in 1937</date>
He'll have a hell of a hangover <date>tomorrow morning</date>
Я не хочу, чтобы интерпретировать даты фразы, просто найти их. Тот факт, что они являются датами, не имеет значения (в реальной жизни они даже не датируются, но я не хочу рассказывать вам подробности), в основном это просто набор возможных значений. Грамматика самих значений может быть аппроксимирована как контекстно-свободная, однако ее сложнее создавать вручную, и с возрастающей сложностью становится все труднее избегать ложных срабатываний.
Я знаю, что это немного длинный снимок, поэтому я не ожидаю наличия готового решения, но какие технологии или исследования я могу использовать?
См. Вопрос http://stackoverflow.com/questions/9294926/how-does-apple-find-dates-times-and-addresses-in-emails. Это называется Named Entity Extraction, как подзадача в извлечения информации. @reseter предоставил ссылку. Как машинное обучение, так и грамматические подходы работают хорошо. –
взгляните на https://duckling.wit.ai/ – sdream
@sdream Спасибо, это выглядит многообещающе, я собираюсь попробовать. – biziclop