Я ищу, чтобы извлечь имена и места из очень коротких очередей из текста, напримерДолжен ли я использовать LingPipe или NLTK для извлечения имен и мест?
"cardinals vs jays in toronto" " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" "jenson button - pole position, brawn-mercedes - monaco".
Эти данные в настоящее время в базе данных MySQL, и я (в значительной степени) имеют отдельную запись для каждого спортсмена, хотя имена иногда ошибочны и т. д.
Я хотел бы извлечь атлетов и мест. Я обычно работаю на PHP, но не смог найти библиотеку для извлечения сущности (и я могу захотеть углубиться в некоторые NLP и ML в будущем).
Из того, что я нашел, LingPipe и NLTK, по-видимому, являются наиболее рекомендуемыми, но я не могу понять, будет ли он действительно соответствовать моей цели, или если что-то еще будет лучше.
Я не запрограммировал ни на Java, ни на Python, поэтому, прежде чем я начну изучать новые языки, я надеюсь получить некоторые советы о том, какой маршрут мне следует, или о других рекомендациях.
«... отдельный стол для каждого спортсмена ...», может быть, вы имеете в виду _record_ для каждого спортсмена? (это было бы ужасно много столов в противном случае ...) – mjv
да! языки/модули были бы наименьшими из моих проблем, если бы у меня была отдельная таблица для каждого спортсмена! Спасибо что подметил это. – pedalpete