В настоящее время я участвую в учебном проекте для извлечения имени лица из резюме/резюме.Извлечение имени - CV/Резюме - Stanford NER/OpenNLP
В настоящее время я работаю со Стэнфордом-НЭР и OpenNLP, которые оба выполняют с определенной степенью успеха из коробки, стремясь бороться с «незападными» типами имен (без обид, предназначенных для кого-либо).
Мой вопрос - учитывая общее отсутствие структуры предложения или контекста по отношению к имени физического лица в резюме/резюме, возможно, я получу какое-либо значительное улучшение идентификации имени, создав что-то похожее на корпус CV?
Мои первоначальные мысли состоят в том, что, вероятно, у меня будет больше успеха при распараллеливании предложений, удалении очевидного текста и применении немного логики, чтобы лучше всего догадаться о имени человека.
Я вижу, как обучение будет работать, если имя появляется внутри структурированного предложения, однако, как автономный объект без контекста (например, Акбар Аго), я подозреваю, что он будет бороться независимо от обучения.
Есть ли уровень ИИ, если при наличии достаточного количества данных начнется формулировка шаблона для нахождения имени, или я могу просто пойти на применение уровня логического извлечения строки?
Буду признателен за мысли, мнения и предложения людей.
Замечание: Я использовал PHP с Appache Tika, чтобы выполнить первоначальное извлечение текста из Doc/Pdf, и я экспериментирую со Стэнфордом и OpenNLP через PHP/Commandline.
Chris