-1

В настоящее время я участвую в учебном проекте для извлечения имени лица из резюме/резюме.Извлечение имени - CV/Резюме - Stanford NER/OpenNLP

В настоящее время я работаю со Стэнфордом-НЭР и OpenNLP, которые оба выполняют с определенной степенью успеха из коробки, стремясь бороться с «незападными» типами имен (без обид, предназначенных для кого-либо).

Мой вопрос - учитывая общее отсутствие структуры предложения или контекста по отношению к имени физического лица в резюме/резюме, возможно, я получу какое-либо значительное улучшение идентификации имени, создав что-то похожее на корпус CV?

Мои первоначальные мысли состоят в том, что, вероятно, у меня будет больше успеха при распараллеливании предложений, удалении очевидного текста и применении немного логики, чтобы лучше всего догадаться о имени человека.

Я вижу, как обучение будет работать, если имя появляется внутри структурированного предложения, однако, как автономный объект без контекста (например, Акбар Аго), я подозреваю, что он будет бороться независимо от обучения.

Есть ли уровень ИИ, если при наличии достаточного количества данных начнется формулировка шаблона для нахождения имени, или я могу просто пойти на применение уровня логического извлечения строки?

Буду признателен за мысли, мнения и предложения людей.

Замечание: Я использовал PHP с Appache Tika, чтобы выполнить первоначальное извлечение текста из Doc/Pdf, и я экспериментирую со Стэнфордом и OpenNLP через PHP/Commandline.

Chris

ответ

0

Я думаю, вы, вероятно, улучшить идентификацию имен при создании CV корпус, это также зависит от размера вашего корпуса (вы могли бы собрать такой корпус, ползая CV сайтов).

Использование интеллектуального анализа данных, вероятно, на мой взгляд, ваш лучший вариант. Я не знаю подробно, какие варианты предлагаются Apache Tika, но чем больше информации вы найдете на макете CV, тем лучше. Например, шаблоны должны, вероятно, полагаться на то, что имена находятся над документом и близки к дате рождения/семейному статусу/изображению/адресу.

В таком случае вы не будете больше в случае с последовательным маркировкой (как это делает Stanford NER): в резюме имя обычно не окружено текстом. Скорее всего, это должна быть задача классификации сегментов текста кандидатов, к которым шаблоны могут быть преобразованы как (числовые или двоичные) атрибуты.

Вывод экстрактора может быть легко обнаружен или реализован и должен рассматриваться как предварительная обработка перед машинным обучением. Не забудьте также использовать списки имен и фамилий (и частые префиксы/суффиксы: -son, -vitch, -man, Ben-, de и т. Д.), Которые действительно являются неизбежными критериями для определения того, какой сегмент вероятно, будет именем. Поскольку другие имена часто появляются в CV, вот почему я считаю, что использование макета также должно быть важной особенностью.

Мне было бы интересно узнать, какие функции эффективны ... сообщите нам об этом?

1

Мои 2центы на проблему.

Так что придерживаться тегов NER, которые вы указали выше, будет моим первым блоком в конвейере, если я смогу идентифицировать что-то там, Виола, не нужно идти вперед, если нет, то я предлагаю вам перейти на подход, основанный на правилах. Когда мы говорим о резюме, имя кандидата обычно находится в топ-10% строк резюме. Во многих случаях за ним также следует «Имя: Ankit Solanki« Если это не удается, попробуйте найти адрес электронной почты и сопоставить это с разными парами NP, которые вы получите из другого текста в резюме, тот, в котором находится ближайший матч, который вы найдете, должен ваше имя. Как и в большинстве случаев, адрес электронной почты людей для профессиональной цели, таких как резюме, будет иметь свое имя, например john.mayer89abc.com будет очищен до john.mayer, который, в свою очередь, проходит через алго, который будет найдите ближайшую именную фразу для очищенного имени электронной почты.

Сообщите мне об этом.

Бест,

Анкит