Я занимаюсь анализом конкурентов, используя данные открытого правительства из государственного сектора Великобритании. Но в моих результатах есть некоторые аномалии. Когда я группирую контракты по названиям компаний, существует множество проблем, таких как компании с ошибкой или они различаются по своим именам. HP, Hewlett-Packard, Hewlett-Packard Limited, ibm, ibm UK, ibm UK limited и т. Д. Дело в том, что я уже запускал свой код и исправлял результаты вручную. Теперь я изменил некоторые части кода и должен запустить его снова. Но я не могу вернуться, делая то же самое, что и дорого. На данный момент я думаю о написании общего правила, которое будет сортировать эти компании в алфавитном порядке и объединять их, когда они совпадают с несколькими словами. Но это не полный подход, поскольку HP и Hewlett-Packard будут отличаться. Кто-нибудь выполнял подобную работу раньше или может ссылаться на их работу, пожалуйста. Буду признателен. Благодарю.Как мне группировать компании, имеющие разные имена, но по существу одинаковые семантически?
2
A
ответ
1
Это проблема, с которой я работал в прошлом, но я сделал это для разных доменов. Вы можете начать с онлайн-источника, который дает список компаний и их аббревиатуры, очищает их и сохраняет их в некотором формате (например, hashmap). Теперь вы можете использовать аббревиатуры, чтобы найти подстрочное совпадение как с оригиналом, так и с аббревиатурой. слово с некоторым порогом (скажем, 90%).
Конкретно для вашего случая вы можете начать очищать этот сайт http://www.abbreviations.com/acronyms/FIRMS используя JSOUP. У этого есть очень богатый источник сокращений компании. Если этого списка недостаточно, вам придется искать другие источники. Надеюсь это поможет.
Спасибо yaar. Я бы поддержал ваш ответ, но не имел достаточной репутации. –
Его хорошо :). Но вернитесь, как только получите такую репутацию: P – Praveen