У меня есть PHP-массив:PHP найти п-граммы в массиве
$excerpts = array(
'I love cheap red apples',
'Cheap red apples are what I love',
'Do you sell cheap red apples?',
'I want red apples',
'Give me my red apples',
'OK now where are my apples?'
);
Я хотел бы найти все п-граммы в этих линиях, чтобы получить результат, как этот:
- дешевые красные яблоки: 3
- красные яблоки: 5
- яблоки: 6
Я попытался взорвать массив, а затем проанализировать его, но это глупо, потому что новые n-граммы можно найти из-за конкатенации строк, которые не видят друг друга.
Как вы продолжите?
Чтобы продолжить, я бы поискал n-граммовые алгоритмы, а затем решил, какой из них целесообразно реализовать в этом наборе данных. Первый вызов: [wikipedia on N-grams] (http://en.wikipedia.org/wiki/N-gram). –
Спасибо за ваше предложение, это то, что я сделал, но мне нужно было какое-то решение или, по крайней мере, конкретные примеры, которые дали бы мне конечный результат, который я предоставил. – mattspain
Здравствуйте, Эта библиотека делает это за вас: https://packagist.org/packages/drupol/phpngrams Дайте мне знать, как все идет! –