Я студент-информатик и работаю над проектом, основанным на поисковой системе Nutch. Я хочу разработать алгоритмы Java для лучшего индексирования и поиска арабских сайтов. Как я могу оптимизировать для этой цели любые идеи?Как развивать Nutch для лучшей технологии поиска арабского языка?
ответ
Арабский язык имеет 29 алфавитов, некоторые из этих алфавитов имеют под алфавиты, такие как Alif (أ), которые могут иметь разные формы.
, если удался суб- алфавит терпим т.е. разрешить орфографические ошибки на этих символах
например أحمد и احمد и إحمد и آحمد, хотя они имеют разные значения UTF8, вы можете принять их как близкие результаты.
кроме того, если вы можете получить корни из слов, чтобы искать для сингулярности, множественного числа, глаголы, существительные и т.д.
так что если кто-то напечатал قال (сказал), вы можете включить в искомых терминах слова قول (говоря) и (يقول) (сказать) и مقال (поговорка) и т. д. для этого потребуется сложный движок
Наконец, если вы рассматриваете tashkeel (украшения гласных), которые являются необязательными при вводе текста вы могли бы взять более конкретный поиск, но могли бы игнорировать его
eg رجل может соответствовать رجل (то есть человек) или رجل (смысл ходил на ногах) или رجل (нога)
Я надеюсь, что это поможет
возможно индексной части –