Слово нарушение для языков, упомянутых требуют лингвистического подхода, например, тот, который использует словарь наряду с пониманием основного правил, вытекающих.
Я слышал об относительно успешных приложениях полнотекстового поиска, которые просто разделяют каждый отдельный символ как отдельное слово на китайском языке, просто применяя ту же «токенизацию» критериев поиска, предоставляемых конечными пользователями. Затем поисковая система обеспечивает лучший рейтинг для документов, которые снабжают символы-слова в том же порядке, что и критерии поиска. Я не уверен, что это может быть распространено на такие языки, как японский, поскольку наборы символов Хиракана и Катаганы делают текст более похожим на европейские языки с коротким алфавитом.
EDIT:
Ресурсы
Это слово ломать проблемы, а также связанные с ними вопросы, так нетривиальной, что целые книги написаны об этом. См. Например, CJKV Information Processing (CJKV означает китайский, японский, корейский и вьетнамский языки, вы также можете использовать ключевое слово CJK, поскольку во многих текстах вьетнамский язык не обсуждается). См. Также Word Breaking in Japanese is hard для одного пейджера на эту тему.
Понятно, что большинство материалов, охватывающих эту тему, написано на одном из основных языков на родном языке и поэтому ограничено для людей без относительной владения этими языками. По этой причине, а также чтобы помочь вам проверить систему поиска, как только вы начнете внедрять логику прерывания слова, вам следует обратиться за помощью к носителю или двум носителям.
Различные идеи
Ваша идея идентифицирующих признаков, которые систематически подразумевают слово разорвать (скажем, цитаты, круглые скобки, дефис, как символы и такие) хорошо, и это, вероятно, один эвристический используется некоторыми из профессиональные разрывы слов. Тем не менее, вы должны искать авторитетный источник для такого списка, а не собирать его с нуля, основываясь на анекдотических выводах.
Родственная идея заключается в том, чтобы разбить слова на Kana-к-кандзи переходы (но я предполагаю, что не наоборот), и, возможно, в хирагане-к-катакан или наоборот переходов.
Несвязанный со сломанным правильным, индекс может [-или не может- ;-)] извлекать выгоду из систематического преобразования каждого, скажем, характера хираганы, в соответствующий характер катакана. Просто необразованная идея! Я не знаю достаточно о японском языке, чтобы знать, поможет ли это; интуитивно, это было бы слабо связано с систематической конверсией подчеркнутых букв и, таким образом, в соответствующее не акцентированное письмо, как это практикуется на нескольких европейских языках.
Возможно, идея, о которой я упоминал ранее, систематически индексировать индивидуальный характер (и ранжировать результаты поиска на основе их приближения по критерию поиска) может быть слегка изменена, например, сохраняя последовательные символы каны вместе, а затем некоторые другие правила ... и создать несовершенную, но достаточно практичную поисковую систему.
Не разочаровывайтесь, если это не так ... Как указано, это далеко не тривиально, и это может сэкономить вам время и деньги в долгосрочной перспективе, сделав паузу и прочитав книгу или две. Еще одна причина, чтобы попытаться узнать больше о «теории» и передового опыта, является то, что в данный момент вы, кажется, сосредоточены на слова нарушения, но в ближайшее время, поисковая система также может извлечь выгоду из вытекающих сознательность ; действительно, эти два вопроса, по крайней мере, связаны с лингвистикой, и могут быть полезны при обработке в тандеме.
Удачи вам в этом неприятном, но достойном стремлении.
Другие современные языки, которые не используют пробелы между словами тайский, Лао, кхмерский (камбоджийский), и бирманский (Мьянма). На вьетнамском языке существует связанная с этим проблема, что пробелы используются между всеми слогами, за исключением иностранных слов. – hippietrail