2015-04-26 10 views
2

Японский язык, я считаю, имеет более чем один порядок сортировки, эквивалентный алфавитному порядку на английском языке.Какие японские заказы сортировки/сортировки поддерживаются ICU/CLDR/UCA?

Я считаю, что есть хотя бы один, основанный на произношении (я думаю, что кана использовала два ордера исторически) и один, основанный на числе радикалов + инсульта. У китайцев также есть несколько заказов с одним, основанным на радикале/ударе, но из-за Unicode Han Unification у одного и того же персонажа может быть другой счетчик хода для китайцев и японцев.

Поскольку я считаю, что стандарт для порядка сортировки в Юникоде - это CLDR для данных с UCA для алгоритма, а эталонная реализация - ICU.

Реализации, как правило, отстают от стандартов, и эта информация трудно отследить до канонических источников.

Если я установил колпак со спецификатором языка ja, какой порядок сортировки я должен использовать?

Если несколько доступны для японцев или планируется в какой-то момент, какие спецификаторы должны использоваться для них? Например, спецификатор для традиционного алфавитного порядка испанского языка - es-u-co-trad.

+1

Проблема с Кандзи покрыта [здесь довольно хорошо] (http://www.localizingjapan.com/blog/2011/02/13/sorting-in-japanese-%E2%80%94-an-unsolved- проблема /). –

+0

Да, я уверен, что с препятствиями нет идеального решения, но я все еще хочу знать, сколько решений «хорошо, как мы можем», стандартизированы и названы и какие конкретные ограничения у каждого есть. – hippietrail

ответ

3

Основной японский порядок сортировки обеспечивается CLDR (и, следовательно, СИС) основан на порядке сортировки, указанных в JIS X 4061-1996:

  • Kana сортируются по их gojuuon (五十 音) порядка (с хирагана предшествующего катакан).
  • Kanji сортируются по их заказу в JIS X 0208, что соответствует их «representative reading» (и, следуя всем Канам).

A ja-u-co-unihan Также доступна сортировка, которая включает в себя правила сортировки радикалов по порядку их хода (с последующими стандартными правилами выше). Это полезно только в том случае, если вы на самом деле сортируете радикалы.

Если вам нужна более точная сортировка кандзи - например, путем чтения слов, в которых они используются, вам потребуется выполнить какой-то морфологический анализ со словарем, чтобы выяснить, какие показания использовать, а затем примените алгоритм сортировки Unicode для них.

+0

Спасибо за информацию! Я предоставляю расширение для сортировки списка для Викисловаря и должен позволить японским экспертам узнать, что такое параметры, и может ли их предпочтительный порядок сортировки делать автоматически. Что указано для символов CJKV, не охватываемых 'JIS X 4061-1996', если он не охватывает все символы han? – hippietrail

+1

Все остальные символы CJKV (только «6,355») относятся к порядку по умолчанию (кодовая точка); после Кана и всех отсортированных Кандзи. Это примерно радикально, а затем количество штрихов (но это ломается, когда рассматриваются блоки расширения и совместимости). –

+0

На самом деле для китайского случая мне сказали, что я неправильно сортировал после реализации сортировки по умолчанию CLDR через API браузера/DOM. Английский Викисловарь сортирует Китайский по пиньинь в алфавитном порядке. Я забываю, какой заказ CLDR сделал по умолчанию, возможно, радикальный/ударный.Я не узнал, могу ли я передать какой-либо параметр, чтобы получить другой китайский порядок сортировки. – hippietrail