4

Я пытаюсь найти способ оценить количество английских слов, с переводом которых будет японский. У японцев есть три основных сценария: Kanji, Hiragana и Katakana - и каждый из них имеет различное среднее соотношение между символами и словами (Кандзи является самым низким, Катакана - самым высоким).Алгоритм для оценки количества слов английского перевода из японского источника

Примеры:

  • Компьютер: コ ン ピ ュ ー タ (катакана - 6 символов);計算機 (Кандзи: 3 знаков)
  • кит: く じ ら (Хирагана - 3 символа);鯨 (кандзи: 1 характера)

В данных, у меня есть большой словарь японских слов и их перевод на английском языке, и довольно большой корпус соответствующих японских исходных документов и их перевода на английском языке. Я хочу придумать формулу, которая будет подсчитывать числа символов Кандзи, Хирагана и Катакана в исходном тексте и оценивать количество английских слов, на которые это может произойти.

ответ

1

Я бы начал с линейного приближения: approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3, с коэффициентами a1, a2, a3, соответствующими вашим данным, используя линейные наименьшие квадраты.

Если это не очень хорошо, посмотрите на наихудшие случаи по причинам, которые они не подходят (специальные слова и т. Д.).

0

Это кажется достаточно простым - вам просто нужно выяснить соотношение.

Для каждого скрипта подсчитайте количество символов сценария и английских слов в глоссарии и определите соотношение.

Это может быть дополнено японскими исходными документами , предполагая, что можно определить, в каком сценарии находится японское слово, и что такое английская эквивалентная фраза в переводе. В противном случае вам придется оценивать коэффициенты или игнорировать это как исходные данные,

Затем, как вы говорите, подсчитайте количество слов в каждом скрипте исходного текста, выполните умножения, и вы должны иметь приблизительную оценку ,

1

Ну, это немного сложнее, чем просто количество символов в существительном по сравнению с английским, например, японцы также имеют другую грамматическую структуру по сравнению с английским, поэтому некоторые предложения будут использовать БОЛЬШЕ слов на японском языке, а другие будет использовать МЕНЬШИЕ слова. Я действительно не знаю японцев, поэтому, пожалуйста, простите меня за использование корейского языка.

На корейском языке предложение часто короче английского предложения, в основном из-за того, что они сокращены, используя контекст, чтобы заполнить недостающие слова. Например, выражение «Я тебя люблю» может быть таким же коротким, как 사랑 이 («саранги», просто глагол «любовь») или до тех пор, пока полностью квалифицированное предложение 저는 당신 이 살앙 이예요 (я [тема] вы [объект ] love [verb + вежливый модификатор]. В тексте, как он написан, зависит от контекста, который обычно задается более ранними предложениями в абзаце.

Во всяком случае, наличие алгоритма на самом деле ЗНАЕТ, что такого рода вещи будут очень сложно, поэтому вам, вероятно, намного лучше, просто используя статистику. Что вы должны сделать, это использовать случайные образцы, где известные японские тексты и английские тексты имеют одинаковое значение. Чем больше образец (и, что более случайным), лучше ... хотя, если они действительно случайны, не будет иметь большого значения, сколько у вас прошло несколько сотен.

Теперь, другое дело, это соотношение полностью изменилось бы на тип текста, переводящегося. Например, высоко технический документ, скорее всего, будет иметь гораздо более высокий коэффициент длины в японском/английском языках, чем унылый роман.

Что касается простого словаря словесных переводов - это, вероятно, не сработает (и, вероятно, неправильно). Одно и то же слово не переводится на одно и то же слово каждый раз на другом языке (хотя гораздо чаще происходит в технических дискуссиях). Например, слово красивое. Существует не только несколько слов, которые я мог бы назначить на корейском языке (т. Е. Есть выбор), но иногда я теряю этот выбор, как в предложении (что еда прекрасна), где я не имею в виду, что выглядит еда хорошо. Я имею в виду, что это на вкус, и мой вариант перевода для этого слова меняется. И это ОЧЕНЬ распространенное обстоятельство.

Другой большой проблемой является оптимальный перевод. Что-то, что люди действительно плохо, и что-то, что компьютеры намного хуже. Всякий раз, когда я корректирую документ, переведенный из другого текста на английский, я всегда вижу различные способы сократить его намного короче.

Так что, со статистикой, вы сможете выработать довольно хорошее среднее соотношение между переводами, это будет далеко не так, как если бы все переводы были оптимальными.

3

Вот что Борланд (теперь Embarcadero) думает о Английском на неанглийский:

Length of English string (in characters)

Expected increase 
1-5  100% 
6-12  80% 
13-20  60% 
21-30  40% 
31-50  20% 
over 50 10% 

Я думаю, что вы можете сортировать применить это (с некоторыми изменениями) для японцев Неяпонского ,

Другим элементом, который вы, возможно, захотите рассмотреть, является тон языка. На английском языке инструкции сформулированы как императив, как в «Нажмите OK». Но на японском языке императивы считаются грубыми, и вы должны формулировать инструкции в почетных (или кейго), как в «ОК ボ タ ン を 押 し て く だ さ い».

Остерегайтесь трехбуквенных комбинаций кандзи. Многие из больших слов переводятся на трех- или четырехбуквенные комбинации кандзи, такие как 国際 化 (интернационализация: 20 символов), 高 可用性 (высокая доступность: 17 символов).

+0

Я не nitpicking, но я думал, вы хотели бы знать, что 押 し て く だ さ い не является почетным; это просто вежливо. – 2008-12-19 13:45:18

+0

@mikemacman, я использовал термин почетный в широком смысле, чтобы включить все три режима keigo, включая sonkeigo, kenjogo и teineigo: http://ja.wikipedia.org/wiki/ 敬 語 – 2008-12-22 00:59:59

+0

Зависит от программного обеспечения; Я вижу много す る こ と или просто し て в таких вещах, как iTunes и Safari. Это, конечно, в сочетании с большим количеством さ せ て い た だ き ま す – 2009-04-09 19:59:59

1

В моем опыте работы переводчика и специалиста по локализации хорошее эмпирическое правило состоит из двух японских символов на английском языке.

1

Как опытный переводчик между японским и английским, я могу сказать, что это очень сложно определить количественно, но, как правило, в моем опыте английский текст, переведенный с японского, почти на 200% больше символов, чем исходный текст. На японском языке существует много специфических для культуры терминов и существительных, которые нельзя перевести буквально и их нужно объяснять на английском языке. При переводе для меня не является чем-то необычным, чтобы принять одно японское предложение и сделать из него единый английский абзац, чтобы смысл был передан читателю. С верхней части моей вот пример:

「懐 か し い」

Это буквально означает ностальгию. Однако на японском языке он может использоваться в качестве одной фразы в восклицании. Тем не менее, на английском языке, чтобы передать чувство ностальгии, нам требуется гораздо больше контекста.Например, вам может потребоваться превратить эту единственную фразу в предложение:

«Когда я шел по моей старой начальной школе, я был залит воспоминаниями о прошлом».

Вот почему машинный перевод между японским и английским невозможен.

0

Мой (хотя и крошечный) опыт показывает, что независимо от того, какой язык, блоки текста занимают одинаковое количество печатного пространства для передачи эквивалентной информации. Таким образом, для крупноячечного блока текста вы можете присвоить каждому столбцу значение ширины для каждого символа на английском языке (возьмите его из обычного шрифта, например Times New Roman), а также используйте общий японский шрифт с одинаковым размером точки, чтобы вычислить количество символов, которое потребуется.