Ну, это немного сложнее, чем просто количество символов в существительном по сравнению с английским, например, японцы также имеют другую грамматическую структуру по сравнению с английским, поэтому некоторые предложения будут использовать БОЛЬШЕ слов на японском языке, а другие будет использовать МЕНЬШИЕ слова. Я действительно не знаю японцев, поэтому, пожалуйста, простите меня за использование корейского языка.
На корейском языке предложение часто короче английского предложения, в основном из-за того, что они сокращены, используя контекст, чтобы заполнить недостающие слова. Например, выражение «Я тебя люблю» может быть таким же коротким, как 사랑 이 («саранги», просто глагол «любовь») или до тех пор, пока полностью квалифицированное предложение 저는 당신 이 살앙 이예요 (я [тема] вы [объект ] love [verb + вежливый модификатор]. В тексте, как он написан, зависит от контекста, который обычно задается более ранними предложениями в абзаце.
Во всяком случае, наличие алгоритма на самом деле ЗНАЕТ, что такого рода вещи будут очень сложно, поэтому вам, вероятно, намного лучше, просто используя статистику. Что вы должны сделать, это использовать случайные образцы, где известные японские тексты и английские тексты имеют одинаковое значение. Чем больше образец (и, что более случайным), лучше ... хотя, если они действительно случайны, не будет иметь большого значения, сколько у вас прошло несколько сотен.
Теперь, другое дело, это соотношение полностью изменилось бы на тип текста, переводящегося. Например, высоко технический документ, скорее всего, будет иметь гораздо более высокий коэффициент длины в японском/английском языках, чем унылый роман.
Что касается простого словаря словесных переводов - это, вероятно, не сработает (и, вероятно, неправильно). Одно и то же слово не переводится на одно и то же слово каждый раз на другом языке (хотя гораздо чаще происходит в технических дискуссиях). Например, слово красивое. Существует не только несколько слов, которые я мог бы назначить на корейском языке (т. Е. Есть выбор), но иногда я теряю этот выбор, как в предложении (что еда прекрасна), где я не имею в виду, что выглядит еда хорошо. Я имею в виду, что это на вкус, и мой вариант перевода для этого слова меняется. И это ОЧЕНЬ распространенное обстоятельство.
Другой большой проблемой является оптимальный перевод. Что-то, что люди действительно плохо, и что-то, что компьютеры намного хуже. Всякий раз, когда я корректирую документ, переведенный из другого текста на английский, я всегда вижу различные способы сократить его намного короче.
Так что, со статистикой, вы сможете выработать довольно хорошее среднее соотношение между переводами, это будет далеко не так, как если бы все переводы были оптимальными.
Я не nitpicking, но я думал, вы хотели бы знать, что 押 し て く だ さ い не является почетным; это просто вежливо. – 2008-12-19 13:45:18
@mikemacman, я использовал термин почетный в широком смысле, чтобы включить все три режима keigo, включая sonkeigo, kenjogo и teineigo: http://ja.wikipedia.org/wiki/ 敬 語 – 2008-12-22 00:59:59
Зависит от программного обеспечения; Я вижу много す る こ と или просто し て в таких вещах, как iTunes и Safari. Это, конечно, в сочетании с большим количеством さ せ て い た だ き ま す – 2009-04-09 19:59:59