1

В настоящее время я работаю над чем-то, где я пытаюсь перевести абзац, который содержит несколько языков.неправильное определение языка с помощью google translate (несколько языков)

Теперь я понял, с Google Translate API, если у нас есть позволяет сказать: hello bye hola будет определять язык, как английский и если его: hello hola adios, то он обнаружит испанский.

Таким образом, в зависимости от того, какой язык имеет наивысшее количество слов в предложении/параграфе, он обнаружит этот язык. Теперь самое смешное, что в google translate у них есть эта функция.

Есть ли способ устранить эту проблему, чтобы она обнаружила только иностранный язык, а не английский?

ответ

1

Нет, это невозможно сделать с помощью API-интерфейса Google Translate, потому что в их открытом API нет механизма для этого.

Если вы используете библиотеку обнаружения альтернативных языков, вы можете определить порог, по которому можно удалить содержимое менее представленного языка. Это позволит вам удалить английский контент, если он составляет менее, скажем, 30% текста в вашей общей выборке.

Например, см. Класс RemoveMinorityScriptsTextFilterTest в проекте optimaize/language-detector.

 Смежные вопросы

  • Нет связанных вопросов^_^