Выньте свой набор Scrabble, запишите оценки для каждой буквы, суммируйте оценки за слово, эй, у вас есть свой алгоритм. Не уверен, что он полностью удовлетворяет вашим требованиям, но он может указать вам в полезном направлении. Например, вы можете присвоить оценки не только отдельным буквам, но также и ди- и триграмм.
Я не знаю ни одного существующего источника необходимой вам информации, возможно, вы могли бы придумать свои собственные баллы, изучив клавиатуру и присвоив более высокие баллы более трудным буквам: так что 1 для 'a', 8 для 'q', 2 для 'm' и т. Д.
EDIT: Я, кажется, смутил людей больше, чем обычно, когда я отвечаю на SO. Вот основные черты моего предложения:
a) Список всех триграмм и диграмм, которые происходят на английском (или на вашем языке). Каждому из них присваивается сложный балл. Сделайте то же самое для отдельных букв (ведь буква из 4 букв может состоять из триграммы и буквы, а не двух цифр).
b) Оцените сложность ввода слова как суммы сложности ввода его компонентов.
Что касается оценки сложности, у меня нет подсказки, но вы можете начать с 1 для письма на домашних клавишах на клавиатуре, 2 для буквы, которая использует указательные пальцы, но не является домашним ключом, 3 для письма, которое использует 2 или 3 пальца на руке и так далее. Затем для диграмм, забивайте низкие для простых букв слева и справа (или справа и слева) последовательно, высоко для сложных букв с одной стороны в последовательности (например, qz, хотя это, возможно, не подходит для английского). И по тебе.
Может быть, если вы читали о логике позади клавиатуры Dvorak, это может помочь вам. – ruslik 2010-12-16 10:02:22
Грубым решением было бы получить данные о ошибках ввода (обсуждалось http://stackoverflow.com/questions/1801647/what-is-the-best-source-for-typo-statistics) и выработать коэффициент ошибок для каждого ключ. Это проблематично, потому что опечатки часто являются контекстуальными (транспозиции, путаница между похожими словами, общие окончания и т. Д.). Чтобы принять во внимание какой-то контекст, вы можете сделать вместо этого 2 грамма (коэффициент ошибок для каждой клавиши, следующей за каждым другим ключом). – 2010-12-16 10:28:40