Пожалуйста, помогите мне построить частотную таблицу пар слов из таблицы с 100 млн записей, которая работает на SQL Server 2008 db. Таблица выглядит следующим образом:скрипт для создания пар слов частоты на 100 млн. DB
Original table
id |source |comment(255)
-------------------
1 A1 review budget limitation
источник некоторого ID, который может иметь около 800 различных значений. Распределение источников в исходной таблице экспоненциально. Это означает, что количество записей с источником A1 может составлять 20 миллионов, а A500 - всего 10 000.
В финале я хотел бы получить таблицу пары слов по частоте с игнорированием словами: , и, к, а, я, это, в, или, является
Как я ожидал, что он должен работать (я мог бы быть не оптимальным здесь):
- прочитал первые два слова из комментария в исходной таблице, поместите его в ЧАСТОТЫ
- прочитать следующие два слова и положил его
Таблица частот
id | word pairs | source |Frequency
---------------------------------------------
1 review budget A1 1
2 budget limitation A1 1
- Заполните полный комментарий от первой записи, имеющей, например, источник A1
- начала следующей записи и обработать его таким же образом.
- Если он найден, то такие же пары слов уже существуют в таблице частот, а источник - это то же самое, что просто увеличение частоты, если источник отличается - добавьте эту пару с новым источником.
Помогите мне с оптимальным сценарием sql для SQL Server?
Какое максимальное количество слов вы можете иметь в комментарии? –
комментарии ограничены в 255 символах. – AntarcticIce
Сколько слов среди этих символов? В вашем примере у вас три. –