Выберите 1000 различных имен из 100 миллионов записей по стандарту sql

У меня есть таблица tb_FirstName с одним полем FirstName. Таблица содержит 100 миллионов ненулевых записей с большим количеством повторений, например. Джон встречается 2 миллиона раз. Различный счет FirstName составляет более 2 миллионов.Выберите 1000 различных имен из 100 миллионов записей по стандарту sql

Как выбрать 1000 различные имена как можно быстрее, используя стандартный SQL?

настоящее время я использую следующие, но это

Tsql

Может быть, не так эффективно, как это могло быть.

SELECT x.FirstName 
FROM (
    SELECT FirstName, 
      rnk = RANK() OVER (ORDER BY Firstname) 
    FROM WHData.dbo.tb_DimUserAccount A 
    GROUP BY FirstName 
    ) x 
WHERE rnk <=1000

источник

2013-03-29 whytheq

Вы могли бы найти это полезным http://stackoverflow.com/questions/595123/is -there-ansi-sql-alternative-to-the-mysql-limit-keyword, но могу ли я спросить, каково намерение иметь таблицу tb_FirstName, полную дубликатов? – bummi

@bummi этот вопрос является уменьшенным примером реальности - таблица фактически имеет 30 полей, но не нужно включать это в вопрос – whytheq

100MM имен? звучит как спам/база данных маркетинга личной информации ... не уверен, если вам помочь или нет –

Похоже, вы могли бы использовать TOP 1000 с DISTINCT:

SELECT DISINCT TOP 1000 FirstName 
FROM WHData.dbo.tb_DimUserAccount 
ORDER BY FirstName

Condensed SQL Fiddle Demo

источник

2013-03-29 11:40:09 sgeddes

+1 так же просто - спасибо – whytheq

@whytheq - np, рад, что мы сможем помочь! – sgeddes

Убедитесь, что индекс, определенный на FirstName.

SELECT TOP 1000 FirstName 
FROM (SELECT DISTINCT FirstName 
FROM dbo.tb_DimUserAccount) N 
ORDER BY FirstName

источник

2013-03-29 11:39:28 Nick

Отсутствие улучшения производительности, поскольку в подзапросе выполняется полное сканирование таблицы. Это то же самое, что и сообщение. –

Правда, сканирование полного стола по-прежнему требуется, но производительность несколько лучше, чем пост – Nick

Вам нужны данные после сортировки результатов по FirstName полей.

Для этого требуется полное сканирование таблицы, если индекс не создан. Если Index создается по первому имени, то уникальное сканирование индекса может улучшить время.

источник

2013-03-29 11:41:12

Индекс не обязательно является уникальным. – Oybek

2+ Джон не является редким сценарием – Oybek

Мы не можем поместить кластерный индекс, поэтому уникальный индекс будет иметь лучшую производительность, а не обычный некластеризованный индекс. –

Попробуйте

SELECT TOP 1000 FirstName FROM 
(SELECT 
ROW_NUMBER() OVER(PARTITION BY FirstName ORDER BY FirstName) NO, 
FirstName FROM WHData.dbo.tb_DimUserAccount) 
    AS T1 WHERE no =1

или

SELECT DISINCT TOP 1000 FirstName 
FROM WHData.dbo.tb_DimUserAccount ORDER BY FirstName

источник

2013-03-29 11:43:33 Harshil

Второй подход очень привлекателен. Это аккуратно и точно. Плюс это очень читаемо. – Oybek

OP запрашивает стандартный SQL, а 'ROW_NUMBER() OVER (PARTITION ...' выглядит как функция tSQL. – Artemix

+1 для второго подхода - мне нравится ANSI – whytheq

Вариант с GROUP BY п

SELECT TOP 1000 FirstName 
FROM WHData.dbo.tb_DimUserAccount 
GROUP BY FirstName 
ORDER BY FirstName

источник

2013-03-29 11:53:22

Выберите 1000 различных имен из 100 миллионов записей по стандарту sql

ответ

Смежные вопросы