Ну, корпус текстов очень большой и без тщательной и всесторонней предварительной обработки, ни хороших вычислительных экземпляров (то есть много памяти и хороших ЦП), расчет TF-IDF может принять много времени.
Что вы можете сделать:
Ограничьте текст корпус некоторых сто тысяч образцов (скажем 200.000 текстов). Слишком много текстов не может вводить больше различий, чем гораздо меньшие (но разумные) наборы данных.
Попробуйте preprocess ваши тексты как можно больше. Основным подходом будет: токенизация ваших текстов, использование стоп-слов, словосочетание, использование тщательно n_grams. После того как вы сделали все эти шаги, посмотрите, насколько вы уменьшили размер своего словаря. Он должен быть намного меньше оригинального.
Если вы не слишком большой (говоря о вашем наборе данных), эти шаги могут помочь вам вычислить TF-IDF намного быстрее.