У меня есть задача анализа настроений, и мне нужно указать, сколько данных (в моем случае текст) может обрабатывать weka. У меня есть корпус из 2500 мнений, уже отмеченных. Я знаю, что это небольшой корпус, но мой советник по тезису просит меня конкретно рассказать о том, сколько данных может обрабатывать Века.Сколько текста может обрабатывать Weka?
ответ
Ваше ограничение с помощью Weka будет на любом алгоритме обучения, который вы используете, и сколько памяти у вас есть для обучения. Большинство классификаторов требуют, чтобы весь набор был загружен в память для обучения, но есть опции для потоковой передачи данных. См. the weka page on big data для получения дополнительной информации.
Для такого набора данных, как у вас, у вас не возникнет никаких проблем. Тем не менее, при любой большой проблеме с данными вы попадаете в точку, где вы больше не можете просто сценарировать ее на одной машине. С Weka это ничем не отличается, и есть способы заставить его работать, как только вы доберетесь туда. Насколько мне известно, нет жесткого ограничения на объем данных, с которыми вы сможете справиться, учитывая достаточные аппаратные ресурсы, время и изобретательность.