У меня есть большая разреженная матрица, представляющая атрибуты для миллионов объектов. Например, одна запись, представляющая объект, может иметь атрибуты «имеет (мех)», «имеет (хвост)», «makeSound (мяу)» и «is (cat)».Масштабируемый классификатор для поиска отсутствующих атрибутов
Однако эти данные являются неполными. Например, другой объект может иметь все атрибуты типичного объекта «is (cat)», но может отсутствовать атрибут «is (cat)». В этом случае я хочу определить вероятность того, что этот объект должен иметь атрибут «is (cat)».
Таким образом, проблема, которую я пытаюсь решить, - определить, какие отсутствующие атрибуты должны содержать все сущности. Учитывая произвольную запись, я хочу найти верхние N наиболее вероятных атрибутов, которые отсутствуют, но должны быть включены. Я не уверен, что такое формальное имя для такого типа проблем, поэтому я не уверен, что искать при исследовании текущих решений. Существует ли масштабируемое решение для этого типа проблемы?
Прежде всего, мы просто вычислим условную вероятность для каждого отсутствующего атрибута (например, P (is (cat) | имеет (мех) и имеет (хвост) и ...)), но это похоже на очень медленный подход , Плюс, поскольку я понимаю традиционный расчет условной вероятности, я предполагаю, что столкнулся с проблемами, когда моя сущность содержит несколько необычных атрибутов, которые не являются общими для других, - это (cat) сущности, в результате чего условная вероятность равна нулю.
Моя вторая идея - подготовить классификатор Maximum Entropy для каждого атрибута, а затем оценить его на основе текущих атрибутов сущности. Я думаю, что вычисление вероятности будет гораздо более гибким, но это все равно будет иметь проблемы с масштабируемостью, так как мне придется обучать отдельные классификаторы для потенциально миллионов атрибутов. Кроме того, если бы я хотел найти верхние N наиболее вероятных атрибутов для включения, мне все равно придется оценивать все классификаторы, которые, вероятно, будут навсегда.
Есть ли лучшие решения?
Отличная перефразировка моей проблемы. – Cerin