2010-05-22 8 views
9

В области интеллектуального анализа данных существует ли определенная поддисциплина под названием «сходство»? Если да, с чем это связано. Любые примеры, ссылки, ссылки будут полезны.«Сходство» в области интеллектуального анализа данных

Кроме того, будучи новым в области, я хотел бы, чтобы мнение сообщества о том, насколько тесно связаны интеллектуальный анализ данных и искусственный интеллект. Являются ли они синонимами, является ли это подмножеством другого?

Заранее благодарим за то, что поделились своими знаниями.

+0

Связанные: http://stackoverflow.com/questions/3007790/ выяснение-ближайший матч – Betamoo

ответ

9

В области интеллектуального анализа данных существует ли определенная поддисциплина под названием «сходство»?

Да. Существует определенное подполе в области интеллектуального анализа данных и машинного обучения, называемое метрическим обучением, целью которого является изучение лучшей метрики расстояния среди экземпляров данных.

Вы знаете какие-либо из следующих концепций?

Euclidean distance

Mahalanobis distance

Pearson correlation

Cosine similarity и here

функции ядра

После вы знаете это, вы будете знать, что такое 'сходство'.

Я бы хотел, чтобы мнение сообщества о том, насколько тесно связаны интеллектуальный анализ данных и искусственный интеллект.

Очень сложно отличить, что такое интеллектуальный анализ данных, что такое ИИ. Не обсуждайте этот вопрос, когда вы новичок в этой области. Когда вы узнали 10 алгоритмов в области интеллектуального анализа данных и прочитали некоторые книги AI, вы узнаете разницу и отношение.

2

Соответствующие определения «сходства» (которые вы извлекаете, что вы делаете с ними впоследствии) являются почти определением кластеризации, а кластеризация является довольно широким под-полем интеллектуального анализа данных.

Если вы сделаете стандартное циничное определение ИИ как совокупность проблем, которые мы не можем решить хорошо (действительно, мы не можем указать достаточно хорошо, чтобы начать решение), интеллектуальный анализ данных в него закрашивается как раз в пространстве, в котором вы ищете корреляции, начинает быть больше, чем могут справиться ваши алгоритмы.

2

Просто подчеркнуть важность концепции «подобия».

Разработка данных (AI, машинное обучение, моделирование и т. Д.) Заключается в приведении некоторой функции к максимальной или минимальной величине. Возьмите лучший алгоритм оптимизации/обучения/разработки и неправильную функцию, и вы получите полный мусор. Обратите внимание, что мы используем «value», а не «valueS». Это потому, что нет (для моего лучшего знания) алгоритма (вычислительного или другого), который способен оптимизировать более одного значения. Однако в нашей Вселенной сложные оптимизации более часты, чем одномерные (мы хотим быть богатыми и молодыми И здоровыми). Вот почему существует множество сходств и других функций подсчета очков.И поэтому ни один из них не является «правильным»

1

Сходство - это концепция, которая используется в нескольких задачах интеллектуального анализа данных, таких как кластеризация, классификация. В зависимости от того, какие данные у вас есть, вы можете использовать различные методы сходства, такие как сходство с косинусом для текстовых документов, эвклидовое расстояние и т. Д.

0

В процессе интеллектуального анализа данных имеется множество измерений сходства. для извлечения текста, чтобы найти сходство в текстах, косинус сходство, Jaccard сходства широко используется

Для справки, вы можете увидеть Рагаван и поиск информации amnnings книги