Представьте у вас есть набор из пяти элементов (АЭ) с некоторыми числовыми значениями измеряемой собственности (несколько наблюдений для каждого элемента, например, «сердечный ритм»):Эффективный алгоритм для определения различных элементов в коллекции
A = {100, 110, 120, 130}
B = {110, 100, 110, 120, 90}
C = { 90, 110, 120, 100}
D = {120, 100, 120, 110, 110, 120}
E = {110, 120, 120, 110, 120}
Первый, я должен определить, существуют ли существенные различия на средних уровнях. Поэтому я запускаю один путь ANOVA, используя Statistical package provided by Apache Commons Math. Никаких проблем до сих пор, я получаю логическое значение, которое говорит мне, существуют ли различия или нет.
Второй, если различия найдены, мне нужно знать элемент (или элементы), который отличается от остальных. Я планирую использовать unpaired t-tests, сравнивая каждую пару элементов (A с B, A с C .... D с E), чтобы узнать, отличается ли элемент от другого. Таким образом, на данный момент у меня есть информация о списке элементов, которые представляют существенные различия с другими, например:
C is different than B
C is different than D
Но мне нужен общий алгоритм для эффективного определения, с той информацией, какой элемент отличается другие (C в примере, но могут быть более одного).
Оставив статистические вопросы в стороне, вопрос может быть (в общих чертах): «Учитывая информацию о равенстве/неравенстве каждой из пар элементов в коллекции, как бы вы могли определить элемент/s, который является/отличаются от других? "
Кажется, проблема, в которой может применяться теория графов. Я использую язык Java для реализации, если это полезно.
Редактировать: Элементы - это люди, а измеренные значения необходимы для выполнения задачи. Мне нужно определить, кто принимает слишком много или слишком мало времени для выполнения задачи в какой-то системе обнаружения мошенничества.
Очень хорошо отформатированный вопрос. Зависит от того, что вы подразумеваете под другим элементом. Вы имеете в виду элемент с самыми разностными краями? На примере графика, который вы представили до сих пор, кажется, вы просто ищете элемент с наивысшей степенью? – Pace
Не могли бы вы рассказать о своем определении «разных» или «существенных различий»? Наивный подход сказал бы, что все по-другому. Но, очевидно, это не то, что вам нужно. – sfussenegger
@sfussenegger Спасибо. Под «разными элементами» я подразумеваю элементы, среднее значение которых для измеренного свойства отличается в статистических терминах. То есть, когда статистически значимое различие обнаруживается с заданным интервалом доверия (типично 95%). http://en.wikipedia.org/wiki/Statistical_significance –