Я работаю над проектом биометрической аутентификации нажатия клавиш. Это похоже на оболочку поверх вашей традиционной аутентификации на основе пароля. Если пароль прав, он проверяет «ввод-ритм» и дает положительный результат, если он соответствует профилю пользователя. Кроме того, дается отрицательный результат. «Typing-rhythm» проверяется путем сопоставления некоторых характеристик времени, которые извлекаются при вводе пароля. Существует, по существу, 5 функций: PP (Press-Press time), PR (Время отпускания), RP (Release-Press time), RR (Release-Release time) и Общее время. PP - время между нажатием двух последовательных клавиш (символов). RR - время между отпусканием двух последовательных клавиш. PR - это время, в течение которого клавиша была нажата и отпущена. RP - время между отпусканием клавиши и последующим нажатием следующей клавиши. Общее время - это время между нажатием первой клавиши пароля и отпусканием последней клавиши пароля.Как представить, а затем загрузить пользовательский набор данных с различным количеством столбцов для некоторых записей в sci-kit learn
Я использую открытую базу данных GREYC-Web based KeyStroke dynamics для проекта. Каждый сеанс сбора данных содержит значение ASCII нажатой клавиши и временную метку для PP, PR, RP, RR и общее время. Он также содержит ли пользователь вводит пароль или самозванец. Собирая данные, пользователям было разрешено использовать собственный пароль. Естественно, есть пароли различной длины. Кроме того, пользователь может нажимать дополнительные клавиши (например, Shift, Caps, Backspace, Delete и т. Д.). Даже для определенного пользователя разные сеансы ввода пароля могут иметь разную длину пароля. Примечание. Длина пароля в этом контексте - это общее количество ключей (символов), которые пользователь вводил. Например, если фактический пароль пользователя «abcd». В одном сеансе он правильно вводит его, а длина пароля равна 4. В другом сеансе он набирает следующий набор ключей: a, l, BACKSPACE, b, c, d- и, следовательно, длина пароля равна 6.
Вот несколько контекстов предлагаемой системы. Предложенная блок-схема системы следующая. Раздел «Input Feature Part Partition» создает подмножества фактической базы данных, которые будут передаваться в разные классификаторы, а именно: гауссовый, K-NN и OCSVM. Выходы этих классификаторов передаются в Back-Propogation Neural Network (BPNN), результатом которого является конечный результат. BPNN используется для наказания тех классификаторов, которые дают неправильный результат и вознаграждают те классификаторы, которые дают правильный результат.
Мой вопрос заключается в том, как представить эти переменные данные длины в структурированном формате, чтобы его можно было обрабатывать и использовать в научном исследовании sci-kit.
Я изучил панду и numpy для предварительной обработки данных. Но моя проблема предшествует стадии предварительной обработки.
Спасибо, заранее!