3

Я не программист, скорее студент юридического факультета, но сейчас я изучаю проект, связанный с искусственным интеллектом и авторским правом. В настоящее время я смотрю, может ли процесс обучения алгоритма машинного обучения быть нарушением авторских прав, если алгоритм использует защищенную работу. Однако это зависит от того, копирует ли алгоритм работу или что-то еще.Алгоритм машинного обучения копирует данные, из которых он узнает?

Может ли кто-нибудь сказать мне, могут ли алгоритмы машинного обучения копировать данные (изображение/текст/видео/и т. Д.), Которые они анализируют (хотя бы ненадолго), или если они могут получить требуемую информацию из данных через другие методы, которые не требуют копирования (сродни человеку, который смотрит на знак остановки и распознает его как знак остановки, не обязательно копируя изображение).

Извинения за недостаток знаний, и я сожалею, если какое-либо из моих объяснений летит перед лицом любого установленного знания о механизме обучения. Как я уже сказал, я просто скромный студент.

Заранее благодарен!

ответ

0

Это зависит от того, что вы подразумеваете под словом «копия». Если вы запустите какую-либо программу, она скопирует данные с жесткого диска в ОЗУ для обработки. Я предполагаю, что это не то, что вы имели в виду.

Итак, предположим, что у вас есть данные, защищенные авторским правом, на конкретной машине, и вы запускаете алгоритмы обучения компьютера на данных, тогда нет никаких оснований для того, чтобы алгоритм мог копировать данные из машины.

С другой стороны, если вы используете услугу облачного ML (AWS/IBM Bluemix/Azure), вам необходимо загрузить данные в облако, прежде чем вы сможете запускать алгоритмы ML. Это означает, что вы копируете данные.

Надеюсь, это навесит больше света!

Младший ученик ML

2

Обычно нет. Первое, что типичные алгоритмы ML делают со своими входами, - это не копировать и не хранить их, а вычислять что-то на основе этого, а затем забывать оригинал. И это справедливое описание того, что делают нейронные сети, алгоритмы регрессии и статистические методы. В мейнстримовом ML нет «эйдетической памяти». Я предполагаю, что все это будет продаваться как база данных или механизм полного индексирования текста или что-то подобное.

Но как вы представите свои данные алгоритму, работающему на машине, без предварительного копирования данных на эту машину?

+0

Спасибо за Ваш ответ Крис. С точки зрения того, как алгоритм получает данные, в случае, когда ему задан определенный набор данных, это может быть лицензировано у владельцев авторских прав для этой цели и не должно создавать слишком много сложных юридических проблем. Меня больше интересует то, что алгоритм непреднамеренно использует защищенную работу, которая не была лицензирована, и является ли это нарушением авторских прав. Возможно ли, чтобы алгоритм выполнял или всегда работает на основе определенного набора данных обучения? –

+0

расшириться на «непреднамеренно использует»? Если он представлен алгоритму в качестве обучающих данных, то он не является непреднамеренным.Если это видно из использования после тренировки - ах, это сложно. В настоящее время основной (не все) подход заключается в том, чтобы * не * учиться или помнить после обучения (хотя я бы не стал делать ставку на то, что он оставался основным приходом через 5-10 лет). –

+0

Я предполагаю, что мой главный вопрос заключается в том, сможет ли алгоритм машинного обучения использовать данные во время обучения, которые не были явно предоставлены ему? Например, возможно ли, как программист установить мой алгоритм, чтобы тралить Интернет на фотографии знаков остановки, чтобы получить как можно больше данных для обучения? –

3

Несколько алгоритмов машинного обучения фактически сохраняют копию обучающего набора, например k-ближайших соседей. См. https://en.wikipedia.org/wiki/Instance-based_learning. Не все это делают; на самом деле это обычно считается недостатком, потому что набор для обучения может быть большим.

Кроме того, компьютеры также построены вокруг множества различных хранилищ данных разных размеров и скоростей. Обычно они копируют данные, которые они работают, в небольшие быстрые магазины, пока они работают над ним, потому что более крупные магазины занимают гораздо больше времени, чтобы читать и писать. Один из многих возможных примеров этого был предметом правовых споров, о которых я мало знаю - см., Например, https://law.stackexchange.com/questions/2223/why-does-browser-cache-not-count-as-copyright-infringement и другие для авторского права браузера. Если компьютер добавил два номера, он, безусловно, сохранит их во внутренней памяти. Очень вероятно, что он сохранит хотя бы один из них в так называемых внутренних регистрах - очень маленькая очень быстрая память, предназначенная для хранения чисел, над которыми нужно работать.

Если компьютер для обработки классифицированных данных используется для обработки классифицированных данных, обычно считается, что он считается классифицированным с того времени, что делает предположение о том, что оно могло бы содержать некоторую копию любого данных, которые он использовал для обработки, даже если извлечение этих данных из этого на практике потребует большого количества специализированных специалистов со специализированным оборудованием.

0

Некоторые из компьютеров копируют набор данных, такой как KNN. К сожалению, такие алгоритмы обычно не используются на практике, потому что их нельзя масштабировать для большого набора данных.

Большинство алгоритмов ML используют набор данных для идентификации шаблона, поэтому распознавание образов - это еще одно название для машинного обучения. Шаблон почти всегда намного меньше (с точки зрения памяти и переменных и т. Д.), Чем исходный набор данных.

2

Выполняет ли алгоритм машинного обучения копирование данных, из которых он учится?

Существует множество различных алгоритмов машинного обучения. Если вы говорите о k nearest neighbor (k-NN), тогда ответ будет просто да.

Однако k-NN редко используется. Большинство (все?) Других моделей не так просты. Обычно разработчик машинного обучения хочет, чтобы данные обучения были сжаты (много, потеряно) моделью по нескольким причинам: (1) Объем учебных данных большой (много GB), (2) Обобщение может быть лучше, если данные обучения сжаты (3) вывод новых примеров может занять очень много, если данные не сжаты. («Сжатие», я имею в виду, что соответствующая информация для задачи извлекается, а ненужные данные удаляются. Не сжатие в обычном смысле.)

Для других моделей, чем k-NN, ответ более сложный. Это зависит от от того, что вы считаете «копией». Например, из искусственных нейронных сетей (особенно подтип convolutional neural networks, короткий: CNN) данные обучения могут быть частично восстановлены. Эти модели современны для многих (все?) Задач компьютерного видения.

Я не могу найти документы, которые показывают, что вы можете (частично) восстанавливать/извлекать данные обучения из CNN с упором на возможные проблемы конфиденциальности/защиты авторских прав, но я ~ 70% уверены, что прочитал реферат по этой проблеме , Я думаю, что я также слышал разговор, где исследователь сказал, что это является проблемой при создании детектора для детской порнографии. Тем не менее, я не думаю, что это было записано или что-то опубликовано об этом.

Вот два документа, которые свидетельствуют о том, что восстановление подготовки данных CNNs может быть возможным: