-2

Я хочу написать Learning Algo, который может автоматически создавать резюме статей.Подведение итогов Algo для романов: Обученное обучение

например, есть фантастические романы (одна категория рассматривается как фильтр) в формате PDF. Я хочу сделать автоматизированный процесс создания сводки. Мы можем предоставить некоторые выборочные данные для его реализации в контролируемом подходе к обучению. Просьба предложить мне, как я могу реализовать это правильно.

Я новичок & Я преследую курс Эндрю Нг и знаю некоторые общие алгоритмы (линейная рег, логистика, нейронная сеть) + курсы Udacity Statistics и готов погрузиться в НЛП, глубокое обучение и т. Д., Но мотивом является решение это. :) Заранее благодарен

+3

это широкая и нерешенная тема. Я не думаю, что это хорошая идея для решения этой проблемы, являющейся новичком. Если вы действительно чувствуете, что вам нужно - просто пойдите в любой недавний документ по этой теме и попытайтесь переопределить их идею (как я уже сказал - это широкая и нерешенная проблема, есть проблемы с «решениями», которые делают что-то, а не одно который ** действительно работает **). – lejlot

ответ

3

Ключевое слово: Automatic Summarization.

Вообще, существует два подхода к автоматическому обобщению: добычи и абстракция.

  • Добывающие методы работают, выбирая подмножество существующих слов, фраз или предложений в исходном тексте для формирования сводки.
  • Абстрактные методы строят внутреннее семантическое представление, а затем используют методы генерации естественного языка, чтобы создать сводку, которая ближе к тому, что может генерировать человек.

Абстрагирующее обобщение намного сложнее. Интересный подход описан в статье A Neural Attention Model for Abstractive Sentence Summarization: Александр М. Раш, Сумит Чопра, Джейсон Уэстон (исходный код на основе статьи here).

А «простой» подход используется в Word (AutoSummary Tool):

AutoSummarize определяет ключевые моменты путем анализа документа и присвоения баллов каждого предложения. Предложения, содержащие слова, используемые часто в документе, получают более высокий балл. Затем вы выбираете процент от предложений с наивысшим баллом для отображения в сводке.

Вы можете выбрать, следует ли выделять ключевые точки в документе, вставить резюме или абстракцию вверху документа, создать новый документ и поместить там сводку или скрыть все, кроме сводки.

Если вы хотите выделить ключевые точки или скрыть все, кроме сводки, вы можете переключаться между отображением только ключевых точек документа (остальная часть документа скрыта) и выделения их в документе. По мере чтения вы также можете изменить уровень детализации в любое время.

Во всяком случае, автоматическое представление данных (текст) является активной областью машинного обучения/интеллектуального анализа данных со многими текущими исследованиями. Вы должны начать читать несколько хороших обзоров: