Мне кажется, что я должен постоянно учиться новому. Я пытался придумать, как я мог бы ускорить процесс изучения новых предметов. Я думал, что это может быть аккуратно, если я могу написать программу для анализа статьи в википедии и удалить все, кроме самой ценной информации.Подведение итогов статьи в Википедии
Я начал с публикации статьи в Википедии по адресу PDFs и извлечения первых 100 предложений. Я дал каждому предложению оценку, основанную на том, насколько ценным я считал это. Я в конечном итоге создать файл после этого формата:
<sentence>
<value>
<sentence>
<value>
etc.
Я затем разобран этот файл и попытался найти различные функции, которые коррелируют каждое предложение со значением я дал его. Я только начал изучать машинное обучение и статистику и многое другое, поэтому я много занимаюсь здесь. Это моя последняя попытка: https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py.
Я пробовал кучу вещей, которые, похоже, не произвели никакой корреляции вообще - средняя длина слова, позиция в статье и т. Д. Практически единственное, что создавало какие-либо полезные отношения, было длина строки (точнее, подсчет числа буквенных букв «e», казалось, лучше всего работал). Но это кажется немного хромым, потому что кажется очевидным, что более длинные предложения будут скорее содержать полезную информацию.
В какой-то момент я думал, что нашел некоторые интересные функции, но затем, когда я попытался удалить выбросы (только подсчитывая внутренние квартили), они оказались хуже, а затем просто возвращали 0 для каждого предложения. Это заставило меня задуматься о том, как много других вещей я могу сделать неправильно ... Мне также интересно, действительно ли это хороший способ приблизиться к этой проблеме.
Как вы думаете, я на правильном пути? Или это просто безумное поручение? Есть ли вопиющие недостатки в связанном коде? Кто-нибудь знает, как лучше подойти к проблеме подведения итогов статьи в Википедии? Я бы предпочел бы быстрое и грязное решение, чем что-то совершенное, и это займет много времени. Любые общие рекомендации также приветствуются.
Далее вы хотите, чтобы мы использовали новостную ленту, чтобы сделать отсканированную статью еще короче;) – tylerthemiler
Вы явно слишком стары. Оставьте эту вещь до 16-летних. Http://www.wired.com/gadgetlab/2011/12/summly-app-summarization/ – ColinE
:) Summli выглядит круто. Я не могу запустить его на своем ipod, но я могу прочитать отзывы. Они были довольно смешанными. У меня сложилось впечатление, что это плохо работает. –