2013-12-05 2 views
0

Я относительно новичок в программировании. У меня есть папка с подпапками, в которой содержится несколько тысяч html-файлов, которые в общем названы, то есть 1006.htm, 1007.htm, которые я хотел бы переименовать, используя тег из файла.Переименование файлов HTML с использованием <title> тегов

Например, если файл 1006.htm содержит заголовок страницы, я хотел бы переименовать его Page Title.htm. Идеально пространство заменяется тире.

Я работал в оболочке с сценарием bash без везения. Как это сделать, либо с bash, либо с python?

это то, что я до сих пор ..

#!/usr/bin/env bashFILES=/Users/Ben/unzipped/* 
for f in $FILES 
do 
    if [ ${FILES: -4} == ".htm" ] 
     then 
    awk 'BEGIN{IGNORECASE=1;FS="<title>|</title>";RS=EOF} {print $2}' $FILES 
    fi 
done 

Я также попытался

#!/usr/bin/env bash 
for f in *.html; 
    do 
    title=$(grep -oP '(?<=<title>).*(?=<\/title>)' "$f") 
    mv -i "$f" "${title//[^a-zA-Z0-9\._\- ]}".html 
done 

Но я получаю сообщение об ошибке от терминала exlaing, как использовать Grep ...

+1

так мы то, что вы сделали до сих пор. Я думаю, что решение grep типа может работать –

ответ

1

использовать AWK вместо Grep в вашем Баш скрипт, и он должен работать:

#!/bin/bash 
for f in *.html; 
    do 
    title=$(awk 'BEGIN{IGNORECASE=1;FS="<title>|</title>";RS=EOF} {print $2}' "$f") 
    mv -i "$f" "${title//[^a-zA-Z0-9\._\- ]}".html 
done 

не забудьте изменить Баш окр на первой линии;)

EDIT полный ответ со всеми модификациями

#!/bin/bash 
for f in `find . -type f | grep \.html` 
    do 
    title=$(awk 'BEGIN{IGNORECASE=1;FS="<title>|</title>";RS=EOF} {print $2}' "$f") 
    mv -i "$f" "${title//[ ]/-}".html 
done 
+0

Это отлично работает - любая идея, как я применяю это ко всем файлам в подкаталогах? и добавить '-', где есть пробелы в теге ? – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/3068211/">user3068211</a></span> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">найти. -тип f | grep \ .html, чтобы получить все html-файлы – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">, а для замены '-' я предлагаю вам: mv -i "$ f" "$ {title // []/-}". html – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">0<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>Вы хотите использовать парсер HTML (например, <a href="http://lxml.de/lxmlhtml.html" rel="nofollow" title="lxml.html"><code class="prettyprint-override">lxml.html</code></a>) для анализа ваших HTML-файлов. Как только вы это получили, получение тега заголовка - одна строка (возможно, <code class="prettyprint-override">page.get_element_by_id("title").text_content()</code>).</p> <p>Перевод этого имени файла и переименования документа должен быть тривиальным.</p> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/20389734">источник</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2013-12-05 01:35:07</span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> </div> </article> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">0<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>Вот питон скрипт я просто написал:</p> <pre><code class="prettyprint-override">import os import re from lxml import etree class MyClass(object): def __init__(self, dirname=''): self.dirname = dirname self.exp_title = "<title>(.*)</title>" self.re_title = re.compile(self.exp_title) def rename(self): for afile in os.listdir(self.dirname): if os.path.isfile(afile): originfile = os.path.join(self.dirname, afile) with open(originfile, 'rb') as fp: contents = fp.read() try: html = etree.HTML(contents) title = html.xpath("//title")[0].text except Exception as e: try: title = self.re_title.findall(contents)[0] except Exception: title = '' if title: newfile = os.path.join(self.dirname, title) os.rename(originfile, newfile) >>> test = MyClass('/path/to/your/dir') >>> test.rename() </code></pre> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/20389904">источник</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2013-12-05 01:52:35</span> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/882862/">flyer</a></span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> </div> </article> </div> <div class="clearfix"> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048337"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> Последний вопрос </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ru.uwenku.com/question/p-dbozogfk-bds.html" target="_blank" title="Как очистить текущую позицию для объекта Iterable при использовании next()?"> Как очистить текущую позицию для объекта Iterable при использовании next()? </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> Смежные вопросы</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item">Нет связанных вопросов^_^</li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://ru.uwenku.com/contact">Свяжитесь с нами</a></li> <li>© 2020 RU.UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>