Take's Software Engineer Blog

TOEIC200点&プロマネな私が社内公募を経て、ソフトエンジニア&英語部門へ異動して奮闘していく話をしていきます

python⑤ブログタイトルの取得

www.regentechlog.com
を見ながら、少し書いてみました。

    t = lxml.html.parse(url)
    print t.find(".//title").text

で実行
f:id:monokuma12:20160710083029p:plain
!!
文字化けしとる。

何が変なんだろってことで調べたらエンコードする方法あるじゃん

    parser = lxml.html.HTMLParser(encoding='utf-8')
    t = lxml.html.parse(url,parser)
    print t.find(".//title").text

f:id:monokuma12:20160710084226p:plain
で無事に表示されました。

htmlをよう知らないままやってるが、
 http経由で情報を取得
 取得したデータからほしいものを抜き出す
 出力orどっかのDBにぶち込む
みたいな流れね。

次は新着記事の取得でもチャレンジするか。

div #breadcrumb div{ display: inline;font-size:13px;}