Take's Software Engineer Blog

TOEIC200点＆プロマネな私が社内公募を経て、ソフトエンジニア＆英語部門へ異動して奮闘していく話をしていきます

www.regentechlog.com
を見ながら、少し書いてみました。

    t = lxml.html.parse(url)
    print t.find(".//title").text

で実行
f:id:monokuma12:20160710083029p:plain
！！
文字化けしとる。

何が変なんだろってことで調べたらエンコードする方法あるじゃん

    parser = lxml.html.HTMLParser(encoding='utf-8')
    t = lxml.html.parse(url,parser)
    print t.find(".//title").text

f:id:monokuma12:20160710084226p:plain
で無事に表示されました。

htmlをよう知らないままやってるが、
　http経由で情報を取得
　取得したデータからほしいものを抜き出す
　出力orどっかのＤＢにぶち込む
みたいな流れね。

次は新着記事の取得でもチャレンジするか。

div #breadcrumb div{ display: inline;font-size:13px;}