GUST NOTCH? DIARY

TreeBuilder で HTML5 を解析させる

先日書いたように MovieWalker のサイトがリニューアルして、サイト構造やソースも変わってしまった。今回はHTML5で書かれてて、構造的にはキレイになってた。
タイトルのカナよみとかの情報がなくなってたけど。
さて、TreeBuilderで解析しようとしたら、うまくパースできない。最初は Class でマッチさせてたので気づかなかったんだけど、article とか section のタグでもマッチしなかったので、どうやらHTML5のタグが無視されてるようだった。
おそらく今どきでモダンな別のモジュールがあるんだろうけど、慣れてるのでなんとかしたくて調べたところ、マニュアルにこんな記載が。

ignore_unknown

This attribute controls whether unknown tags should be represented as elements in the parse tree, or whether they should be ignored. Default is true (to ignore unknown tags.)

おお、これでなんとかなるかも、と思ったらビンゴ!

とりあえずはスケジュールを更新できるところまで復活。

字幕/吹替や各種音響の状況についてはこれから確認していかないといろいろ不具合がありそう。