MovieSchedule
昨日の続きでデータを取り出そうと思ったがうまくマッチしない。HTMLParser では、table タグの中身は handle_data ではうまく処理できない雰囲気。 どおりで「PythonによるWebスクレイピング」では BeautifulSoup というのを使っていたわけだ。 http://d.ha…
WebスクレイピングしてXMLにしているわけですが、もうちょっとまともにしようと思い書き直し始めました。 今までは Perl でファイルベースで解析してましたが、今度は Python でオン・ザ・フライでデータベースに保存していこうと思っています。今までは中間…
109シネマズのIMAXデジタル料金についての記述を増やしました。 http://109cinemas.net/news/1665.html 映画を安く見る方法
字幕3D上映館リスト、今週はジュラシックワールドのIMAX上映が復活していたりして、その影響でタイトルが「無印」「<復活上映>」「<リバイバル上映>」という3種類に見えてしまっていた。 幸い、「<>」でくくられているのが頭についているという状況だ…
最初は字幕もフィルタしようとしたんだけど多すぎた。いまのところデータベースを使わない方法でやっているので、字幕3Dだけをリストアップすることにした。とりあえず様子見なので、plain text。基本自分用だし。 スケジュールサイトからリンクを貼っといた…
スケジュール更新用の環境を壊してしまった。 とりあえずデータは救出できたので、同じ環境を作り直した。 これを再構築。
2011年から手を入れていなかったので、先週新宿のを検索しようとしたらTOHO新宿が入ってなかった。そうか、こっちのは自動更新にはしてなかったんだ。 というわけで、モバイル用の映画館リストを更新。 ついでに、スマホで見ると小さくなってしまうのがか気…
前のようにVineを入れて環境を整えようと思い、CPAN からインストールしようとしたら、まず LWP が使えないという警告。なので、apt で入れた。 sudo apt-get install perl-libwww-perl そしたら今度は make がないといわれた。 sudo apt-get install make …
以前から Mac からアップロードするときなどに、通信がとまってしまい、Ctrl-C すると remote host closed control connection となることがあった。VirtualBox なのが問題なのかな? Passive モードの指定とかしてみたけどかわらない。 z オプションでレジ…
映画スケジュールの更新のために、VirtualBox に Vine を入れた。別にディストリビューションは何でもいいんだけど、なんとなく今までの環境が Vine 4.2 -> 5.0 だったのでその流れで。 Vine Linux 64bit 版の iso をとってきてフルインストール。 必要な設…
処理としては考慮していたつもりだったんだけど、翌年の日付の年が増えてなかった。 直してみた。
実家にいるのでMac環境から更新したら、劇場住所情報が undefined になってた。あれ?前もだったかな? 自宅に戻ってから確認してみよう。
年末の曜日ぼけですっかり更新を忘れてたけど、Mac の VirtualBox 上の Vine 環境からアップデート。 ところが、処理結果が文字化けしてた。 たしか、去年も同じようなことがあったなぁ、と思い use utf8; したのに直らない。調べたら出力時の open のときに…
こちらのページの文字コードを UTF-8 にしたら、IE Mobile で表示できなくなってた。 http://www2.u-netsurf.ne.jp/~ozawa/movie/xml/mobile.html 文字化けするならまだしも、真っ白ってどうなのよ? だから JIS にしたんだったかな? とりあえず、私が使わ…
最終上映回に終了時刻が括弧付きで入るようになったみたい。とりあえず、今のところは終了時刻は考慮しないことにして無視することにした。 電話番号の行も行末の空白文字列がなくなったみたい。 http://www2.u-netsurf.ne.jp/~ozawa/movie/xml/schedule.html
モバイル用に作っていたページが、iPod の Safari から見たら文字化けしてしまっていた。 http://www2.u-netsurf.ne.jp/~ozawa/movie/xml/mobile.html JIS にするために「京」の文字を入れてたんだけどなぁ。 ちゃんと meta タグに charset を定義した。つい…
ほんとに、たま〜にびみょ〜な変更があるんだよなぁ。 今回は区切りが<br>になっただけ。
こちらの話。 http://www2.u-netsurf.ne.jp/~ozawa/movie/xml/schedule.html XMLファイルをブラウザでクリックした場合に、ただXMLツリーがでるのでは素気ないので、スタイルシートを関連づけてみた。こんな感じになる。 http://www2.u-netsurf.ne.jp/~ozawa…
せっかく更新したのに、正月だからか元のスケジュールが更新されていないところも多いみたい。大手シネコンのデータは大丈夫みたいだけど。 Mac 上の Virtual Box に入れた Vine 上で更新したんだけど、perl で use utf8; したらエラーになるところがあった…
VirtualBox に Vine を入れた。例によって文字コードはutf8だと思って安心していたら、perl の処理中に文字化けしてた。 前に CYGWIN で発生した時のように対処したら直った。 Cygwin で更新しようとしたら文字化けしていた件 - GUST NOTCH? DIARY
Mac から更新できるようにと思って、最初はそのまま wget と ncftp とをローカルにいれて、perl も myperl を構築しようかと思ったりしてたんだけど、Windows でやってるように仮想マシンを作ればいいということに気づいた。 なので、VirtualBox を入れて、…
修正した。
ノートのCygwin環境からの更新。うまくいったみたい。 ネットの回線速度はこっちの方が速いはずなのだけど、更新に1時間くらいかかった。ダウンロードやアップロードの速度は、見た感じではそんなに差が無い感じなので、やっぱりCPUの速度が遅いみたい。
以前、Cygwin 上で更新しようとしたら、文字化けしてしまってうまくいかなかったのですが、とりあえず対処方法がわかりました。 具体的には、utf-8 で書かれた HTML ファイルを入力として、Perl でも utf-8 で処理しようとしていた場合に、デフォルトコード…
また微妙な修正があったみたい。スケジュールページの劇場名には、これまではリンクが入っていなかったんだけど、それが入るようになったらしい。 動作上は問題なかったんだけど、見栄えが悪くなるので修正。
実家で、Cygwin からの更新を試みたんだけど、bash のコードをUTF8にしたにも関わらず、文字化けしてしまって失敗。結局、先ほど更新しました。 タイトルのリンクページが無い場合に不具合があったので修正。
更新環境は丸々持ってきているんですが、回線が遅いのと、それ以上にPCの処理能力が遅いので、ちょっと処理が難しそうです。 戻ってから更新することになるかと思います。
映画館ブログ経由で情報を得たのですが、映画館に行こう!のサイトがスケジュールデータを配信するというので、期待して見にいったら期待はずれでした。 UIは使いづらいし、見づらいし、普通にMovieWalkerの方が使いやすいです。データもフォーマットされて…
2つ目はリンク先がない状態になっていて、こちらが参照されるようになっていた。 修正した。 IMAX版の作品タイトルが、元のデータから間違ってるような気がする。
「新作」「最終週」「字幕」「吹替」「3D」に関する文字列がタイトルから消えて、画像のみでの表示になった。レイティングの情報も備考に移ったみたい。 そのせいで、タイトル文字列だけだと、同じものが並ぶようになってしまったので、区別できるように対応…