Webスクレイピング

今回の記事は、Rubyを使ってWeb上の情報を取得・解析する方法の第一歩がテーマです。Webに存在するHTMLをRubyから取得し、取得したHTMLをNokogiriを使って解析する方法の初歩を扱います。

URLのopen

URLからHTMLを取得するシンプルな方法の一つは、標準ライブラリのopen-uriを使うことです。open-urlを使うと、Kernel#open メソッドが拡張され、open(<...url...>)のように書くだけでファイルから読み取るようにURLからHTMLソースを取得することができます。

こうして取得したHTMLは文字列(String)として扱えるため、たとえば正規表現によるデータ抽出が可能です(正規表現については過去の記事 「Rubyの正規表現の基礎」などを参考にしてください)。

上記のように一箇所しかないことがわかっている情報を抜き出すのであれば正規表現で十分ですが、HTMLをあくまで文字列として扱いパターンを指定していく方針には限界があります。 そこで、HTML構文解析器(パーサー)を使い、HTML文字列を構造化したデータに変換してしまうことを考えます。

次のページでは、Nokogiriの設計と簡単な使い方の紹介を行います。