Ruby／Rubyの基礎知識

RubyによるWebスクレイピング(1): NokogiriでHTMLをパースする

Rubyを使ってWeb上の情報を取得して取り扱う方法を紹介します。第一回ではNokogiriというRuby製ライブラリでHTMLをパースするところまでを紹介します。

更新日：2014年11月27日

橋本拓也

Ruby ガイド

生物系大学院から金融システムのオフショア開発っぽい業務を経由してWebエンジニアになる。香川県出身。

プロフィール詳細執筆記事一覧

Webスクレイピング

今回の記事は、Rubyを使ってWeb上の情報を取得・解析する方法の第一歩がテーマです。Webに存在するHTMLをRubyから取得し、取得したHTMLをNokogiriを使って解析する方法の初歩を扱います。

URLのopen

URLからHTMLを取得するシンプルな方法の一つは、標準ライブラリのopen-uriを使うことです。open-urlを使うと、Kernel#open メソッドが拡張され、open(<...url...>)のように書くだけでファイルから読み取るようにURLからHTMLソースを取得することができます。

こうして取得したHTMLは文字列(String)として扱えるため、たとえば正規表現によるデータ抽出が可能です（正規表現については過去の記事「Rubyの正規表現の基礎」などを参考にしてください）。

上記のように一箇所しかないことがわかっている情報を抜き出すのであれば正規表現で十分ですが、HTMLをあくまで文字列として扱いパターンを指定していく方針には限界があります。そこで、HTML構文解析器(パーサー)を使い、HTML文字列を構造化したデータに変換してしまうことを考えます。

次のページでは、Nokogiriの設計と簡単な使い方の紹介を行います。

1

2

次のページへ

あわせて読みたい

OAuth 2.0 の認可フローと oauth2 gem を使った Google APIs の利用

OAuth 2.0 の認可フローと oauth2 gem を使った Google APIs の利用

Rubocop を使った静的解析で Ruby コーディング規約をチェックする

Rubocop を使った静的解析で Ruby コーディング規約をチェックする

演算子の優先順位について・演算子を再定義する

演算子の優先順位について・演算子を再定義する

Rubyの特異クラス・特異メソッドについて

Rubyの特異クラス・特異メソッドについて

require, require_relative, load, autoloadの違い

require, require_relative, load, autoloadの違い

Rubyにおけるリフレクションプログラミング

Rubyにおけるリフレクションプログラミング

Ruby2.2の変更点と新機能の紹介

Ruby2.2の変更点と新機能の紹介