Ruby／Rubyの基礎知識

RubyによるWebスクレイピング(1): NokogiriでHTMLをパースする(2ページ目)

Rubyを使ってWeb上の情報を取得して取り扱う方法を紹介します。第一回ではNokogiriというRuby製ライブラリでHTMLをパースするところまでを紹介します。

更新日：2014年11月27日

橋本拓也

Ruby ガイド

生物系大学院から金融システムのオフショア開発っぽい業務を経由してWebエンジニアになる。香川県出身。

プロフィール詳細執筆記事一覧

HTMLパーサー「Nokogiri」

RubyのHTMLパーサーとしては"Nokogiri"というライブラリがよく使われています。

RubyGems nokogiri | RubyGems.org | your community gem host
公式チュートリアル Tutorials - Nokogiri 鋸

インストールは gem install nokogiri などとしてください。まずURLをopenしてNokogiriドキュメントを生成してみます。

文字列として読み込んだHTMLをパースしてNokogiri::HTML::Documentオブジェクトを作成しています。

Nokogiri::HTML::Documentが継承しているNokogiri::XML::Nodeは要素検索のためのメソッドを持っています。たとえばNokogiri::XML::Node#atはセレクタでヒットした最初の要素(Element)を返すメソッドです。

また、Nokogiri::XML::Node#cssやNokogiri::XML::Node#xpathはヒットした要素すべてをNokogiri::XML::NodeSetにまとめて返します。例としてAllAboutトップページのメイン記事リストから、記事タイトルとリンク先URLをまとめて抜き出して出力してみます。

top2

Nokogiri::XML::NodeSetをeachで回した個々のNokogiri::XML::Element(li)に対してtextメソッドで表示テキストを、atで1階層降りた先のattrでhref属性値を取得しています。

次回

今回の記事で、WebのHTMLを取得・パースする方法を紹介しました。単純なHTMLだけならNokogiriで大抵のことは出来るのですが、フォームに値を入れて送信したり(ログイン操作含む)JavaScriptを実行したりと高度なことをやるには向いていません。

そこで、次回の記事ではRubyプログラムでブラウザを制御し、実際にユーザが操作しているのと同じ条件でWebからデータを抽出する方法を紹介します。

※記事内容は執筆時点のものです。最新の内容をご確認ください。

※OSやアプリ、ソフトのバージョンによっては画面表示、操作方法が異なる可能性があります。

【編集部おすすめの購入サイト】

Amazonで Ruby 関連の書籍をチェック！楽天市場で Ruby 関連の書籍をチェック！

前のページへ

1

2

あわせて読みたい

OAuth 2.0 の認可フローと oauth2 gem を使った Google APIs の利用

OAuth 2.0 の認可フローと oauth2 gem を使った Google APIs の利用

Rubocop を使った静的解析で Ruby コーディング規約をチェックする

Rubocop を使った静的解析で Ruby コーディング規約をチェックする

演算子の優先順位について・演算子を再定義する

演算子の優先順位について・演算子を再定義する

Rubyの特異クラス・特異メソッドについて

Rubyの特異クラス・特異メソッドについて

require, require_relative, load, autoloadの違い

require, require_relative, load, autoloadの違い

Rubyにおけるリフレクションプログラミング

Rubyにおけるリフレクションプログラミング

Ruby2.2の変更点と新機能の紹介

Ruby2.2の変更点と新機能の紹介