Web スクレイピングで HTML 要素を取得

技術ブログ

Beautiful Soup で HTML 要素を取得する方法として「select() メソッド」と「find() メソッド」の 2 つがあります。違いは検索条件の書き方です。
本記事ではシンプルな「select() メソッド」について書きます。

以下のように soup.select() の ()（括弧）に HTML 要素を指定します。

elems = soup.select('.page-entry #globalheader-container')

class 属性の .page-entry と id 属性の #globalheader-container を取得する例です。
上述のとおり class 属性は「.」（ピリオド）、id 属性は「#」（シャープ）を設定し、複数指定する場合は、属性間に「半角スペース」を入れます。

主なセレクタは次のとおりです。

select()に渡すセレクタ	対象
soup.select(‘a’)	全ての a 要素
soup.select(‘href’)	全ての href 要素
soup.select(‘#author’)	id 属性が author である要素
soup.select(‘.notice’)	CSS class 属性が notice であるすべての要素
soup.select(‘.notice.title’)	CSS class 属性が notice と title の両方を含むすべての要素

Web スクレイピングとはスクレイピングとは、web ページから情報を抽出することを言います。取得した情報は、エクセルなどにまとめて利用することができます。…（中略）…Python を使えば、web ページをスクレイピングし、デ[…]

以上