Web スクレイピングで HTML 要素を取得

HTML 要素の取得について

Beautiful Soup で HTML 要素を取得する方法として「select() メソッド」と「find() メソッド」の 2 つがあります。違いは検索条件の書き方です。
本記事ではシンプルな「select() メソッド」について書きます。

使い方

以下のように soup.select() の ()(括弧)に HTML 要素を指定します。

elems = soup.select('.page-entry #globalheader-container') 

class 属性の .page-entry と id 属性の #globalheader-container を取得する例です。
上述のとおり class 属性は「.」(ピリオド)、id 属性は「#」(シャープ)を設定し、複数指定する場合は、属性間に「半角スペース」を入れます。

セレクタの例

主なセレクタは次のとおりです。

select()に渡すセレクタ対象
soup.select(‘a’)全ての a 要素
soup.select(‘href’)全ての href 要素
soup.select(‘#author’)id 属性が author である要素
soup.select(‘.notice’)CSS class 属性が notice であるすべての要素
soup.select(‘.notice.title’)CSS class 属性が notice と title の両方を含むすべての要素
関連記事

Web スクレイピングとは スクレイピングとは、web ページから情報を抽出することを言います。取得した情報は、エクセルなどにまとめて利用することができます。…(中略)…Python を使えば、web ページをスクレイピングし、デ[…]

参考:GAMMASOFT

以上