HTML 要素の取得について
Beautiful Soup で HTML 要素を取得する方法として「select() メソッド」と「find() メソッド」の 2 つがあります。違いは検索条件の書き方です。
本記事ではシンプルな「select() メソッド」について書きます。
使い方
以下のように soup.select() の ()(括弧)に HTML 要素を指定します。
elems = soup.select('.page-entry #globalheader-container')
class 属性の .page-entry と id 属性の #globalheader-container を取得する例です。
上述のとおり class 属性は「.」(ピリオド)、id 属性は「#」(シャープ)を設定し、複数指定する場合は、属性間に「半角スペース」を入れます。
セレクタの例
主なセレクタは次のとおりです。
select()に渡すセレクタ | 対象 |
soup.select(‘a’) | 全ての a 要素 |
soup.select(‘href’) | 全ての href 要素 |
soup.select(‘#author’) | id 属性が author である要素 |
soup.select(‘.notice’) | CSS class 属性が notice であるすべての要素 |
soup.select(‘.notice.title’) | CSS class 属性が notice と title の両方を含むすべての要素 |
関連記事
Web スクレイピングとは スクレイピングとは、web ページから情報を抽出することを言います。取得した情報は、エクセルなどにまとめて利用することができます。…(中略)…Python を使えば、web ページをスクレイピングし、デ[…]
参考:GAMMASOFT
以上