Web スクレイピングで HTML 要素を取得

  • URLをコピーしました!

HTML 要素の取得について

Beautiful Soup で HTML 要素を取得する方法として「select() メソッド」と「find() メソッド」の 2 つがあります。違いは検索条件の書き方です。
本記事ではシンプルな「select() メソッド」について書きます。

使い方

以下のように soup.select() の ()(括弧)に HTML 要素を指定します。

elems = soup.select('.page-entry #globalheader-container') 

class 属性の .page-entry と id 属性の #globalheader-container を取得する例です。
上述のとおり class 属性は「.」(ピリオド)、id 属性は「#」(シャープ)を設定し、複数指定する場合は、属性間に「半角スペース」を入れます。

セレクタの例

主なセレクタは次のとおりです。

select()に渡すセレクタ対象
soup.select(‘a’)全ての a 要素
soup.select(‘href’)全ての href 要素
soup.select(‘#author’)id 属性が author である要素
soup.select(‘.notice’)CSS class 属性が notice であるすべての要素
soup.select(‘.notice.title’)CSS class 属性が notice と title の両方を含むすべての要素

[sitecard subtitle=関連記事 url=https://mytech-blog.com/python-web-scraping/ target=]

参考:GAMMASOFT

以上

よかったらシェアしてね!
  • URLをコピーしました!

この記事を書いた人

クラウド・ネットワーク・セキュリティ・仮想化・プログラミング・オープンソース・Web 開発をテーマにしたブログを運営👨‍💻 コンシューマー向けエンタメ事業の新規開発・運営経験 / VCAP-DCA・CCIE Lifetime Emeritus 認定 / 技術とビジネス書愛好家📚

目次