注目キーワード
  1. AWS
  2. Python
  • 2021年5月12日
  • 2021年5月13日

Google Search Console にサイトマップを登録

サイトマップとは ホームページの地図のようなもので、Google Search Console に登録してあげるとクローラビリティが改善します。言い換えると、新規記事を投稿したり、既存記事を修正した時に Google 検索に反映されるまでの時間が短縮されます。 サイトマップの作成方法 WordPress のプラグイン「Google XML Sitemaps」をインストールします。 プラグインを有効 […]

  • 2021年5月11日
  • 2021年5月11日

Google 検索結果から情報を削除する

ブログの記事を削除しても、しばらくは Google 検索結果に残ってしまいます。Google などの検索エンジンは、検索インデックスにこれらの情報を保存しているためです。検索インデックスは、クローラーが Web ページを取得した時に更新されますが、ページが見つからなかった時は何もしません。そのため、ファイルを削除しても検索インデックスには情報が残っているため、Google 検索結果に表示され続けま […]

  • 2021年5月11日
  • 2021年5月14日

THE THOR と Google Search Console の連携

Google Search Console とは Google Search Console(サーチコンソール)は Google が提供するアクセス解析ツールで、どのようなクエリ(検索キーワード)でユーザーがサイトにアクセスしているかを確認したり、Google 検索でのサイトのインプレッション数、クリック数、掲載順位を分析できます。また、クロール用にサイトマップや個別 URL を送信して、Goog […]

  • 2021年5月10日
  • 2021年5月10日

Web スクレイピングの注意点

Web スクレイピングは、それ自体は違法とされていないものの、ルールや注意点を十分に理解して実施しないと違法となる可能性があります。今回は「違法とならないために注意すること」の 4 つについて紹介いたします。TOPCOURT 様の記事を参考にさせて頂きました。とても詳しく解説されているので一読をおすすめします。 違法とならないために注意すること 利用目的 著作権法は、「情報解析」を目的としている場 […]

  • 2021年5月10日
  • 2021年5月10日

Web スクレイピングでページを取得できない

Web スクレイピングでページソースを取得しようとした際、ブラウザで表示する場合と異なるテキストが表示されることがあります。User-Agent を設定していない場合、Web サイト側でブロックされることがありますが、User-Agent を設定しても解決しない場合は、WAF などでブロックされている可能性があり、この場合は回避策はありません。具体的例として、以下のようなテキストが出力された場合は […]

  • 2021年5月9日
  • 2021年5月9日

Web スクレイピングで HTML 要素を取得

HTML 要素の取得について Beautiful Soup で HTML 要素を取得する方法として「select() メソッド」と「find() メソッド」の 2 つがあります。違いは検索条件の書き方です。本記事ではシンプルな「select() メソッド」について書きます。 使い方 以下のように soup.select() の ()(括弧)に HTML 要素を指定します。 class 属性の .p […]

  • 2021年5月9日
  • 2021年5月11日

Python で Web スクレイピング

Web スクレイピングとは スクレイピングとは、web ページから情報を抽出することを言います。取得した情報は、エクセルなどにまとめて利用することができます。…(中略)…Python を使えば、web ページをスクレイピングし、データを自動で取ってくることができます。一度 Python で自動化してしまえば、後はプログラムが勝手に情報を取ってきてくれるようになり、大幅に作業が効率化できます。このよ […]

  • 2021年5月9日
  • 2021年5月9日

Python で AttributeError がでた原因について

Python で import requests を実行した時に次のエラーに遭遇しました。 エラー内容 ファイル名を requests.py にしていた事が原因でした。モジュール名とファイル名を同じにすると、import requests が requests モジュールではなく、py ファイルを指してしまうようです。ファイル名を test.py に変更すると収束しました。 以上

  • 2021年5月9日
  • 2021年5月9日

Python の urljoin メソッドについて

urljoin メソッドとは 基底 URL(base)と別の URL(url) を結合して、絶対 URL を作成します。 実行例 次のコードを実行します。 出力結果は次のとおりです。 解説 コードの記述方法は、次のとおりです。 第 1 引数に基底 URL(base)、第 2 引数に相対 URL など、別の URL を指定すると、これらを結合して絶対 URL を作成します。 URL を文字列を使って […]

  • 2021年5月9日
  • 2021年5月9日

Python の Selenium モジュールについて

Selenium モジュールとは ブラウザを操作できるモジュールです。主に requests モジュールや Beautiful Soup モジュールと組み合わせて WEB スクレイピングに利用されます。 実行例 次のコードを実行すると、Chrome ブラウザが起動します。 解説 本記事の例では、Chrome ブラウザを制御します。 Chrome 用 WebDriver のダウンロード Chrome […]