注目キーワード
  1. AWS
  2. Python
CATEGORY

Python

  • 2021年7月11日
  • 2021年7月12日

Python で SyntaxError: Non-UTF-8 code

Python でスクリプトを実行した際に次のエラーに遭遇しました。 原因と対策 エラーに記載のリンクに記載のとおり、エンコーディングが定義されていないことに起因するようです。対策として、次のようにファイルの 1 行目と 2 行目に設定します。 エンコーディングは適切なものを指定します。日本語を使用している場合は、utf-8 だと次のエラーとなる場合があります。 上記エラーがでた場合は、エンコーディ […]

  • 2021年5月31日
  • 2021年5月31日

Twitter API と Python でツイートを一括削除

Twitter API と Python を利用して、過去のツイートを一括削除することができます。Twitter API の概要と申請方法は、以下の記事をご参照ください。 Twitter データのダウンロード まずはじめに、Twitter データのアーカイブをダウンロードします。Twitter にアクセスして、「設定とプライバシー」>「アカウント」>「データのアーカイブをダウ […]

  • 2021年5月14日
  • 2021年5月14日

Python 環境での正規表現の書き方

正規表現とは 「.」や「+」などのメタ文字(特殊文字)を使って、パターンを表現する記述方法です。複雑で長い文字列を 1 つの文字列で表現したり、マッチする文字列を抽出したりすることができます。 Python 環境での主な正規表現 直後の文字が行の先頭にある場合にマッチ「^」 直後の文字が行の先頭にある場合にマッチします。 正規表現の例 マッチする文字列 直前の文字が行の末尾にある場合にマッチ「$」 […]

  • 2021年5月10日
  • 2021年5月10日

Web スクレイピングの注意点

Web スクレイピングは、それ自体は違法とされていないものの、ルールや注意点を十分に理解して実施しないと違法となる可能性があります。今回は「違法とならないために注意すること」の 4 つについて紹介いたします。TOPCOURT 様の記事を参考にさせて頂きました。とても詳しく解説されているので一読をおすすめします。 違法とならないために注意すること 利用目的 著作権法は、「情報解析」を目的としている場 […]

  • 2021年5月10日
  • 2021年5月10日

Web スクレイピングでページを取得できない

Web スクレイピングでページソースを取得しようとした際、ブラウザで表示する場合と異なるテキストが表示されることがあります。User-Agent を設定していない場合、Web サイト側でブロックされることがありますが、User-Agent を設定しても解決しない場合は、WAF などでブロックされている可能性があり、この場合は回避策はありません。具体的例として、以下のようなテキストが出力された場合は […]

  • 2021年5月9日
  • 2021年5月9日

Web スクレイピングで HTML 要素を取得

HTML 要素の取得について Beautiful Soup で HTML 要素を取得する方法として「select() メソッド」と「find() メソッド」の 2 つがあります。違いは検索条件の書き方です。本記事ではシンプルな「select() メソッド」について書きます。 使い方 以下のように soup.select() の ()(括弧)に HTML 要素を指定します。 class 属性の .p […]

  • 2021年5月9日
  • 2021年5月11日

Python で Web スクレイピング

Web スクレイピングとは スクレイピングとは、web ページから情報を抽出することを言います。取得した情報は、エクセルなどにまとめて利用することができます。…(中略)…Python を使えば、web ページをスクレイピングし、データを自動で取ってくることができます。一度 Python で自動化してしまえば、後はプログラムが勝手に情報を取ってきてくれるようになり、大幅に作業が効率化できます。このよ […]

  • 2021年5月9日
  • 2021年5月9日

Python で AttributeError がでた原因について

Python で import requests を実行した時に次のエラーに遭遇しました。 エラー内容 ファイル名を requests.py にしていた事が原因でした。モジュール名とファイル名を同じにすると、import requests が requests モジュールではなく、py ファイルを指してしまうようです。ファイル名を test.py に変更すると収束しました。 以上

  • 2021年5月9日
  • 2021年5月9日

Python の urljoin メソッドについて

urljoin メソッドとは 基底 URL(base)と別の URL(url) を結合して、絶対 URL を作成します。 実行例 次のコードを実行します。 出力結果は次のとおりです。 解説 コードの記述方法は、次のとおりです。 第 1 引数に基底 URL(base)、第 2 引数に相対 URL など、別の URL を指定すると、これらを結合して絶対 URL を作成します。 URL を文字列を使って […]

  • 2021年5月9日
  • 2021年5月9日

Python の Selenium モジュールについて

Selenium モジュールとは ブラウザを操作できるモジュールです。主に requests モジュールや Beautiful Soup モジュールと組み合わせて WEB スクレイピングに利用されます。 実行例 次のコードを実行すると、Chrome ブラウザが起動します。 解説 本記事の例では、Chrome ブラウザを制御します。 Chrome 用 WebDriver のダウンロード Chrome […]