Home » Python » BeautifulSoupを使ってローカルのHTMLファイルを確認する

BeautifulSoupを使ってローカルのHTMLファイルを確認する

動作検証バージョン:Windows 11 Home + Python 3.10.11

VBAで、MSHTML.HTMLDocumentを利用してローカルのHTMLファイルのソースを読み込もうとしてみました。

一応は動くものの、待ち時間が長いことがストレスです。

[スポンサードリンク]

Pythonならば、こういった処理が簡単にできてしまいます。

ローカルのHTMLファイルのソースを出力するサンプルスクリプト

以下のスクリプトで、Cドライブtempフォルダーのsample.htmlファイルのソースコードが出力されます。

from bs4 import BeautifulSoup

path = r'C:\temp\sample.html'

with open(path, 'r', encoding='utf-8') as file:
    html = file.read()

soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())

サンプルスクリプトで行っている処理

上記のスクリプトで行っている処理は以下のとおりです。

最初にBeautifulSoupをインポートして、

from bs4 import BeautifulSoup

ローカルのHTMLファイルのパスを変数pathに代入しています。

path = r'C:\temp\sample.html'

つづいてopen関数で、変数pathにパスを格納してあるHTMLファイルを開き

with open(path, 'r', encoding='utf-8') as file:

file.readメソッドで、HTMLファイルの内容を読み込み、

    html = file.read()

BeautifulSoupコンストラクタでsoupオブジェクトを作成して、

soup = BeautifulSoup(html, 'html.parser')

prettifyメソッドで文字列にした結果をprintしています。

print(soup.prettify())
[スポンサードリンク]

Home » Python » BeautifulSoupを使ってローカルのHTMLファイルを確認する

「Python」の記事一覧

検索


Copyright © インストラクターのネタ帳 All Rights Reserved.

.