Home » Python » BeautifulSoupでHTMLファイル内の画像URLを取得する

BeautifulSoupでHTMLファイル内の画像URLを取得する

動作検証バージョン：Windows 11 Home + Python 3.10.11

私がやりたかったのは、そのHTMLファイルに書かれている画像ファイルのURLを取得することです。

［スポンサードリンク］

ローカルのHTMLファイルの画像URLを出力するサンプルスクリプト

以下のスクリプトで、Cドライブtempフォルダーのsamle.htmlファイルに書かれている画像ファイルの中で、「https://example.com/」で始まるもののURLを出力できます。

from bs4 import BeautifulSoup

path = r'C:\temp\sample.html'

with open(path, 'r', encoding='utf-8') as file:
html = file.read()

soup = BeautifulSoup(html, 'html.parser')

for img in soup.css.select('img'):
    src = img.attrs['src']
    if src.startswith('https://example.com/'):
        print(src)

以下の行までは、ご紹介済みのスクリプトと同じです。

soup = BeautifulSoup(html, 'html.parser')

私が扱いたかったHTMLファイルの画像URLは以下の形で取得できました。

for img in soup.css.select('img'):
    src = img.attrs['src']
    if src.startswith('https://example.com/'):
        print(src)

特定のURLで始まっていることがわかっていたこともあり、str.startswithメソッドで判定して出力しています。

    if src.startswith('https://example.com/'):
        print(src)

最終更新日時：2024-12-04 10:33

［スポンサードリンク］

Home » Python » BeautifulSoupでHTMLファイル内の画像URLを取得する

『インストラクターのネタ帳』では、2003年10月からMicrosoft Officeの使い方などを紹介し続けています。
『インストラクターのネタ帳』を運営する伊藤潔人が、初めて書かせていただいた書籍です↓↓

PowerPoint VBA本は、実はオブジェクトブラウザーの使い方を徹底的に解説した本です↓↓

グラフを操作するExcel VBAの基本を解説したキンドル本も出しました↓↓

図形を操作するExcel VBAの基本を解説したキンドル本を書きました↓↓

Excel VBA経験者の方に向けて、Word VBAの基本をキンドル本にしました↓↓

Excel VBAユーザーの方を対象として、Wordの表をVBAで操作する基礎をまとめました↓↓

日経BP社から出版された、Excel VBAユーザー向けのPython超入門書です↓↓

上記のExcel VBAユーザー向けのPython超入門書の、元になったキンドル本です↓↓

Pythonの文字列フォーマットの基本をキンドル本としてまとめました↓↓

小数とPythonのdecimalモジュールの基本をキンドル本としてまとめました↓↓

Pythonの外部ライブラリOpenPyXL（オープンパイエクセル）の入門書を、Excel VBAユーザーに向けに書きました↓↓

数式を使った条件付き書式設定が苦手な方に向けたKindle本を書きました↓↓

「Python」の記事一覧