BeautifulSoupはPythonのライブラリの一つです。
BeautifulSoupを使うことで、HTMLやXML文書をパースすることができます。
Webページのスクレイピングなどを行う際に、タグを探し出し、必要なデータを取り出すことができます。
業務効率化を行いたい方は、BeautifulSoupはとても便利なライブラリです。
今回は、BeautifulSoupであいまい検索をする方法を解説していきます。
目次
【Python】BeautifulSoupであいまい検索・類似検索をする方法
文字列のあいまい検索を行う方法
from bs4 import BeautifulSoup
import re
soup = BeautifulSoup(html, "html.parser")
# 正規表現を使って検索
elems = soup.find_all(string=re.compile("任意の文字列"))
# 検索結果を表示
for elem in elems:
print(elem)
このように、re.compile
を使って正規表現を指定することであいまいな検索を行うことができます。
compile(“^.文字列.$”)は、任意の文字を記載してください。
re.compile
は正規表現の文字列パターンを表すオブジェクトを作成する関数です。
正規表現は文字列を検索・抽出するための記法です。re.compile
を使うことで、正規表現を一度作成してから複数回使用することができます。
リンク情報のあいまい検索をする方法
from bs4 import BeautifulSoup
import re
soup = BeautifulSoup(html, "html.parser")
# 正規表現を使って検索
elems = soup.find_all(href=re.compile("任意の文字列"))
# 検索結果を表示
for elem in elems:
print(elem)
もっと効率的に勉強したい方
独学での勉強に限界を感じている方は、思い切って課金するのも手です。
udemyなら基礎的な知識を短期間でマスターすることが可能です。
僕も最初の頃は、udemyの動画で勉強しました。
講師のコードを見ながら作成できるので、成長速度が非常に早くなりました。
数千円で数十時間の節約になるので、悩んでいる方はケチらず投資していきましょう!
コメント