【Python】BeautifulSoupで日本語・文字列だけを抽出する方法

2023年2月6日

BeautifulSoupはPythonのライブラリの一つです。

BeautifulSoupを使うことで、HTMLやXML文書をパースすることができます。

Webページのスクレイピングなどを行う際に、タグを探し出し、必要なデータを取り出すことができます。

業務効率化を行いたい方は、BeautifulSoupはとても便利なライブラリです。

今回は、BeautifulSoupで日本語・文字列だけを抽出する方法を解説していきます。

BeautifulSoupで日本語だけを抽出したいのに、余計なものまで抽出されるケースはありませんか？

こんな感じでhtmlの情報も出てきてしまいます。

こういう時、日本語の文字列だけを抽出するにはどうしたら良いのでしょうか？

BeautifulSoupで取得したデータから、日本語・文字列だけを抽出する方法は以下のとおりです。

soup.find_all(class_="_3cl937Zpn1ce8mDKd5kp7u")[0].text

このようにリスト内の要素に対して、「.text」属性を使用することで、文字列を抽出することができます。

独学での勉強に限界を感じている方は、思い切って課金するのも手です。

udemyなら基礎的な知識を短期間でマスターすることが可能です。

僕も最初の頃は、udemyの動画で勉強しました。

講師のコードを見ながら作成できるので、成長速度が非常に早くなりました。

数千円で数十時間の節約になるので、悩んでいる方はケチらず投資していきましょう！

よかったらシェアしてね！

コメント