Python BeautifulSoup Modülü

Nuri Yavuz
Jan 18, 2020

--

BeautifulSoup, HTML veya XML dosyalarını işlemek için oluşturulmuş güçlü ve hızlı bir kütüphanedir.

Bu modül ile bir kaynak içerisindeki HTML kodlarını parse edip,botlar yazabiliriz.

Python paket yöneticisi pip kurulu değilse eğer kuralım.

apt-get install python3-pip

Python’un paket yöneticisine sahip olduğumuza göre,şimdi beautifulsoup4 modülünü kuralım.

Modülün kurulumu sonrasında projemize aşağıdaki gibi dahil edebiliriz.

from bs4 import BeautifulSoup

Aşağıda basit bir html parse işlemi yapalım.

Python’un requests modülü ile siteye bir GET isteği yapacağım daha sonra yaptığım isteğin döndürdüğü değeri bir r objesine atayacağım, sonra beautifulsoup içine r.content değerini vereceğim, burada lxml kütüphanesi ile parse etmesini istediğimi belirttim.

Parse etme işlemlerinde pratik yaptıkça hız kazanıp,hızlı bir şekilde botlar yazabiliriz.

Okuduğum üniversitenin bölümündeki duyurular.php sayfasının kaynak kodundan BeautifulSoup modülü ile yayınlanan duyuruları çektim.

import requests
from bs4 import BeautifulSoup
r = requests.get('http://mekatronik.kocaeli.edu.tr/duyurular.php')
source = BeautifulSoup(r.content,"lxml")
solmenu = source.find_all("div",attrs={"class":"modal-header"})
for sol in solmenu:
print(sol.find("h2",attrs={"class":"modal-title"}).text)

--

--

Nuri Yavuz
Nuri Yavuz

Written by Nuri Yavuz

“No effect is before the cause” in the same time “Cause doesn’t necessarily come before effect”

No responses yet