Python BeautifulSoup Modülü
BeautifulSoup, HTML veya XML dosyalarını işlemek için oluşturulmuş güçlü ve hızlı bir kütüphanedir.
Bu modül ile bir kaynak içerisindeki HTML kodlarını parse edip,botlar yazabiliriz.
Python paket yöneticisi pip kurulu değilse eğer kuralım.
apt-get install python3-pip
Python’un paket yöneticisine sahip olduğumuza göre,şimdi beautifulsoup4 modülünü kuralım.
Modülün kurulumu sonrasında projemize aşağıdaki gibi dahil edebiliriz.
from bs4 import BeautifulSoup
Aşağıda basit bir html parse işlemi yapalım.
Python’un requests modülü ile siteye bir GET isteği yapacağım daha sonra yaptığım isteğin döndürdüğü değeri bir r objesine atayacağım, sonra beautifulsoup içine r.content değerini vereceğim, burada lxml kütüphanesi ile parse etmesini istediğimi belirttim.
Parse etme işlemlerinde pratik yaptıkça hız kazanıp,hızlı bir şekilde botlar yazabiliriz.
Okuduğum üniversitenin bölümündeki duyurular.php sayfasının kaynak kodundan BeautifulSoup modülü ile yayınlanan duyuruları çektim.
import requests
from bs4 import BeautifulSoup
r = requests.get('http://mekatronik.kocaeli.edu.tr/duyurular.php')
source = BeautifulSoup(r.content,"lxml")
solmenu = source.find_all("div",attrs={"class":"modal-header"})
for sol in solmenu:
print(sol.find("h2",attrs={"class":"modal-title"}).text)