Tutorial web scraping Kepada pemula dengan Python

Web scraping adalah salah satu keterampilan yang sangat Bermanfaat di dunia digital Demi ini. Dengan kemampuan ini, kita Pandai mengumpulkan data dari berbagai sumber di internet secara Mekanis. Dalam blog ini, kita akan membahas Metode melakukan web scraping menggunakan Python, khususnya dengan menggunakan library requests dan BeautifulSoup. Mari kita mulai!

Lebih suka nonton video? silakan tonton video tutorial ini:

Kenapa Perlu Belajar Web Scraping?

Belajar web scraping Krusial karena keahlian ini memungkinkan kita Kepada mengumpulkan data dari berbagai sumber di internet secara Mekanis. Hal ini memudahkan analisis dan pengambilan keputusan berdasarkan informasi yang relevan. Kemampuan ini juga dapat dimanfaatkan dalam berbagai bidang, seperti penelitian, pemasaran, dan pengembangan produk.

Tiga Tahapan dalam Web Scraping

Web scraping umumnya melibatkan tiga tahapan Penting:

Request Konten HTML: Mengambil data HTML dari website yang Mau kita scrape.
Menganalisa Struktur Website: Menganalisa di mana data yang kita butuhkan berada dalam struktur HTML.
Parse Data dengan BeautifulSoup: Mengambil dan mengekstrak data yang relevan dari HTML.

Sasaran Website

Kepada praktik kali ini, kita akan menggunakan website scrapethissite.com. Website ini didedikasikan Kepada Mitra-Mitra yang Mau mencoba atau mempraktikkan ilmu web scraping. Mari kita lihat Teladan daftar negara yang akan kita ambil datanya.

READ Belajar coding perlu sabar - Blog Koding

Step 1: Request HTML

Pertama-tama, kita perlu menginstal package requests Kepada mengambil konten HTML dari website. Kita juga akan menginstal BeautifulSoup Kepada mengekstrak informasi dari HTML. Berikut adalah perintah Kepada menginstalnya:

pip install requests beautifulsoup4

Setelah itu, kita Pandai mulai menulis kode. Kita akan memulai dengan mengimpor library yang diperlukan dan Membikin request ke URL yang kita pilih:

import requests
from bs4 import BeautifulSoup

response = requests.get('https://www.scrapethissite.com/pages/simple/')
soup = BeautifulSoup(response.text, "html.parser")

Setelah kita mendapatkan respons, kita dapat mencetak kode status dan konten HTML-nya Kepada memastikan semuanya berjalan dengan Berkualitas.

Step 2: Menganalisa Struktur Website

Setelah mendapatkan data HTML, langkah selanjutnya adalah menganalisa struktur website. Kita perlu mencari Paham di mana data yang kita butuhkan berada. Salah satu Metode Kepada melakukannya adalah dengan klik kanan pada halaman dan memilih “Inspect” Kepada Menyantap struktur HTML-nya.

Di sini, kita akan mencari elemen yang berisi nama negara, ibu kota, dan populasi. Kita akan mencari ID atau kelas yang lebih spesifik Kepada memastikan kita mengambil data yang Cocok. Misalnya, kita Pandai menemukan elemen dengan kelas country-name Kepada nama negara, country-capital Kepada ibu kota, dan country-population Kepada populasi.

READ Apa itu IndieWeb - Blog Koding

Step 3: Parse Data dengan BeautifulSoup

Setelah kita mengetahui di mana data yang kita butuhkan berada, saatnya Kepada mengekstrak data tersebut. Kita akan menggunakan BeautifulSoup Kepada melakukan parsing data HTML. Mari kita ambil data yang kita butuhkan:

country_blocks = soup.find_all("div", class_="col-md-4 country")

result = []
for block in country_blocks:
    name_element = block.find("h3", class_="country-name")
    country_name = name_element.get_text(strip=True)

    capital_element = block.find("span", class_="country-capital")
    capital_name = capital_element.get_text(strip=True)

    population_element = block.find("span", class_="country-population")
    population_name = population_element.get_text(strip=True)

    result.append({"name": country_name, "capital": capital_name, "population": population_name})

# for item in result:
#     print(f"Country: {item['name']} - Capital: {item['capital']} - Population: {item['population']}")

Kita menggunakan find_all Kepada mendapatkan Segala elemen yang sesuai dengan kelas yang kita cari. Setelah itu, kita ambil teks dari setiap elemen dan menyimpannya dalam list results.

Bonus: Export Data ke CSV

Setelah kita mendapatkan Segala data yang kita butuhkan, kita Pandai mengekspornya ke dalam format CSV. Kita Pandai menggunakan library csv yang sudah tersedia di Python. Berikut adalah Metode Kepada melakukannya:

with open("countries.csv", "w", newline="", encoding="utf-8") as csvfile:
    fieldnames = ["name", "capital", "population"]
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    writer.writeheader()
    for item in result:
        writer.writerow(item)

Dengan menggunakan DictWriter, kita Pandai menulis header dan setiap baris data ke dalam file CSV. Setelah menjalankan kode ini, kita akan mendapatkan file countries.csv yang berisi Segala data yang telah kita ambil.

READ Bahasa pemrograman, Metode memilih (lengkap Survey 2023)

Tantangan dalam Web Scraping

Web scraping Enggak selalu semudah yang kita harapkan. Eksis beberapa tantangan yang mungkin kita hadapi, seperti:

Data tersembunyi di balik beberapa halaman atau menggunakan sistem pagination.
Data yang dimuat dengan metode Ajax, yang memerlukan interaksi Luwes Kepada memicu pemuatan data.
Website yang membatasi akses ketika terlalu banyak permintaan dilakukan dalam waktu singkat.

Kita akan belajar lebih kompleks Kembali Metode menangani tantangan ini di tutorial selanjutnya. Tetapi, Kepada Demi ini, kita sudah berhasil melakukan web scraping sederhana.

Konklusi

Web scraping adalah keterampilan yang sangat Bermanfaat Kepada mengumpulkan data dari berbagai sumber di internet. Dengan menggunakan Python, requests, dan BeautifulSoup, kita dapat dengan mudah mengambil dan mengolah data yang kita butuhkan. Jangan ragu Kepada mencoba sendiri dan eksplorasi lebih lanjut. Apabila kalian Mempunyai pertanyaan atau tantangan yang Mau dibahas, silakan tulis di komentar!

Tamat jumpa di tutorial berikutnya!