HTML (HyperText Markup Language) не является классическим языком программирования, это язык разметки. Он обеспечивает возможность указать обозревателю как именно должна выглядеть открываемая страница.
Обычно каждая страница содержит ряд стандартных компонентов, уникальные теги, CSS-стили и атрибуты. Уровни вложенности упрощают навигацию по коду. Очевидно, что сайты могут иметь разное назначение – интернет-магазин, видеохостинг, блог и так далее. Однако на данном этапе это не имеет значение, для написания скрипта для парсинга приоритетным является умение работать с кодом страницы.
В качестве основы используются теги, которые могут содержать вложенные теги, их нередко бывает очень много. Для программиста важно понимать, как скрипт должен находить нужный элемент и извлекать необходимую информацию.
В качестве примера работы простого парсера можно привести следующий код Python, используются библиотеки requests и BeautifulSoup::
import requests from bs4 import BeautifulSoup # Отправляем GET-запрос на веб-страницу url = 'https://mob25.com/index2.html' response = requests.get(url) response.encoding = 'utf-8' # Проверяем статус-код ответа if response.status_code == 200: # Инициализируем объект BeautifulSoup для парсинга HTML soup = BeautifulSoup(response.text, 'html.parser') # Ищем элемент с ID "text777" target_element = soup.find(id="text777") # Извлекаем текст из найденного элемента if target_element: extracted_text = target_element.text print(f"Извлеченный текст: {extracted_text}") # Вывод на экран else: print("Элемент с ID 'text777' не найден.") else: print(f"Не удалось получить доступ к странице, статус-код: {response.status_code}")
Выполняется GET-запрос к указанной странице, извлекается HTML-код, далее при помощи библиотеки BeautifulSoup находится нужный тег с последующим извлечением текста.
Очевидно, что на данном этапе код может быть непонятным, данная библиотека и ее возможности будут рассмотрены позднее. В данный момент главное понять общий принцип работы скрипта.