На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

GeekBrains

4 подписчика

Создание парсера сайтов на языке Python

Парсинг - это процесс поиска определенной информации в большом фрагменте текста, а также разбиение полученных данных на смысловые части. Под парсером же подразумевается скрипт, используемый для автоматического сбора информации со страниц сайта и предоставления ее пользователю в структурированном виде.

Создание парсера актуально в тех случаях, когда стоит задача извлечь и структурировать данные из большого количества страниц, когда ручная обработка данных практически невозможна или требует колоссальных затрат человеческих ресурсов. Также парсеры очень полезны, когда данные необходимо извлекать часто и оперативно. Примером таких данных являются курсы валют и погода.
На этом вебинаре вы научитесь создавать простой, но мощный парсер на языке Python при помощи встроенной библиотеки urllib и сторонней cssselect.
Ваш парсер будет обходить страницы сайта, извлекая нужную информацию из html-кода сайта по css-пути и выводить ее для пользователя в удобном структурированном виде в Excel-файл.

В программе вебинара:
* Создание типовой Python-программы и получение входных данных из консоли;
* Создание виртуального окружения Python (venv);
* Установка библиотек в виртуальное окружение;
* Последовательный обход и загрузка страниц и изображений при помощи urllib;
* Вывод полученных данных в Excel-файл.

Автор и ведущий вебинара - Дмитрий Акинин

Практик с блестящими знаниями и богатым опытом в области разработки веб-приложений: HTML5, CSS3, JavaScript, Python, Ruby, PHP, проектирования интерфейсов и баз данных.
Дмитрий - технический директор собственной студии, клиентами которой являются как крупные производственно-промышленные холдинги, так и предприятия малого бизнеса.
В качестве руководителя проекта, backend и frontend разработчика Дмитрий принимал участие в большом количестве проектов, в числе которых: сайты медиагруппы "Звезда" - телеканал "Звезда", радио "Звезда", корпоративный сайт компании "Лудинг" - лидера алкогольного рынка России, сайт телеканала "Столица", сайт издательского дома "Собеседник", информационно-аналитические проекты "Первого канала", поддержка сайта компании "Pioneer", корпоративные порталы предприятий нефтегазовой отрасли, торговые площадки, онлайн CRM-системы, веб-приложения.


Глубже освоить язык программирования Python поможет профессия «Программист Python».

Ссылка на первоисточник

Картина дня

наверх