Скрапинг веб-сайтов с помощью Python. Сбор данных из современного интернета, Белый
Опис
Изучите методы скрапинга и краулинга веб-сайтов, чтобы получить доступ к неограниченному объему данных в любом уголке Интернета и любом формате. С помощью этого практического руководства вы узнаете, как использовать скрипты Python и веб-API, чтобы одновременно собрать и обработать данные с тысяч или даже миллионов веб-страниц.
Идеально подходящая для программистов, специалистов по безопасности и веб-адмнппстраторов, знакомых с языком Python, эта книга знакомит не только с основными принципами работы веб-скраперов, но и углубляется и более сложные темы, такие как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике.
Идеально подходящая для программистов, специалистов по безопасности и веб-адмнппстраторов, знакомых с языком Python, эта книга знакомит не только с основными принципами работы веб-скраперов, но и углубляется и более сложные темы, такие как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике.
Характеристики
| author: | Митчелл Райан |
| availabilityCode: | 3 |
| binding: | 60x88 1/16 |
| Color: | Белый |
| Cover: | мягкая обложка |
| ds: | 25 |
| ISBN: | 978-5-97060-223-2 |
| language: | rus |
| MadeIn: | Россия |
| page_extent: | 280 |
| table_of_contents: | Предисловие Вступление ЧАСТЬ I. ПОСТРОЕНИЕ СКРАПЕРОВ Глава 1. Ваш первый скрапер Соединение с Интернетом Введение в BeautifulSoup Установка BeautifulSoup Запуск BeautifulSoup Как обеспечить надежный скрапинг Глава 2. Продвинутый парсинг HTML Вам не всегда нужен молоток Еще одно применение BeautifulSoup find() и findAll().. Другие объекты BeautifulSoup Навигация по дереву синтаксического разбора Работа с дочерними элементами и элементами- потомками Работа с одноуровневыми элементами Работа с родительскими элементами Регулярные выражения Регулярные выражения и BeautifulSoup Работа с атрибутами Лямбда-выражения За рамками BeautifulSoup Глава 3. Запуск краулера Обход отдельного домена Краулинг всего сайта Сбор данных по всему сайту Краулинг Интернета Краулинг с помощью Scrapy Глава 4. Использование API Как работают API Общепринятые соглашения Методы Аутентификация Ответы Вызовы API Echo Nest Несколько примеров Twitter Приступаем к работе Несколько примеров Google API Приступаем к работе Несколько примеров Парсинг J SON-данных Возвращаем все это домой Подробнее о применении API Глава 5. Хранение данных Медиафайлы Сохранение данных в формате CSV MySQL Установка MySQL Некоторые основные команды Интеграция с Python Методы работы с базами данных и эффективная практика "Шесть шагов" в MySQL Электронная почта Глава 6. Чтение документов Кодировка документа Текст Кодировка текста и глобальный Интернет CSV Чтение CSV-файлов PDF Microsoft Word и .docx ЧАСТЬ II. ПРОДВИНУТЫЙ СКРАПИНГ Глава 7. Очистка данных Очистка данных на этапе создания кода Нормализация данных Очистка данных постфактум OpenRefine Глава 8. Чтение и запись естественных языков Аннотирование данных Марковские модели Шесть шагов Википедии: заключительная часть Natural Language Toolkit Установка и настройка Статистический анализ с помощью NLTK Лексикографический анализ с помощью NLTK Дополнительные ресурсы Глава 9. Краулинг сайтов, использующих веб- формы Библиотека requests Отправка простой формы Радиокнопки, флажки |
| topCategoryId: | 3 |
| Type: | book |
| Weight: | 295 |
| year: | 2016 |
| Высота: | 14 |
| Длина: | 205 |
| Ширина: | 142 |
Графік зміни ціни & курс обміну валют
