Руководство для тех, кто хочет заказать парсинг как услугу или спарсить данные из YouTube с помощью шаблона YouTube-Parser.

Информация важна как для владельцев YouTube-Parser, так и для тех кто столкнулся с задачей парсинга YouTube впервые. В руководстве вы узнаете об особенностях парсинга YouTube, а также о действующих ограничениях и как получать максимальное количество результатов в целевой тематике.

1. Поисковые запросы для парсинга YouTube

Поиск данных в YouTube аналогичен поиску в любой другой поисковой системе: Google, Yandex, Yahoo. Для того чтобы найти любую информацию нужны входные данные – поисковой запрос (запрос, ключ, ключевая фраза, поисковая фраза). Поисковой запрос указывается в строке поиска после чего YouTube возвращает результаты соответствующие тематике запроса.

Кнопки «спарсить всё» или спарсить «все каналы блогеров из СНГ от 10 000 подписчиков» или «все каналы по крипто тематике из США, на которых в последнюю неделю публиковались видео» и подобного нет и не будет. YouTube не предоставляет возможности делать выборку данных по аудитории, категории контента, странам или возвращать результаты сразу с указанным значением подписчиков, просмотров, частоте публикации видео итд. Поиск каналов, видео, плейлистов на любую тематику возможно только одним способом – вводом поискового запроса в строку поиска YouTube и получением в ответ результатов поисковой выдачи.

Например, для того чтобы найти каналы в крипто тематике необходимо ввести тематическое слово или словосочетание в качестве поискового запроса:

  • Trending DeFi tokens
  • Crypto Exchange
  • Crypto passive income.

В ответ YouTube вернёт результаты релевантные поисковым запросам.

2. Ограничение поисковой выдачи YouTube

В YouTube действует ограничение на возвращаемое количество результатов на один поисковой запрос — до 500 результатов (40 страниц). Это значит, что по одному поисковому запросу нельзя получить больше 500 шт. каналов, видео или плейлистов. Обойти это ограничение нельзя!

Количество результатов зависит от популярности поискового запроса. Если запрос популярен, то YouTube вернёт максимальное количество результатов, но не более 500 шт. Поэтому чем больше будет указано поисковых запросов как входных данных для парсинга, тем больше можно будет получить каналов, видео, плейлистов в желаемой тематике.

3. Этапы парсинга YouTube

Парсинг данных из YouTube чаще всего проходит в несколько этапов.

  1. Парсинг поисковой выдачи по видео, каналам или плейлистам
  2. Парсинг расширенной информации о канале, видео, плейлистах по собранным ссылкам из поисковой выдачи

YouTube в результатах поиска даёт ограниченную информацию о запрашиваемой сущности. Такие данные как «количество просмотров видео», «количество подписчиков канала», «количество видео на канале», «полное описание видео или канала», «дату публикации видео», «страну канала» итд. нельзя получить со страницы поисковой выдачи. Для получения этой информации необходимо запрашивать данные по каждой сущности отдельным запросом к YouTube.

Если стоит задача найти детские каналы с кол-вом подписчиков от 5000 и созданные до 2020 года, то вначале будет собран список ссылок на каналы по тематическим поисковым запросам, а потом уже отдельным заданием будут собрана информация по каждому каналу.

В некоторых случаях может добавляться третий этап парсинга — когда требуется собрать ссылки на социальные сети из раздела «О канале» или же получить по каждому каналу список всех опубликованных видео и отобрать каналы с учётом дат публикаций видео или по кол-ву просмотров, лайков итд.

Если вы заказываете парсинг, то каждый этап оплачивается отдельно в соответствии с ценами указанными здесь: Заказать парсинг YouTube

4. Почему лучше парсить выдачу по видео?

Выполняя задачу поиска тематических каналов из поисковой выдачи рекомендуется парсить видео, а не каналы. При парсинге выдачи по каналам YouTube будет возвращать каналы у которых название включает все или часть слов из поискового запроса в том же порядке в котором они написаны. То есть название канала должно будет обязательно содержать часть поисковой фразы или всю фразу, что сильно сокращает количество результатов. При этом если парсить выдачу по видео YouTube отдаёт два варианта результатов: как с точным вхождением фразы в название видео, так и учитывая релевантность видео к тематике поискового запроса. Тут название видео может не содержать все слова из поискового запроса и при этом оно все равно будет относится к тематике указанного запроса, так как алгоритмы YouTube отнесли видео к той или иной тематике. Таким образом собирая поисковую выдачу по видео находятся множество каналов, которые публикуют контент в целевой тематике. Поэтому при поиске каналов лучше использовать парсинг выдачи «по видео», а не «по каналам» или комбинировать два этих метода.

5. Фильтрация результатов

Фильтрация данных по критериям для исключения нежеланных сущностей из результатов может быть выполнена двумя способами.

  1. Фильтрация во время парсинга выполняемая из YouTube-Parser
  2. Фильтрация после выполнения парсинга в таблице отчёте с применением фильтров и условий из Microsoft Excel

Рекомендуется использовать фильтрацию данных именно из Microsoft Excel, где есть возможность применять более сложные критерии и условия фильтрации, а также потому что есть возможность откатить исключённые результаты с применением новых значений для фильтрации не собирая данные заново.

Включение фильтрации из YouTube-Parser во время парсинга на лету не влияет на скорость сбора данных — данные собираются с одинаковой скоростью.

6. Отличие YouTube Data API от InnerTube API

В YouTube-Parser реализованы два метода парсинга, которые можно выбирать в зависимости от типа собираемых данных или указанного задания.

  1. C использованием официального API «YouTube Data API v3» предназначенного для удобного получения данных из YouTube
  2. С использованием приватного API «InnerTube API», который используется самим YouTube при взаимодействии типа «клиент-сервер» для отображения данных в браузере при посещении видео-хостинга и работе с ним

Основным методом парсинга данных в YouTube-Parser считается YouTube Data API v3. Используя официальный API YouTube шаблон получает подавляющую часть данных из YouTube. Стабильность и максимальная скорость работы гарантируется только при использовании этого метода.

Тем не менее некоторые данные из YouTube можно получить только используя второй метод парсинга «InnerTube API» по причине того, что в YouTube Data API v3 не реализованы методы получения всех типов данных из YouTube или потому что это не предусмотрено правилами сервиса. Например в таких функциях как «Парсинг соц. ссылок канала», «Парсинг постов канала», «Парсинг комментариев к постам», «Скачивание видео», «Скачивание субтитров», «Парсинг трендов» используется только InnerTube API в виду отсутствия методов получения этих данных в YouTube Data API v3.

Также часть функций может использовать как «YouTube Data API v3″ так и «InnerTube API» и пользователь может выбрать какой метод использовать. В зависимости от метода парсинга меняются поля с информацией о сущности. Например при использовании метода InnerTube API при сборе данных каналов или видео можно получить информацию о монетизации, чего нельзя сделать используя YouTube Data API v3. Метод парсинга изменяется на первой вкладке «Входных настроек» шаблона. Более подробную информацию о функциях и какие методы они используют читайте в документации.

7. Что такое API ключи или YouTube API Keys?

Для парсинга данных методом YouTube Data API v3 необходимо использовать специальные API ключи или API Keys (строка состоящая из 39 символов) посредством которых осуществляется доступ к API и получение данных из YouTube. У ключей есть суточная квота — 10 000 поинтов, которую они используют для обращений к API и где за каждое обращение расходуется фиксированное количество поинтов. Квота на ключах обновляется каждые сутки, что позволяет использовать их неограниченное количество раз. Чем больше ключей — тем больше данных можно спарсить в течение суток.

Эти ключи необходимо регистрировать в консоли разработчика Google или покупать уже готовые для использования. Рекомендуется приобретать уже готовые в большом количестве, так как это проще и удобнее.

Сколько можно спарсить в сутки с одного API ключа?

5 поисковых запросов — парсинг поисковой выдачи
10 000 видео — парсинг информации о видео
10 000 каналов — парсинг информации о каналах

Квота для всех методов и заданий общая!
Если у ключа расходована квота при парсинге поисковой выдачи, то любые другие данные уже нельзя получить и необходимо ждать обновления квоты.

8. Прокси для парсинга через InnerTube API

При использовании метода парсинга InnerTube API могут понадобиться прокси, иначе YouTube при частом и большом объёме обращений к YouTube потребует пройти ReCaptcha в целях предупреждения эксплуатирования видео-хостинга YouTube ботами и системами автоматизации действий. Для исключения появления ReCaptcha желательно использование индивидуальных IPv4 прокси с высокой скоростью и низким пингом (мобильные, резидент, хост).

IPv6 прокси и паблик прокси не рекомендуются для парсинга YouTube!

Сколько можно спарсить c одного IP до появления рекаптчи?

50 поисковых запросов — парсинг поисковой выдачи
500 — 1000 видео — парсинг информации о видео
500 — 1000 каналов — парсинг информации о каналах