Help Center

ДОКУМЕНТАЦИЯ UCRAWLER

Как работает uCrawler?

uCrawler автоматически парсит статьи из любых сайтов-источников (далее "источники"), структурирует данные в JSON и отдает их напрямую на ваш сайт, мобильное приложение или аналитическую систему.
Выгрузка готовых данных доступна через API (JSON), XML, RSS, с Webhooks или напрямую в вашу базу данных (MySQL, PostgreSQL, Oracle).

Также есть опция автоматического постинга новостей в ваш Телеграм канал.

AI-алгоритм uCrawler группирует похожие новости в треды, как у Яндекс Новостей или Google News.

Система uCrawler полностью автоматизирована. Все, что вам нужно - это добавить источники новостей (ссылки на сайты), которые вы хотите парсить.

Структура данных

Собранные данные обрабатываются и преобразуются в единый формат.

"domain" — доменное имя источника статьи
"api_url" — API URL текущей статьи. Можно использовать GET запрос для получения конкретной статьи по этой ссылке
"html" — текст статьи с HTML тэгами
"text" — "чистый" текст статьи без HTML тэгов
"lang" — язык статьи
"url" — оригинальный URL статьи из источника
"iframes" — iframes из текста статьи, если он есть
"pub_time" — UTC. Дата и время, когда статья была собрана с сайта источника
"meta_images" — ссылки на изображения из META тегов со страницы статьи
"score" — внутренний рейтинг статьи. Высчитывается путем сравнения цитируемости инфоповода среди собранных статей.
"title" — заголовок статьи
"images" — массив ссылок на изображения, которые мы смогли собрать из статьи. uCrawler не собираем изображения размеров менее 300x300px

"url" — ссылка на картинку из источника
"caption" — текст под изображением
"length" — размер изображения (байты)
"format" — формат изображения
"width" — ширина изображения (px)
"height" — высота изображения (px)

"sources" — ID и название источника, группы

"group" — ID группы, которой принадлежит источник
"group_name" — имя группы, которой принадлежит источник
"source" — ID источника
"source_name" — название источника

"icons" — массив ссылок на иконки из статьи
"video" — массив ссылок на видео, которые мы смогли собрать из статьи
"id" — уникальный идентификатор статьи в uCrawler

UCRAWLER HELP CENTER

Начало работы

1

Дашборд

Добавьте в нашу систему URL сайтов, которые вы хотите парсить, или выберите сайты/тематики новостей из нашей библиотеки. Вы можете получать свежие новости либо архивные данные.

Все, что вам нужно - это создать Группу, например "Спортивные новости" и добавить URL сайтов-источников новостей. uCrawler автоматически собирает все новости с вебстраницы.

3

Запросы.
Фильтрация новостей по заданным параметрам.

Получайте супер точные результаты с помощью гибкой системы фильтрации по ключевым словам, источникам и дате.

1

Источники

Выберите группу или конкретный источник, которые будут включены в ваш запрос.

2

Дата начала и Дата окончания (формат: YYYY-MM-DD)

Задайте временные рамки для парсинга данных. По умолчанию максимальный период составляет 30 дней. Если вы хотите увеличить этот период, отправьте запрос на public@ucrawler.app

3

Ключевые слова

Для сбора новостей по темам и получения более точных данных добавляйте ключевые слова к запросам. Система учитывает ключевые слова как в заголовках, так и в текстах статей.

4

Изменение размера текста статьи

Управляйте размером текста статьи. По умолчанию мы отдаем полный текст статьи в запросе, но вы можете сократить его до нужного вам количества символов.

5

Формат

Формат отдаваемых данных: JSON или XML.

6

Размер

Количество статей, которое система может отдавать в одном запросе, варьируется от 1 до 200 (по умолчанию 100). Данные настройки могут быть изменены по запросу.

4

RSS фиды

Создавайте RSS фиды из ваших новостных источников и ключевых слов. Затем просто добавьте ваши персонализированные новости на ваш сайт через RSS виджеты.

1

Источники

Выберите Группу или конкретный источник, которые будут включены в ваш RSS.

2

Количество дней

Задайте временные рамки для парсинга данных. По умолчанию в RSS новости собираются за последние 1-7 дней. Если вы хотите увеличить этот период, отправьте запрос на public@ucrawler.app

3

Ключевые слова

Для сбора новостей по темам и получения более точных данных добавляйте ключевые слова к запросам. Система учитывает ключевые слова как в заголовках, так и в текстах статей.

4

Изменение размера текста статьи

Управляйте размером текста статьи. По умолчанию мы отдаем полный текст статьи в запросе, но вы можете сократить его до нужного вам количества символов.

5

Размер

Количество статей, которое система может отдавать в одном запросе, варьируется от 1 до 200 (по умолчанию 100). Данные настройки могут быть изменены по запросу.

6

Название RSS

Добавьте Имя для вашего RSS фида

6

Экспорт данных

Мы поддерживаем выгрузку данных в ElasticSearch, PostgreSQL, My SQL, MariaDB, Oracle, Microsoft SQL Server, Mongo DB или Webhook. Также мы можем настроить постинг полученных данных в Telegram.

Чтобы подключить эту возможность, напишите нам на public@ucrawler.app

8

API документация

uCrawler API документация доступна всем пользователям. Через API вы можете создавать Группы, добавлять источники и работать с запросами.

Если вам нужна помощь с API, напишите нам на public@ucrawler.app

UP