ДОКУМЕНТАЦИЯ UCRAWLER

Как работает uCrawler?

uCrawler автоматически парсит статьи из любых сайтов-источников (далее "источники"), структурирует данные в JSON и отдает их напрямую на ваш сайт, мобильное приложение или аналитическую систему.
Выгрузка готовых данных доступна через API (JSON), XML, RSS, с Webhooks или напрямую в вашу базу данных (MySQL, PostgreSQL, Oracle).

Также есть опция автоматического постинга новостей в ваш Телеграм канал.

AI-алгоритм uCrawler группирует похожие новости в треды, как у Яндекс Новостей или Google News.

Система uCrawler полностью автоматизирована. Все, что вам нужно - это добавить источники новостей (ссылки на сайты), которые вы хотите парсить.
Структура данных
Собранные данные обрабатываются и преобразуются в единый формат.
"domain" — доменное имя источника статьи
"api_url" — API URL текущей статьи. Можно использовать GET запрос для получения конкретной статьи по этой ссылке
"html" — текст статьи с HTML тэгами
"text" — "чистый" текст статьи без HTML тэгов
"lang" — язык статьи
"url" — оригинальный URL статьи из источника
"iframes" — iframes из текста статьи, если он есть
"pub_time" — UTC. Дата и время, когда статья была собрана с сайта источника
"meta_images" — ссылки на изображения из META тегов со страницы статьи
"score" — внутренний рейтинг статьи. Высчитывается путем сравнения цитируемости инфоповода среди собранных статей.
"title" — заголовок статьи
"images" — массив ссылок на изображения, которые мы смогли собрать из статьи. uCrawler не собираем изображения размеров менее 300x300px
  • "url" — ссылка на картинку из источника
  • "caption" — текст под изображением
  • "length" — размер изображения (байты)
  • "format" — формат изображения
  • "width" — ширина изображения (px)
  • "height" — высота изображения (px)
"sources" — ID и название источника, группы
  • "group" — ID группы, которой принадлежит источник
  • "group_name" — имя группы, которой принадлежит источник
  • "source" — ID источника
  • "source_name" — название источника
"icons" — массив ссылок на иконки из статьи
"video" — массив ссылок на видео, которые мы смогли собрать из статьи
"id" — уникальный идентификатор статьи в uCrawler
UCRAWLER HELP CENTER
Начало работы

1
Дашборд
Добавьте в нашу систему URL сайтов, которые вы хотите парсить, или выберите сайты/тематики новостей из нашей библиотеки. Вы можете получать свежие новости либо архивные данные.

Все, что вам нужно - это создать Группу, например "Спортивные новости" и добавить URL сайтов-источников новостей. uCrawler автоматически собирает все новости с вебстраницы.

3
Запросы.
Фильтрация новостей по заданным параметрам.
Получайте супер точные результаты с помощью гибкой системы фильтрации по ключевым словам, источникам и дате.
1
Источники
Выберите группу или конкретный источник, которые будут включены в ваш запрос.
2
Дата начала и Дата окончания (формат: YYYY-MM-DD)
Задайте временные рамки для парсинга данных. По умолчанию максимальный период составляет 30 дней. Если вы хотите увеличить этот период, отправьте запрос на public@ucrawler.app
3
Ключевые слова
Для сбора новостей по темам и получения более точных данных добавляйте ключевые слова к запросам. Система учитывает ключевые слова как в заголовках, так и в текстах статей.
4
Изменение размера текста статьи
Управляйте размером текста статьи. По умолчанию мы отдаем полный текст статьи в запросе, но вы можете сократить его до нужного вам количества символов.
5
Формат
Формат отдаваемых данных: JSON или XML.
6
Размер
Количество статей, которое система может отдавать в одном запросе, варьируется от 1 до 200 (по умолчанию 100). Данные настройки могут быть изменены по запросу.

4
RSS фиды
Создавайте RSS фиды из ваших новостных источников и ключевых слов. Затем просто добавьте ваши персонализированные новости на ваш сайт через RSS виджеты.
1
Источники
Выберите Группу или конкретный источник, которые будут включены в ваш RSS.
2
Количество дней
Задайте временные рамки для парсинга данных. По умолчанию в RSS новости собираются за последние 1-7 дней. Если вы хотите увеличить этот период, отправьте запрос на public@ucrawler.app
3
Ключевые слова
Для сбора новостей по темам и получения более точных данных добавляйте ключевые слова к запросам. Система учитывает ключевые слова как в заголовках, так и в текстах статей.
4
Изменение размера текста статьи
Управляйте размером текста статьи. По умолчанию мы отдаем полный текст статьи в запросе, но вы можете сократить его до нужного вам количества символов.
5
Размер
Количество статей, которое система может отдавать в одном запросе, варьируется от 1 до 200 (по умолчанию 100). Данные настройки могут быть изменены по запросу.
6
Название RSS
Добавьте Имя для вашего RSS фида

6
Экспорт данных
Мы поддерживаем выгрузку данных в ElasticSearch, PostgreSQL, My SQL, MariaDB, Oracle, Microsoft SQL Server, Mongo DB или Webhook. Также мы можем настроить постинг полученных данных в Telegram.

Чтобы подключить эту возможность, напишите нам на public@ucrawler.app

8
API документация
uCrawler API документация доступна всем пользователям. Через API вы можете создавать Группы, добавлять источники и работать с запросами.

Если вам нужна помощь с API, напишите нам на public@ucrawler.app