SelfParser - универсальный парсер контента

[img-SelfParser - универсальный парсер контента][/img]SelfParser - универсальный парсер новостей, товаров. Сам парсер не требует базу данных, полученные данные Вы можете сохранять в любой формат. Что бы понять принцип работы парсера, читайте эту статью до конца.



Особенности и работа парсера

Как я уже сказал, парсер работает сам по себе и не требует подключение базы данных. Он получает контент и отдает его обработчику, который может написать любой знающий PHP программист. Но не пугайтесь. На данный момент в комплекте уже есть один обработчик, который забивает базу DLE. Одним словом, сейчас парсер может наполнять сайты на DLE. В дальнейших обновлениях я буду добавлять обработчики для wordpress и т.д. (по запросу), а так же улучшать саму работу парсера, добавлять настройки и возможности. Если Вы желаете написать свой обработчик, я подскажу как и куда положить, хотя профи итак догадается :D.
Парсер отдает полученный результат в кодировке UTF-8, далее в обработчике Вы можете конвертировать если нужно в любую другую кодировку.

Возможности

  • Независимая админка.
  • Парсер работает не зависимо, то есть сам по себе и не зависит от того, какая CMS установлена.
  • Возможность создавать неограниченное количество шаблонов (сайтов для парсинга).
  • Может получать данные как с сайтов кодировка которых windows-1251 так и UTF-8, а так же конвертировать все полученные данные или отдельный контент в UTF-8.
  • Может получать картинки и файлы из контента. Обработчик DLE их сохраняет вам на сервер и заменяет пути картинок в контенте на ваши, и файлы сохраняет к вам на сервер в папку uploads/files/... как положено и добавляет вложения в конец полной новости.
  • При создании шаблона, можно проверить его работу, как он получает контент.
  • Парсить контент как с HTML тегами, так и без них.
  • Включение / выключение шаблонов.
  • Ведение логов.
  • Статус активности.
  • Возможность парсить данные через прокси SOCKS5 типа.
  • Возможность удалять скрипты или не удалять.
  • Возможность удалять ненужные элементы из полученного контента.
  • Возможность заменять или вырезать слова, фразы, код из полученного контента как по точному совпадению, так и по регулярному выражению.
  • Парсер обходит каждый созданный Вами шаблон по очереди и проходится по всем новостям или товарам донора. Обработчик DLE сохраняет новость если такой ещё нет (сверяется по заголовку). Если новость уже есть, он переходит к парсингу нового шаблона и так по кругу.
  • Работа по крону через простой HTTP запрос.
  • Адаптивная панель управления.
  • Для DLE:
    - возможность добавлять полученные данные в доп поля (текст, картинки, галерею и т.д.)
    - добавлять данные как в одну, так и сразу в несколько категорий на сайт.
    - добавлять новые посты сразу или ставить на модерацию.

Для идеальной работы парсера по крону, необходимо установить запуск не менее 1 - 2 раза в минуту.

Демо даю по запросу. Деньги после покупки не возвращаются, поэтому тестируйте в демке, если нравится, покупайте.

Цены

1 лицензия = 1 домен.
  • 10 т.р. - 10 лицензий + 2 бесплатных обновлений не включая обновления из первого пункта.
  • 20 т.р. - неограниченное кол-во лицензий + бесплатное обновление до момента реализации страниц настроек и логов (включая).
  • 50 т.р. - полный без лимит. Бесплатные обновления и поддержка.
Дополнительно:
    от 200 р. за настройку одного шаблона, если не получается настроить самому. Цена зависит от кол-во доп. полей и сложности их получения.

Обновление SelfParser 1.3

Новые функции и возможности парсера:
  • Добавлена возможность парсить сайты через прокси.
    Список прокси указывается в файле selfparser/data/proxy.txt в формате (IP:port). Каждый новые прокси с новой строки. Не оставляйте пустых строк.
    Если файл пустой, то парсер работает в обычном режиме.
  • Добавлен функционал, который умеет заменять или вырезать слова, фразы или код из полученных данных.
    Есть как простая замена так и с регулярными выражениями, что позволяет очень гибко настроить получение нужных данных.
  • Реализованы все страницы: логи, процессы, настройки, прямая ссылка на запуск, faq.
    Логи показывают такие данные как:
    - старт парсера;
    - запуск, остановка парсера;
    - прокси и время получения данных в секундах;
    - ссылка на источник, ID новости с ссылкой на новость, которая уже есть на сайте (информация о том, что новость не была добавлена);
    - информация о переключении шаблона или о невозможности получить контент;
    - размер файла логов на первой строке. При достижении 1Mb удаляется первая строка и добавляется новая, что позволяет предотвратить нагрузку. Файл обновляется автоматически (через AJAX). Есть кнопка пауза, что бы остановить обновление и просмотреть нужную строчку в логов.
  • Добавлена возможность сохранения картинок на сайт в дополнительные поля как одного изображения, так и галереи, читайте далее.
Добавление и загрузка картинок на сайт раньше работала только из полученного контента, см. видео. Теперь есть возможность загружать изображения через опцию (картинки). Как это делается читайте далее.
  1. Выбираете получить элемент -> картинки.
  2. В поле название поля если указать XF-fieldname | свое название, то полученные изображения будут добавляться в доп поле fieldname. При этом в поле код должен быть указан путь к картинке, например .sidebar img:eq(0) - найдет первую картинку из элемента с классом sidebar.
Если вы хотите загружать изображения в поле с одним изображением, то в поле код должно быть указан код для получения только одного изображения, иначе в доп.поле ничего не запишется.
Если вы хотите загружать в галерею изображений, то в поле код должно быть указано получение несколько изображений.
Если приставку XF-... не указывать, то полученные изображения, просто будут загружены на ваш сайт, но нигде не будут присутствовать в базе DLE.
Эта функция ещё в тестовом режиме, но все работает пока хорошо. Все ваши пожелания пишите в комментариях.

Все Ваши вопросы и пожелания пишите в комментариях или в поддержку.

За получением ключа обращайтесь в поддержку, указав адрес сайта, где будет установлен парсер.
Установка парсера бесплатна.

Обновление SelfParser 1.5

  1. Добавлена возможность включать / выключать шаблон на странице списка шаблонов.
  2. Добавлена функция копирования шаблонов.
  3. Изменена логика обработки шаблонов. Выключенные шаблоны теперь не обрабатываются, тем самым не тратя 1 минуту за просмотр одного шаблона.
  4. В обработчике можно указать теперь префикс базы, а так же добавлена возможность получать ссылку на источник в доп поле. По умолчанию дополнительное поле должно называться source. Его можно изменить так же в обработчике.



Обновлен обработчик. Теперь можно при парсинге файлов, например торрентов или подобных, загружать его в дополнительное поле.
Просто замените обработчик.
Не забудьте изменить доступы в этом файле, к базе и $dle_config.
что бы файл загружался в доп поле, укажите его в элементе files_fields.
Скачать файл: dle.zip [4,17 Kb] (cкачиваний: 180)

Цена: 3000

Купить
  • Kylaksizov
  • Магазин | Плагины, модули и хаки для DLE | Скрипты
  • 6.10.2018 20:28

Комментарии

Оставить комментарий