SelfParser - универсальный парсер контента

Универсальный парсер контента для любых CMS.
3000 ₽
  • Описание
  • Скриншоты
  • Обновления
  • Комментарии 64
SelfParser - универсальный парсер новостей, товаров. Сам парсер не требует базу данных, полученные данные Вы можете сохранять в любой формат. Что бы понять принцип работы парсера, читайте эту статью до конца.



Особенности и работа парсера

Как я уже сказал, парсер работает сам по себе и не требует подключение базы данных. Он получает контент и отдает его обработчику, который может написать любой знающий PHP программист. Но не пугайтесь. На данный момент в комплекте уже есть один обработчик, который забивает базу DLE. Одним словом, сейчас парсер может наполнять сайты на DLE. В дальнейших обновлениях я буду добавлять обработчики для wordpress и т.д. (по запросу), а так же улучшать саму работу парсера, добавлять настройки и возможности. Если Вы желаете написать свой обработчик, я подскажу как и куда положить, хотя профи итак догадается :D.
Парсер отдает полученный результат в кодировке UTF-8, далее в обработчике Вы можете конвертировать если нужно в любую другую кодировку.

Возможности

  • Независимая админка.
  • Парсер работает не зависимо, то есть сам по себе и не зависит от того, какая CMS установлена.
  • Возможность создавать неограниченное количество шаблонов (сайтов для парсинга).
  • Может получать данные как с сайтов кодировка которых windows-1251 так и UTF-8, а так же конвертировать все полученные данные или отдельный контент в UTF-8.
  • Может получать картинки и файлы из контента. Обработчик DLE их сохраняет вам на сервер и заменяет пути картинок в контенте на ваши, и файлы сохраняет к вам на сервер в папку uploads/files/... как положено и добавляет вложения в конец полной новости.
  • При создании шаблона, можно проверить его работу, как он получает контент.
  • Парсить контент как с HTML тегами, так и без них.
  • Включение / выключение шаблонов.
  • Ведение логов.
  • Статус активности.
  • Возможность парсить данные через прокси SOCKS5 типа.
  • Возможность удалять скрипты или не удалять.
  • Возможность удалять ненужные элементы из полученного контента.
  • Возможность заменять или вырезать слова, фразы, код из полученного контента как по точному совпадению, так и по регулярному выражению.
  • Парсер обходит каждый созданный Вами шаблон по очереди и проходится по всем новостям или товарам донора. Обработчик DLE сохраняет новость если такой ещё нет (сверяется по заголовку). Если новость уже есть, он переходит к парсингу нового шаблона и так по кругу.
  • Работа по крону через простой HTTP запрос.
  • Адаптивная панель управления.
  • Для DLE:
    - возможность добавлять полученные данные в доп поля (текст, картинки, галерею и т.д.)
    - добавлять данные как в одну, так и сразу в несколько категорий на сайт.
    - добавлять новые посты сразу или ставить на модерацию.

Для идеальной работы парсера по крону, необходимо установить запуск не менее 1 - 2 раза в минуту.

Демо даю по запросу. Деньги после покупки не возвращаются, поэтому тестируйте в демке, если нравится, покупайте.

Цены

1 лицензия = 1 домен.
  • 2 т.р. - бесплатное обновление до тех пор, пока не будет выпущена сборка с реализацией страниц (настройки и логи). Когда настройки и логи будут функционировать, бесплатное обновление заканчивается.
    - 1 лицензия. Каждая последующая со скидкой 20%.
  • 10 т.р. - 10 лицензий + 2 бесплатных обновлений не включая обновления из первого пункта.
  • 20 т.р. - неограниченное кол-во лицензий + бесплатное обновление до момента реализации страниц настроек и логов (включая).
  • 50 т.р. - полный без лимит. Бесплатные обновления и поддержка.
Дополнительно:
    от 200 р. за настройку одного шаблона, если не получается настроить самому. Цена зависит от кол-во доп. полей и сложности их получения.

Обновление SelfParser 1.3

Новые функции и возможности парсера:
  • Добавлена возможность парсить сайты через прокси.
    Список прокси указывается в файле selfparser/data/proxy.txt в формате (IP:port). Каждый новые прокси с новой строки. Не оставляйте пустых строк.
    Если файл пустой, то парсер работает в обычном режиме.
  • Добавлен функционал, который умеет заменять или вырезать слова, фразы или код из полученных данных.
    Есть как простая замена так и с регулярными выражениями, что позволяет очень гибко настроить получение нужных данных.
  • Реализованы все страницы: логи, процессы, настройки, прямая ссылка на запуск, faq.
    Логи показывают такие данные как:
    - старт парсера;
    - запуск, остановка парсера;
    - прокси и время получения данных в секундах;
    - ссылка на источник, ID новости с ссылкой на новость, которая уже есть на сайте (информация о том, что новость не была добавлена);
    - информация о переключении шаблона или о невозможности получить контент;
    - размер файла логов на первой строке. При достижении 1Mb удаляется первая строка и добавляется новая, что позволяет предотвратить нагрузку. Файл обновляется автоматически (через AJAX). Есть кнопка пауза, что бы остановить обновление и просмотреть нужную строчку в логов.
  • Добавлена возможность сохранения картинок на сайт в дополнительные поля как одного изображения, так и галереи, читайте далее.
Добавление и загрузка картинок на сайт раньше работала только из полученного контента, см. видео. Теперь есть возможность загружать изображения через опцию (картинки). Как это делается читайте далее.
  1. Выбираете получить элемент -> картинки.
  2. В поле название поля если указать XF-fieldname | свое название, то полученные изображения будут добавляться в доп поле fieldname. При этом в поле код должен быть указан путь к картинке, например .sidebar img:eq(0) - найдет первую картинку из элемента с классом sidebar.
Если вы хотите загружать изображения в поле с одним изображением, то в поле код должно быть указан код для получения только одного изображения, иначе в доп.поле ничего не запишется.
Если вы хотите загружать в галерею изображений, то в поле код должно быть указано получение несколько изображений.
Если приставку XF-... не указывать, то полученные изображения, просто будут загружены на ваш сайт, но нигде не будут присутствовать в базе DLE.
Эта функция ещё в тестовом режиме, но все работает пока хорошо. Все ваши пожелания пишите в комментариях.

Все Ваши вопросы и пожелания пишите в комментариях или в поддержку.

За получением ключа обращайтесь в поддержку, указав адрес сайта, где будет установлен парсер.
Установка парсера бесплатна.

Обновление SelfParser 1.5

  1. Добавлена возможность включать / выключать шаблон на странице списка шаблонов.
  2. Добавлена функция копирования шаблонов.
  3. Изменена логика обработки шаблонов. Выключенные шаблоны теперь не обрабатываются, тем самым не тратя 1 минуту за просмотр одного шаблона.
  4. В обработчике можно указать теперь префикс базы, а так же добавлена возможность получать ссылку на источник в доп поле. По умолчанию дополнительное поле должно называться source. Его можно изменить так же в обработчике.



Обновлен обработчик. Теперь можно при парсинге файлов, например торрентов или подобных, загружать его в дополнительное поле.
Просто замените обработчик.
Не забудьте изменить доступы в этом файле, к базе и $dle_config.
что бы файл загружался в доп поле, укажите его в элементе files_fields.
dle.zip Загрузок: 87 [4,17 Kb]

Требования

Версия PHP 7.1

Добавить комментарий
  1. 0

    ssss

    а что на счет демки (или бесплатной версии на 1 домен). Или сейчас уже не раздается так и надо сразу покупать?
    29 августа 2019 00:49 Ответить
    1. 0

      Kylaksizov

      Демка есть, пишите в личку скину ссылку.
      29 августа 2019 06:37 Ответить
  2. 0

    Romds

    Так на ДЛЕ 13.2 работает?
    5 августа 2019 22:28 Ответить
    1. 0

      Kylaksizov

      Работает на любой версии. Если версия очень низкая, то не проверял, но можно поднастроить. А на новой работает.
      5 августа 2019 22:31 Ответить
  3. 0

    Эльнур

    Можно демо?
    7 мая 2019 23:57 Ответить
    1. 0

      Kylaksizov

      Демка была удалена, так как нехорошие люди меняют пароли что бы другие не могли войти. Так что показываю только через скайп или любую другую программу.
      8 мая 2019 14:22 Ответить
  4. 0

    Эльнур

    Добрый день. В ДЛЕ 13.2 будет работать? и можно за отдельную плату чуть подправить обработчик для ДЛЕ?
    1 апреля 2019 21:06 Ответить
    1. 0

      Kylaksizov

      Добрый день. Будет. Подправить то можно, но нужно знать что нужно править.
      1 апреля 2019 21:08 Ответить
  5. +1

    AlexSilver

    Для корректной работы парсера требовалось изменения префикса базы данных DLE, автор модуля оперативно в следующем патче добавил нужную функцию. Рекомендую к покупке!
    4 марта 2019 12:29 Ответить
  6. 0

    Doznet

    п.с. в принципе, пожелания есть и ещё blush

    1. 1. Многопоточность (к примеру, если сайт донор очень посещаемый, от нескольких миллионов человек, и обновляется сразу сотнями новостей в минуту в разных категориях, - то пока он парсит одну категорию одного сайта - уже во второй категории понабежит куча новостей. И это только на один сайт. И пока он начнет обрабатывать вторую категорию все еще первого сайта - то второй сайт он не успеет обработать.

      То есть с такой паузой он все время будет парсить новости с одного только сайта, постоянно теряя актуальность новостей. Хотелось бы, чтобы он мог не обходить раз в минуту заданные шаблоны - а сразу обрабатывать 10-20 примерно шаблонов в минуту

      Или асинхронность, советуют Go для парсера

      2. Соответственно, поддержку скорости работы. За 1 мин. чтобы мог парсит примерно сто объявлений на минимальных паузах в один поток. 
    2.  

    21 февраля 2019 11:57 Ответить
    1. 0

      Kylaksizov

      Он никак не будет парсить такой объем данных за одну минуту, потому что сайты разные, скорость отдачи данных по разному. Какой-то сайт загружается мгновенно, какой-то в течении минуты. В итоге, если я сделаю что бы он обрабатывал даже несколько запросов в минуту, то Ваш сервер ляжет.
      23 февраля 2019 08:41 Ответить
      1. 0

        Doznet

        Разработчик парсера гугл плей, который я Вам скидывал - утверждает обратное)  

        цитирую: "А что парсер в парсере нет многопоточности? Плохо конечно, максимум 1440 страниц в сутки парсить может чтоли? Ограниченный какой-то он получается... Спроси у разраба, может он предусмотрел все таки..."

        И еще один ответ другого разраба:

        Я: - да, тоже уже задумался о многопоточности :)
        Р: - забудь, юзай асинхронность, советую Go для парсера
         

        Далее исходя только из моих соображений (возможно и ошибочных):

        1. Можно сделать выбор между многопоточностью и однопоточностью - для разных шаблонов/сайтов. Возможно даже разные крон-задачи для разных шаблонов, поставить разное время запуска? х.з.

        Конечно, самая простая мысль это просто установить несколько крон задач чтобы в минуту парсер запускался несколько раз, но это не варик, потому что тогда просто он будет дублями парсить...

        2. Это зависит, наверное, ведь больше от мощности сервера? вряд ли я ошибаюсь) какой то сервер может такое и не потянет) а какой то вполне себе =)
        23 февраля 2019 13:00 Ответить
        1. 0

          Kylaksizov

          Я уже объяснил на счет многопоточности. Если парсер у Вас настроен чисто для Google, то конечно можно настроить что бы он парсил много данных за раз. Да и скажу честно, я пока не знаю как решить такую задачу, увы. Как придумаю, конечно сделаю. Вернее сделать то можно, но судя по тому что некоторые сайты наблюдают и понимают что их парсят, банят таких. Поэтому какой смысл.
          23 февраля 2019 13:07 Ответить
          1. 0

            Doznet

            да, про бан, согласен, налететь можно, говорят даже с прокси не прокатывает, целыми подсетями банят :(

            ок, спасибо :)
            23 февраля 2019 14:18 Ответить
  7. 0

    Doznet

    Обязательно нужно к разработке в следующем обновлении: 

    1. Удаление конкретных слов не из всего массива - а только из нужного тебе поля. Почему: на большинстве сайтов парсер автоматом приставляет к ссылке домен сайта, даже тогда когда он не нужен. И если проставить на удаление этого домена - то слетает пагинация и подчас нужно удалить домен в одной только строке а не во всех сразу.
    2. Исправление парсинга атрибутов. Нужно на многих сайтов получать ссылки из атрибутов, но на данный момент парсер их получает, но не заносит их в доп. поле.
    3. Встроенная возможность парсинга ссылки сайта-донора в дополнительное поле, с возможностью отключения парсинга этой ссылки для конкретного шаблона. Хотя можно оставить возможность включать/отключать и для всего парсера, не суть.

    С этими исправлениями можно будет уже норм. работать  blush Если последний - это как бы пожелание новой функции, то первые два это, считаю, исправления косяков уже имеющихся функций  wink

    А так спасибо за модуль, хорошая работа и для бюджетников главное доступный blush Бду ждать возможность покупки исправленной версии  blush  
    20 февраля 2019 18:14 Ответить
  8. 0

    Гость Евгений

    А может ли скачать файл? И залить в дле?
    31 января 2019 08:42 Ответить
    1. 0

      Kylaksizov

      Может. Скачивает с сайтов на DLE, а так же если на сайте указана прямая ссылка на файл.
      31 января 2019 09:20 Ответить
  9. 0

    Doznet

    спасибо за чудо и установку
    26 января 2019 15:53 Ответить
  10. 0

    Doznet

    Хотелось бы еще чтобы личные прокси можно было проставлять, с логинами и паролями, а не только публичные :)
    23 января 2019 20:02 Ответить
  11. 0

    Klient

    Хотелось бы адекватный парсинг картинок, уже почти 2 месяца прошло с выхода последней, а так и не вышла версия, где в поля вставляются полные изображения, а не вырвиглазные превьюшки.
    20 января 2019 09:00 Ответить
    1. 0

      Kylaksizov

      Такое чувство что Вы писали уже 10 раз, но я не видел такого запроса. Опишите детальнее Вашу просьбу, так как сейчас совсем не понятно в какие именно поля загружаются превьюшки. Обработчик DLE специально настраивался под DLE и работает правильно. Как правило, при создании новости в DLE и загрузки изображений, создается уменьшенная копия. Вот так сейчас и работает. Или Вы про что-то другое?
      20 января 2019 09:07 Ответить
      1. 0

        klient

        1. В поле название поля если указать XF-fieldname | свое название, то полученные изображения будут добавляться в доп поле fieldname. При этом в поле код должен быть указан путь к картинке, например .sidebar img:eq(0) - найдет первую картинку из элемента с классом sidebar.

        Вот по этой инструкции загружаются превьюшки. Полные изображения загружаются только если на сайте с контентом они выводятся без галереи, а сразу полноразмерными. 
        21 января 2019 21:37 Ответить
        1. 0

          Kylaksizov

          Если мне память не изменяет, то загружаются полные размеры, а в поле или в редактор вставляется уменьшенная копия. Если нет, нужно менять код в обработчике.
          21 января 2019 22:08 Ответить
          1. 0

            klient

            Не подскажите, как? Или это в зашифрованной части?
            11 февраля 2019 14:33 Ответить
  12. +2

    maskashow

    Попробовал, прикольная штука, хотелось бы больше настроек:
    1) сортировка новости, парсинг с конца страницы или выставление времени источника, а то пока первую страницу не заполнит, первые новости в конце будут.
    2) кодировка пример , кракозяблы на источнике :(
    Видео faq бы с более сложным источником, чтобы все плюсы раскрыть.
    В настойках: версия парсера 1.3, скачивал с этой новости 1.4. Советую, сам сомневался покупать ли, попробовал уже несколько платных парсеров ну совсем не то :(.
    7 января 2019 17:11 Ответить
  13. 0

    gmail

    Кто может настраивать шаблоны, нужно настроить несколько шаблонов, пишите в скайп vik_pc по цене договоримся
    14 декабря 2018 22:54 Ответить
    1. 0

      Kylaksizov

      Мои услуги не подходят уже?  smiley 
      20 января 2019 09:08 Ответить
  14. +1

    smngr

    Шикарное обновление, новая функция с картинками работает идеально, настройки тоже, прокси порадовал, удобная авторизация на закрытых ресурсах очень полезна. Раньше он, вроде, не запоминал новости, которые спарсил, а просто проводил проверку(?), а теперь работа продолжается с определённого места, что круто. Только функция с галереей изображений немного огорчила: на большинстве сайтов по тегу img доступны только превьюшки, полноценные изображение содержатся по ссылке в <a class без специальных тегов. Их, получается, нельзя заполучить.
    3 декабря 2018 21:29 Ответить
    1. 0

      Kylaksizov

      Если сайт-донор на DLE, то он автоматически обрезает thumbs/ что позволяет загружать на сайт оригинальное изображение.
      3 декабря 2018 21:34 Ответить
  15. 0

    smngr

    А можно узнать по поводу даты выхода новой версии?
    13 ноября 2018 23:38 Ответить
    1. 0

      Kylaksizov

      Как время будет, пока не знаю. Недели две точно занят. Может появится окно и сделаю обновления.
      В Вашем случае, я не помню что Вы там просили. Пишите заявку в поддержку. Заявок нет по улучшению, поэтому и обновлять пока не планирую по скорости.
      14 ноября 2018 09:11 Ответить
      1. 0

        smngr

        Плагин не публикует картинки на сайт, вы об этом замечательно знаете, ссылки имеют вид adres-donora/uploads/posts/. 
        15 ноября 2018 10:31 Ответить
        1. -1

          Kylaksizov

          Значит вы что-то не так делаете. Парсер загружает картинки на сайт, смотрите внимательно видео.
          Не стоит писать и в поддержку и в комментариях.
          15 ноября 2018 11:16 Ответить
          1. -1

            smngr

            Посмотрите код элемента картинки на сайте, там будет ссылка на чужой сайт, не смотря на то, что на сам сервер картинка заливается. В видео как раз таки просто показаны картинки в редакторе, у себя в редакторе статьи тоже вижу якобы картинки, но они подгружены с чужого сайта. 
            15 ноября 2018 19:22 Ответить
            1. 0

              Kylaksizov

              Время в видео 16:10 вы не внимательно смотрели значит. Если у Вас не получается это сделать, напишите в поддержку, я не веду поддержку на сайте. Следующие комментарии подобного рода буду удалять.
              15 ноября 2018 20:23 Ответить
  16. 0

    Иван

    Добрый день!

    А имеется возможность, например, проверять данные на каком-то сайте, если они изменились, то парсить новые данные. Если остались прежними (как были после прошлой попытке парсинга), то ничего не делать?
    7 ноября 2018 18:06 Ответить
  17. 0

    smngr

    Парсит картинки, но при этом не вставляет их в новость, в редактор поста вставляет ссылки с ссылкой на img на сайте-доноре. Можно было бы убрать автоматическую пропись ссылки в посте, а сделать добавление ссылок на загруженные картинки в доп. полях или лучше использовать поля типа "загружаемая картинка". Мне кажется, сейчас мало кто публикует постеры и скрины через редактор.
    29 октября 2018 10:15 Ответить
    1. -1

      Kylaksizov

      Если у Вас не получается настроить замену путей в посте на ваш сайт, то можете парсить картинки в доп поля, на видео показано как парсить в доп поля нужное. И в Вашем случае Вы получите то что хотели.
      29 октября 2018 10:21 Ответить
      1. 0

        smngr

        XF-year | Постеер 
        Воу, это круто,  но тогда картинка не загружается на сервер и эта ссылка ведёт на сайт-донор. А как нужно настраивать замену путей? Я тестирую на том же сайте, что на видео, настройки идентичные.  А если парсить в поле именно картинку, то тоже не загружается.
        29 октября 2018 10:37 Ответить
        1. 0

          Kylaksizov

          Замены пока нет. Реализую в следующем обновлении.
          29 октября 2018 11:32 Ответить
          1. 0

            smngr

            И замены при добавлении по методу с видео - когда картинка парсится в содержимое? Как тогда парсить
            29 октября 2018 12:38 Ответить
  18. 0

    F

    Между переходом с выбора системы оплаты на сайт яндекс денег прослойка из сайта sportcabino.ru. При переходе на оплату через киви прослойка из другого палевного сайта. Я никогда не покупал через free-kassa, меня это напрягает. Можно купить другим способом?
    26 октября 2018 09:16 Ответить
    1. 0

      Kylaksizov

      Можете напрямую на Яндекс. Скайп внизу сайта.
      26 октября 2018 09:58 Ответить
  19. 0

    Geralt

    Подходит для dle 10.2?
    23 октября 2018 22:35 Ответить
    1. 0

      Kylaksizov

      Подходит для любой версии dle, хоть для 7.1
      24 октября 2018 06:28 Ответить
      1. 0

        Yandexbot

        Поддержку php 7.1 ввели только в 11 версии dle.
        24 октября 2018 20:05 Ответить
        1. 0

          Kylaksizov

          Ваш вопрос меня убил))) Можно я не буду отвечать?
          24 октября 2018 21:17 Ответить
          1. 0

            Yandexbot

            Это не вопрос :) В требованиях к парсеру стоит версия php 7.2 минимум. DLE ниже 11 не заведётся на ней. 
            24 октября 2018 21:46 Ответить
            1. 0

              Kylaksizov

              Модуль работает на PHP 7.1 и 7.2. Значит, когда выпустят DLE под версию PHP 7.2, мой модуль будет работать.
              24 октября 2018 21:50 Ответить
  20. +1

    LMakc

    Парсер отличный , но еще сыроват. 
    1. Можно  ли парсить  торренты и постер в  доп поля?
    2. Есть  ли возможность  заполнение СЕО ? Метатег title: (description)  (метатеги keywords)
    23 октября 2018 17:39 Ответить
    1. 0

      Kylaksizov

      Спасибо.
      В доп поля можно парсить что угодно.
      Содержимое для SEO сейчас нет, но реализовать можно просто дописав в dle обработчик нужный код, не составит труда.
      23 октября 2018 17:45 Ответить
  21. 0

    Kylaksizov

    molohakeru,
    ну что, скачал парсер за 1 р. ?  laughing  laughing  laughing 
    15 октября 2018 07:43 Ответить
    1. +1

      molohakeru

      Ну попытался мало ли)smile  smile
      15 октября 2018 12:03 Ответить
      1. 0

        Kylaksizov

        Молодец, мне как раз надо знать где у меня дыры  smiley 
        15 октября 2018 13:48 Ответить
  22. -1

    Sergejus

    Требования: IonCube Loader
    Дальше читать не стал...
    7 октября 2018 10:58 Ответить
    1. +1

      Kylaksizov

      Не читайте дальше ещё хуже  laughing 
      7 октября 2018 11:32 Ответить
    2. +1

      Doznet

      IonCube Loader устанавливается автоматически из админки, ispmanager точно
      7 октября 2018 12:13 Ответить
      1. 0

        Kylaksizov

        По умолчанию он везде установлен, человек просто либо думает что я закодировал там какой-то грязный код или просто не хочет покупать потому что его нельзя поломать, вот и все.
        7 октября 2018 12:22 Ответить
        1. -1

          Sergey

          Сломать можно все. Если Вас еще не сломали, значит Вы просто не интересны.
          8 октября 2018 09:08 Ответить
          1. 0

            Kylaksizov

            Не сломали, потому что раскодировщика под версию 7 ещё не выпустили, какие Вы наивные)
            8 октября 2018 09:13 Ответить
            1. 0

              molohakeru

              То что его нет в паблике не значит что его не выпустили...
              15 октября 2018 01:53 Ответить
        2. -1

          Кирилл

          Еще как вариант закодированные модули невозможно самостоятельно расширять и подгонять под свои нужды. А вот для меня это ключевой фактор.
          Я против закодированного всего.
          21 марта 2019 21:01 Ответить
          1. 0

            Kylaksizov

            Там закодирован всего один незначительный файл, а не все файлы, поэтому можете спокойно править и улучшать под себя, но после этого поддержка заканчивается.
            22 марта 2019 07:38 Ответить
  23. 0

    Александр Генералов

    За комментарий? Для теста!
    6 октября 2018 21:53 Ответить
    1. 0

      Dali

      конечно гитлер!
      7 октября 2018 04:08 Ответить

Оставить комментарий

В корзине: 0 шт.

на сумму: 0

Всего: 0

Оформить заказ Очистить корзину