Вторник, 2024-04-16, 17:39

Приветствую Вас Гость | RSS

Главная » Файлы » файлы

UniParse парсер контента

[ Скачать с сервера (303.3 Kb) ] 2014-04-08, 02:36

Программа для автоматического парсинга статей с сайтов из выдачи поисковика по конкретному запросу.
Т.е. настраиваете 1 раз.
Дальше просто суете ей тысячи ключей и получаете по каждому ключу файл с несколькими статьями, все вычищено, только текст и основные теги. Ну или в 1 файл все пихаете.
Паршу без прокси. Еще и сразу открываю 4 копии программы, в каждой 30 потоков (разделяю ключи на 4 и в каждую вставляю).

Добавлено:

- DupKiller – оставляет только по 1 файлу 1 размера в папке, т.е. удаляет дубли
- массовый конвертер из utf в ansi
- простой коструктор урлов (как показывает практика, сложнее и не надо) – «подставлятор» в урл счетчика
- вставлялка картинок в спарсенные статьи (если кому то надо, то опишу подробнее всю технику вставки). Юзал для своих сатов, работает с некоторыми нюансами :)
- картиночный фильтр (для удаления «битых» картинок), находится на вкладке «Фильтр»
- сохранение странички с расширением .html при тесте селективного парсинга, теперь сразу можно открыть ее в браузере

Исправлено:

- баг с парсингом картинок, теперь парсит нормально (протестировано на google images, спарсил около 2к картинок), но размер картинки должен быть больше 400кб, большего размера не скачивает, ибо нех
- баг с использованием прокси, раньше если прокси оказывался мертвым и коннекта не было парсер считал, что страница спарсена, теперь такие урлы отправляются обратно в очередь на парсинг

Пожелания, как обычно – welcome!


Скачать UniParse парсер контента через торрент crack ключ бесплатно без регистрации на компьютер null кряк
Категория: файлы | Добавил: prostranstvo
Просмотров: 2644 | Загрузок: 240 | Рейтинг: 0.0/0
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]