Многопоточный парсер html в одну строку

Один дровейщик в чате спросил, чем можно спарсить заголовки у кучи сайтов, на коленке родилось такое:

где links.txt — файл с линками (1 в строку),

-P 2 — количество потоков.

Чтобы перенаправить результат в файл, в самый конец добавить >> result.txt.

Юзерагент подставьте свой.

На bsd может не работать (а может и работать, давно не юзал тамошние утилиты).

 

Update:

На некоторых системах могут быть проблемы с кодировкой (привет, убогая 1251).
В таком случае достаточно добавить enconv перед sed:

или убрать упоминание локали для sed:

 

Оставить комментарий

Подтвердите, что Вы не бот — выберите человечка с поднятой рукой:

Яндекс.Метрика