طراحی و توسعه خزنده و اسکرپر حرفهای وب Spiderly
درباره پروژه
طراحی و توسعه Spiderly، یک ابزار خط فرمان سریع و توسعهپذیر برای خزش وب، استخراج داده و تحلیل ساختار سایتها. این پروژه با زبان Go توسعه داده شده و برای بررسی عمیق وبسایتها، پردازش تعداد زیادی URL و تولید خروجیهای ساختاریافته طراحی شده است. Spiderly میتواند صفحات را از طریق Sitemap شناسایی کند یا با دنبالکردن لینکهای داخلی، ساختار سایت را بهصورت بازگشتی پیمایش کند. برای افزایش سرعت پردازش، سیستم از معماری همزمان، تقسیم URLها به دستههای مجزا و اجرای چند Worker موازی پشتیبانی میکند. همچنین امکان تنظیم تعداد صفحات، عمق خزش، میزان همزمانی درخواستها، Timeout، Delay و فیلترهای URL وجود دارد. Spiderly دارای حالتهای تخصصی برای استخراج اطلاعات محصولات فروشگاهی و محتوای خبری است. در حالت فروشگاهی، ابزار میتواند صفحات محصول، قیمتها، وضعیت موجودی و اطلاعات مرتبط را شناسایی و دستهبندی کند. در حالت خبری نیز اطلاعاتی مانند عنوان، نویسنده، تاریخ انتشار و تگها استخراج میشوند. از دیگر امکانات پروژه میتوان به پشتیبانی از Proxy، پردازش Sitemapهای XML، خروجی JSON و Markdown، لاگهای جزئی، گزارش آماری، رابط ترمینال رنگی و قابلیت استفاده در فرآیندهای اتوماسیون اشاره کرد. این ابزار برای تحلیل فنی، استخراج داده و خزش کنترلشده وبسایتهایی طراحی شده است که کاربر مجوز بررسی آنها را در اختیار دارد.