web

طراحی و توسعه خزنده و اسکرپر حرفه‌ای وب Spiderly

طراحی و توسعه خزنده و اسکرپر حرفه‌ای وب Spiderly

درباره پروژه

طراحی و توسعه Spiderly، یک ابزار خط فرمان سریع و توسعه‌پذیر برای خزش وب، استخراج داده و تحلیل ساختار سایت‌ها. این پروژه با زبان Go توسعه داده شده و برای بررسی عمیق وب‌سایت‌ها، پردازش تعداد زیادی URL و تولید خروجی‌های ساختاریافته طراحی شده است. Spiderly می‌تواند صفحات را از طریق Sitemap شناسایی کند یا با دنبال‌کردن لینک‌های داخلی، ساختار سایت را به‌صورت بازگشتی پیمایش کند. برای افزایش سرعت پردازش، سیستم از معماری هم‌زمان، تقسیم URLها به دسته‌های مجزا و اجرای چند Worker موازی پشتیبانی می‌کند. همچنین امکان تنظیم تعداد صفحات، عمق خزش، میزان هم‌زمانی درخواست‌ها، Timeout، Delay و فیلترهای URL وجود دارد. Spiderly دارای حالت‌های تخصصی برای استخراج اطلاعات محصولات فروشگاهی و محتوای خبری است. در حالت فروشگاهی، ابزار می‌تواند صفحات محصول، قیمت‌ها، وضعیت موجودی و اطلاعات مرتبط را شناسایی و دسته‌بندی کند. در حالت خبری نیز اطلاعاتی مانند عنوان، نویسنده، تاریخ انتشار و تگ‌ها استخراج می‌شوند. از دیگر امکانات پروژه می‌توان به پشتیبانی از Proxy، پردازش Sitemapهای XML، خروجی JSON و Markdown، لاگ‌های جزئی، گزارش آماری، رابط ترمینال رنگی و قابلیت استفاده در فرآیندهای اتوماسیون اشاره کرد. این ابزار برای تحلیل فنی، استخراج داده و خزش کنترل‌شده وب‌سایت‌هایی طراحی شده است که کاربر مجوز بررسی آن‌ها را در اختیار دارد.

گالری پروژه

طراحی و توسعه خزنده و اسکرپر حرفه‌ای وب Spiderly 1