數據采集系統(tǒng)是一款智能化的互聯網數據采集工具,與內容管理系統(tǒng)深度集成,可簡單快速地將目標網站的內容采集到自己的網站中,以快速填充網站內容,或者通過定時采集來實現自動轉載目標網站的新聞,以減少網站內容運維工作。

與內容管理系統(tǒng)深度集成

數據采集系統(tǒng)能夠從目標網站采集數據,通過智能分析,將數據與指定內容模型的各個字段匹配生成相應的內容實體,并保存至指定欄目中。目標網頁中的圖片和附件會以文件形式保存在網站的上傳文件夾中。

支持數據采集的內容模型包括文章、公開信息、政策文件等。

支持多種數據源格式

  • 網站
  • 網頁

  • RSS 源

  • API 接口
    (XML 格式)

  • API 接口
    (Json 格式)

  • 支持從網頁、RSS 源、API 接口(Json 格式、XML 格式)采集數據。
    當數據源為網頁或 API 接口時,支持設置請求頭參數。

采集功能完備

  • 支持按正序或倒序進行數據采集。
  • 支持定時采集功能。
  • 支持斷點續(xù)采。
  • 支持采集排重(增量采集),可以根據標題或 URL 進行排重。
  • 支持自動下載內容中的圖片和附件。
  • 支持自動過濾正文中的鏈接。
  • 支持更新采集,即在采集所有數據的同時不清空歷史記錄,并判斷歷史記錄中是否存在相同數據,若存在則更新數據,否則插入新數據。
  • 支持重新采集,即清空歷史記錄后重新采集全部數據。
  • 支持批量執(zhí)行采集任務。
  • 支持查看采集進度。
  • 支持采集歷史記錄管理,用戶可以查看、刪除、清空采集歷史記錄。
  • 支持僅采集為鏈接內容,并保留至源網頁的鏈接。
  • 可視化配置采集規(guī)則

    提供可視化操作界面,無需編寫代碼。用戶可以通過簡單的拖拽、點選和配置來定義采集規(guī)則,使不懂技術的編輯人員也能輕松配置采集規(guī)則。

  • 支持代理服務器

    支持采集只能通過代理服務器訪問的網站內容,或者通過代理服務訪問來繞過目標網站的反爬蟲限制。

  • 支持采集需要身份認證的網站

    支持采集需要認證的網站內容,支持的認證方式包括 HttpBasic 認證、Token 認證和 Jwt 認證。

  • 反反爬蟲

    具備簡單的反反爬蟲機制,通過模擬正常瀏覽器的 UA、調整采集間隔時間和通過代理服務器訪問等手段,有效應對網站的反爬蟲機制,確保采集過程的穩(wěn)定性和可靠性。

  • 實時監(jiān)控與預警

    系統(tǒng)保存完整的采集日志記錄,可通過日志還原采集過程,幫助分析采集過程中出現的問題。同時,借助完善的日志功能,系統(tǒng)能夠實時統(tǒng)計各項采集指標,并提供實時預警。

×

用戶登錄