022-2345 2937
185 2247 0110
business@forenose.com
客服QQ:2779623375
前嗅大數(shù)據(jù)
用戶QQ群3:606835039
用戶QQ群4:795287153
客服微信
qianxiu0106
訂閱號
服務(wù)號
數(shù)據(jù)采集范圍 | ||
---|---|---|
功能分類 | 功能點 | 詳細介紹 |
支持的網(wǎng)站結(jié)構(gòu) | 支持Ajax技術(shù) | 可采集Ajax網(wǎng)頁的內(nèi)容 |
采集基于js頁面的數(shù)據(jù) | 可采集基于js頁面的內(nèi)容 | |
采集post請求數(shù)據(jù) | 可采集post請求中的內(nèi)容 | |
采集get請求數(shù)據(jù) | 可采集get請求中的內(nèi)容 | |
采集需要cookie的網(wǎng)站 | 可采集需要cookie的網(wǎng)站 | |
自動解析JS | 啟用JavaScrIPt功能即可自動解析頁面JS | |
網(wǎng)頁源碼智能解碼 | 設(shè)置網(wǎng)頁編碼,即可自動解碼 | |
OAuth認證 | 采集OAuth認證的網(wǎng)站 | |
采集境外網(wǎng)站 | 可采集境外網(wǎng)站 | |
采集本地文件 | 可采集本地文件內(nèi)容 | |
采集內(nèi)網(wǎng)網(wǎng)站 | 可采集內(nèi)網(wǎng)網(wǎng)站 | |
采集APP軟件數(shù)據(jù) | 可采集各類APP軟件的數(shù)據(jù) | |
登錄采集 | 可采集需要登錄的網(wǎng)站 | |
關(guān)鍵詞采集 | 可采集關(guān)鍵詞搜索出來的內(nèi)容 | |
瀑布流翻頁采集 | 可采集瀑布流翻頁的網(wǎng)站 | |
瀏覽器采集 | 可模擬瀏覽器點擊采集 | |
采集批量數(shù)據(jù)源網(wǎng)站 | 可配置一個模板采集成千上萬個網(wǎng)站 | |
支持的數(shù)據(jù)格式 | 采集外部數(shù)據(jù)源 | 采集時可調(diào)用本數(shù)據(jù)庫中的其他數(shù)據(jù)表,或其他數(shù)據(jù)庫/服務(wù)器中的數(shù)據(jù),作為采集關(guān)鍵詞、數(shù)據(jù)源地址等 |
采集視頻 | 可采集網(wǎng)頁中的視頻 | |
采集直播 | 可采集網(wǎng)頁中正在直播的視頻 | |
采集音頻 | 可采集網(wǎng)頁中的音頻 | |
采集圖片 | 可采集網(wǎng)頁中的圖片 | |
采集pdf文件 | 可采集網(wǎng)頁中的pdf文件 | |
采集word文件 | 可采集網(wǎng)頁中的word文件 | |
采集表格文件 | 可采集網(wǎng)頁中的表格 | |
采集各種附件 | 可采集網(wǎng)頁中的各類附件 |
多場景輕松配置 | ||
---|---|---|
功能分類 | 功能點 | 詳細介紹 |
登錄配置 | 登錄配置 | 可自動配置,也可手動配置 |
自動生成cookie | 可自動生成cookie,獲取數(shù)據(jù) | |
手動配置cookie | 對于需要cookie的網(wǎng)站,可手動添加cookie,獲取數(shù)據(jù) | |
關(guān)鍵詞配置 | 關(guān)鍵詞配置 | 可進行關(guān)鍵詞配置,可在高級配置中配置各項參數(shù) |
批量導(dǎo)入、修改關(guān)鍵詞 | 批量導(dǎo)入刪除、修改關(guān)鍵詞 | |
關(guān)鍵詞自動排重 | 批量關(guān)鍵詞自動排重 | |
鏈接抽取過濾 | 定位過濾鏈接 | 根據(jù)網(wǎng)頁位置,抽取固定位置的鏈接 |
地址過濾鏈接 | 根據(jù)網(wǎng)址規(guī)律,抽取特定規(guī)律的鏈接 | |
標(biāo)題過濾鏈接 | 根據(jù)網(wǎng)址標(biāo)題規(guī)律,抽取符合標(biāo)題規(guī)律的鏈接 | |
智能拼接鏈接 | 根據(jù)網(wǎng)站規(guī)律,高級設(shè)置鏈接參數(shù),快速拼接鏈接 | |
數(shù)據(jù)抽取過濾 | 定位取值 | 抽取特定位置的數(shù)據(jù) |
節(jié)點取值 | 抽取網(wǎng)頁源碼中特定節(jié)點的數(shù)據(jù) | |
特征定位 | 根據(jù)正文文本特征,自動定位抽取數(shù)據(jù) | |
智能識別正文 | 可智能識別數(shù)據(jù)頁正文內(nèi)容 | |
智能識別標(biāo)題 | 可智能識別數(shù)據(jù)頁標(biāo)題 | |
自動獲取網(wǎng)頁title | 可自動獲取數(shù)據(jù)頁title | |
自動獲取網(wǎng)頁時間 | 可自動獲取網(wǎng)頁更新時間 | |
自動獲取采集時間 | 可自動獲取采集時間 | |
自動獲取頁面源碼 | 自動獲取頁面源碼 | |
自動識別列表數(shù)據(jù) | 自動識別網(wǎng)頁中列表鏈接的內(nèi)容并抽取數(shù)據(jù)。 | |
智能獲取節(jié)點屬性值 | 可智能獲取頁面源碼中某一節(jié)點屬性值,如href中的鏈接地址 | |
智能提取其他頁面數(shù)據(jù) | 可智能提取其他頁面的數(shù)據(jù),將其他頁數(shù)據(jù)存儲到本頁的數(shù)據(jù)表中 | |
支持UTF-8與GBK相互轉(zhuǎn)碼 | 可以將頁面源碼中的UTF-8與GBK相互轉(zhuǎn)碼 | |
挖掘清洗分類 | 支持數(shù)據(jù)分析功能 | 可對采集到的數(shù)據(jù)進行分析 |
挖掘特征數(shù)據(jù) | 根據(jù)某類特征挖掘數(shù)據(jù) | |
智能清洗數(shù)據(jù) | 根據(jù)數(shù)據(jù)規(guī)律,智能清洗不需要的文本內(nèi)容 | |
自定義主題識別 | 按照需求自動識別文本主題,并分類采集存儲 | |
條件篩選 | 自定義采集視頻大小及時長 | 設(shè)置采集視頻的大小及時長,采集符合要求的視頻數(shù)據(jù) |
自定義采集文件大小 | 設(shè)置采集文件的大小,采集符合要求的文件數(shù)據(jù) | |
過濾采集文件類型 | 設(shè)置采集文件的類型,采集該類型的文件數(shù)據(jù) | |
采集特定時間段數(shù)據(jù) | 采集網(wǎng)站中指定時間段內(nèi)的數(shù)據(jù) | |
采集預(yù)覽 | 模板預(yù)覽 | 在配置過程中預(yù)覽某層模板的采集效果,及時調(diào)整提高配置效率 |
檢測鏈接抽取 | 在配置中可隨時查看鏈接抽取準(zhǔn)確性,調(diào)整過濾規(guī)則 | |
檢測數(shù)據(jù)抽取 | 在配置中可隨時查看數(shù)據(jù)抽取準(zhǔn)確性 | |
批量智能配置 | 配置繼承共享 | 子模板共享父模板內(nèi)容 |
配置映射共享 | 不同模板之間通過映射靈活共享共同配置部分 | |
關(guān)聯(lián)外部數(shù)據(jù)源 | 關(guān)鍵詞、采集源,數(shù)據(jù)匹配入庫等均能關(guān)聯(lián)外部數(shù)據(jù)源進行數(shù)據(jù)匹配 | |
AI配置批量網(wǎng)站 | 智能配置成千上萬的結(jié)構(gòu)類似的網(wǎng)站 | |
模板復(fù)制粘貼 | 將已配置好的模板層級,復(fù)制并粘貼到需要的新模板中,提高配置效率 | |
表結(jié)構(gòu)可復(fù)用 | 不同網(wǎng)站可重復(fù)使用同一表結(jié)構(gòu),無需重建表結(jié)構(gòu) |
普適化運行設(shè)置 | ||
---|---|---|
模板導(dǎo)入/出 | 導(dǎo)出采集模板 | 可將配置好的采集模板導(dǎo)出 |
導(dǎo)入采集模板/出 | 可將配置好的采集模板導(dǎo)入 | |
靈活調(diào)速 | 自定義設(shè)置采集速度 | 自定義采集速度,采集速度最高可達8000萬條/天 |
自定義調(diào)整采集線程 | 自定義調(diào)整線程 | |
動態(tài)調(diào)整采集速度 | 可直接在采集過程中調(diào)整采集速度,無需終止任務(wù) | |
動態(tài)調(diào)整采集線程 | 可直接在采集過程中調(diào)整采集線程,無需終止任務(wù) | |
瀏覽器加速 | 加載時自動過濾頁面中的非html文件,加速加載和運行 | |
定時采集 | 間隔定時采集 | 設(shè)定間隔時間,實現(xiàn)固定間隔時間的采集開啟/關(guān)閉 |
定點定時采集 | 設(shè)定爬蟲自動開始/關(guān)閉的時間 | |
自定義采集策略 | 增量采集 | 增量采集網(wǎng)頁更新數(shù)據(jù),不重復(fù)采集/天 |
查漏采集 | 運行中網(wǎng)絡(luò)錯誤、入庫錯誤的請求,查漏再次采集,更新補充保證采集數(shù)據(jù)的完整性 | |
繼續(xù)采集 | 繼續(xù)運行上次未完成的采集任務(wù) | |
全部重采 | 重新運行全部采集任務(wù) | |
自定義請求上限 | 設(shè)置請求上限,達到上限后停止采集 | |
加載日志宏 | 設(shè)置日志加載命令,使日志按照命令執(zhí)行 | |
運行排重 | 運行列表排重 | 運行時對請求進行排重處理,防止重復(fù)采集數(shù)據(jù) |
加載超時設(shè)置 | 自定義超時時間 | 設(shè)置發(fā)送超時和請求超時最大時長,有效防止因網(wǎng)絡(luò)等原因?qū)е碌?,超時請求發(fā)送或接收數(shù)據(jù)失敗的情況 |
超時重試次數(shù)設(shè)置 | 設(shè)置超時重試次數(shù),可在超過設(shè)置的時間后多次重試 | |
模擬瀏覽器 | 模擬瀏覽器版本 | 自定義設(shè)置運行時使用的瀏覽器版本 |
自定義User-Agent | 自定義User-Agent,模仿蜘蛛采集 | |
異常錯誤處理 | 網(wǎng)絡(luò)異常預(yù)警 | 運行時遇到因網(wǎng)絡(luò)異常而導(dǎo)致的請求失敗,系統(tǒng)會自動預(yù)警 |
錯誤處理模板 | 運行中錯誤的請求返回指指定模板中再次運行,大大提高采集效率 | |
運行進度監(jiān)控 | 采集日志記錄 | 記錄運行過程中所有請求日志 |
日志導(dǎo)入/導(dǎo)出 | 導(dǎo)出、導(dǎo)入日志 | |
日志統(tǒng)計 | 統(tǒng)計日志數(shù)據(jù) | |
自動保存任務(wù)進度 | 出現(xiàn)異常情況時,自動保存任務(wù)進度,重新開啟后可繼續(xù)采集 | |
采集順序 | 多網(wǎng)站采集 | 同時采集多個網(wǎng)站/模板 |
多網(wǎng)站同步采集 | 將所有任務(wù)的所有日志都裝載完再開始采集??梢员WC順序和排重。 | |
多網(wǎng)站異步采集 | 邊加載邊采集,優(yōu)點是開始采集會比較快,等待時間短,缺點是無法保證順序和排重。 | |
智能自檢 | 系統(tǒng)配置檢測 | 采集前運行自檢,可清楚查看配置設(shè)置是否達到最佳狀態(tài) |
多策略反爬設(shè)置 | ||
---|---|---|
反爬預(yù)警 | 網(wǎng)絡(luò)異常識別 | 自定義網(wǎng)絡(luò)異常識別次數(shù),當(dāng)達到次數(shù)時,會自動提醒 |
反爬識別 | 自定義反爬識別次數(shù),當(dāng)達到次數(shù)時,會自動提醒 | |
自定義預(yù)警操作 | 可自行選擇預(yù)警操作,包括:暫停、自動休眠、自動更換代理IP等 | |
反爬提醒 | 可自行選擇提醒方式,包括:圖標(biāo)閃爍、彈窗等待等 | |
代理IP設(shè)置 | 接入動靜態(tài)代理IP | 可接入第三方代理IP,動態(tài)和靜態(tài)均可 |
代理IP測試 | 接入第三方代理IP后,可測試其有效性 | |
反爬自動更換代理IP | 運行時,自動識別反爬并自動更換代理IP | |
代理IP優(yōu)化 | 優(yōu)化無效代理,優(yōu)化響應(yīng)過慢代理 | |
多通道采集 | 多線程采集時,真實模擬多個通道進行采集的過程 | |
動態(tài)IP鎖定 | 將動態(tài)IP與運行時獲取一條數(shù)據(jù)的一組請求鎖定,更真實的模擬IP獲取數(shù)據(jù)的過程 | |
全局代理IP設(shè)置 | 設(shè)置全局代理IP | |
登錄反爬 | 模擬多賬號登錄 | 模擬多賬號登錄,用于封號的反爬策略 |
請求數(shù)限制 | 自定義請求上限 | 設(shè)置請求上限,達到上限后停止采集 |
驗證碼反爬 | 支持批量識別驗證碼 | 可接入第三方打碼平臺,批量識別驗證碼,解決網(wǎng)頁驗證碼問題 |
數(shù)據(jù)存儲與導(dǎo)出 | ||
---|---|---|
導(dǎo)出格式多樣化 | 導(dǎo)出為csv | 將數(shù)據(jù)導(dǎo)出為csv格式 |
導(dǎo)出為txt | 將數(shù)據(jù)導(dǎo)出為txt格式 | |
導(dǎo)出為xls | 將數(shù)據(jù)導(dǎo)出為xls格式 | |
導(dǎo)出圖片 | 將采集到的圖片自定義命名字段,導(dǎo)出到指定文檔中 | |
導(dǎo)出視頻 | 將采集到的視頻自定義命名字段,導(dǎo)出到指定文檔中 | |
導(dǎo)出附件 | 將采集到的附件(pdf、word、xls等)自定義命名字段,導(dǎo)出到指定文檔中 | |
局部導(dǎo)出 | 導(dǎo)出指定范圍數(shù)據(jù) | 導(dǎo)出指定范圍的數(shù)據(jù) |
導(dǎo)出指定字段 | 導(dǎo)出指定字段的數(shù)據(jù) | |
自定義文件命名字段 | 自定義文件命名字段 | |
分組導(dǎo)出 | 自定義文件夾分組導(dǎo)出 | 將指定范圍的數(shù)據(jù),分組導(dǎo)出到自命名的不同文件夾中 |
篩選檢索 | 按字段檢索 | 關(guān)鍵詞檢索某一字段 |
全文檢索 | 關(guān)鍵詞檢索全部數(shù)據(jù) | |
按字段檢索并導(dǎo)出 | 關(guān)鍵詞檢索某一字段,并導(dǎo)出符合的數(shù)據(jù) | |
全文檢索并導(dǎo)出 | 關(guān)鍵詞檢索全部數(shù)據(jù),并導(dǎo)出符合的數(shù)據(jù) | |
按字段檢索并刪除數(shù)據(jù) | 關(guān)鍵詞檢索某一字段,并刪除檢索出的數(shù)據(jù) | |
全文檢索并刪除數(shù)據(jù) | 關(guān)鍵詞檢索全部數(shù)據(jù),并刪除檢索出的數(shù)據(jù) | |
存儲功能 | 自定義新增數(shù)據(jù)存儲規(guī)則 | 可設(shè)置不同的數(shù)據(jù)存儲形式:僅更新新增數(shù)據(jù)、實時采集最新數(shù)據(jù)并覆蓋舊數(shù)據(jù)、實時采集所有采集數(shù)據(jù)等。 |
數(shù)據(jù)自動排重 | 自定義排重字段,根據(jù)字段內(nèi)容進行排重存儲 | |
多個網(wǎng)站數(shù)據(jù)統(tǒng)一存儲 | 多網(wǎng)站數(shù)據(jù)同時采集并存儲到同一個數(shù)據(jù)表中 | |
多網(wǎng)站數(shù)據(jù)獨立存儲 | 多網(wǎng)站同時采集單獨存儲到不同數(shù)據(jù)表中 | |
自帶數(shù)據(jù)庫 | 系統(tǒng)默認數(shù)據(jù)庫為ForeLib數(shù)據(jù)庫 | |
支持Mysql數(shù)據(jù)庫 | 可關(guān)聯(lián)Mysql數(shù)據(jù)庫,將數(shù)據(jù)實時采集到Mysql數(shù)據(jù)庫中 | |
支持Access數(shù)據(jù)庫 | 可關(guān)聯(lián)Access數(shù)據(jù)庫,將數(shù)據(jù)實時采集到Access數(shù)據(jù)庫中 | |
支持SQL Server數(shù)據(jù)庫 | 可關(guān)聯(lián)SQL Server數(shù)據(jù)庫,將數(shù)據(jù)實時采集到SQL Server數(shù)據(jù)庫中 | |
連接外部服務(wù)器存儲 | 連接外部服務(wù)器,將數(shù)據(jù)直接存儲到外部服務(wù)器中 |
數(shù)據(jù)推送發(fā)布 | ||
---|---|---|
挖掘清洗 | 推送時挖掘數(shù)據(jù) | 在推送的同時,對文本進行特征挖掘提取 |
推送時清洗數(shù)據(jù) | 在推送的同時,對數(shù)據(jù)按照規(guī)律進行清洗 | |
推送時間設(shè)置 | 推送時間設(shè)置 | 將采集到的數(shù)據(jù)定時推送 |
實時推送 | 實時推送采集到的數(shù)據(jù) | |
推送方式設(shè)置 | 郵件推送 | 通過郵件推送數(shù)據(jù) |
http/https推送 | 通過http/https推送數(shù)據(jù) | |
定制接口推送 | 通過定制接口推送數(shù)據(jù) | |
數(shù)據(jù)庫推送 | 將數(shù)據(jù)推送到指定數(shù)據(jù)庫 |
極速采集 | ||
---|---|---|
并行采集流數(shù)據(jù) | 并行采集視頻文件 | 并行下載多個視頻文件,加快下載速度 |
并行下載附件 | 并行下載多個附件文件,加快下載速度 | |
多進程采集 | 多進程多線程運行 | 可同時運行多進程和多個線程,加快采集速度 |
多網(wǎng)站智能管理 | 多網(wǎng)站采集獨立管理 | 同時運行多個網(wǎng)站時,可獨立方便管理 |
多網(wǎng)站定時采集獨立管理 | 同時運行多個網(wǎng)站時,獨立對各網(wǎng)站進行定時管理 | |
多網(wǎng)站日志獨立管理 | 同時運行多個網(wǎng)站時,日志獨立管理 | |
采集批量網(wǎng)站無上限 | 可同時采集成千上萬個網(wǎng)站,沒有上限 | |
自研內(nèi)核引擎 | JS引擎內(nèi)核 | 采集引擎完全由C++編寫,不同于瀏覽器采集,單機采集速度最高可達400萬條/天 |
CSS引擎 | 擁有CSS引擎,可對快速解析網(wǎng)頁中CSS數(shù)據(jù),高效采集 | |
DOM樹解析引擎 | 擁有DOM樹解析引擎,對網(wǎng)頁中DOM樹結(jié)構(gòu)快速解析 | |
分布式引擎 | 分布式引擎,可實現(xiàn)多機集群采集 |