022-2345 2937
185 2247 0110
business@forenose.com
客服QQ:2779623375
前嗅大數(shù)據(jù)
用戶QQ群3:606835039
用戶QQ群4:795287153
客服微信
qianxiu0106
訂閱號(hào)
服務(wù)號(hào)
數(shù)據(jù)采集范圍 | ||
---|---|---|
功能分類 | 功能點(diǎn) | 詳細(xì)介紹 |
支持的網(wǎng)站結(jié)構(gòu) | 支持Ajax技術(shù) | 可采集Ajax網(wǎng)頁的內(nèi)容 |
采集基于js頁面的數(shù)據(jù) | 可采集基于js頁面的內(nèi)容 | |
采集post請求數(shù)據(jù) | 可采集post請求中的內(nèi)容 | |
采集get請求數(shù)據(jù) | 可采集get請求中的內(nèi)容 | |
采集需要cookie的網(wǎng)站 | 可采集需要cookie的網(wǎng)站 | |
自動(dòng)解析JS | 啟用JavaScrIPt功能即可自動(dòng)解析頁面JS | |
網(wǎng)頁源碼智能解碼 | 設(shè)置網(wǎng)頁編碼,即可自動(dòng)解碼 | |
OAuth認(rèn)證 | 采集OAuth認(rèn)證的網(wǎng)站 | |
采集境外網(wǎng)站 | 可采集境外網(wǎng)站 | |
采集本地文件 | 可采集本地文件內(nèi)容 | |
采集內(nèi)網(wǎng)網(wǎng)站 | 可采集內(nèi)網(wǎng)網(wǎng)站 | |
采集APP軟件數(shù)據(jù) | 可采集各類APP軟件的數(shù)據(jù) | |
登錄采集 | 可采集需要登錄的網(wǎng)站 | |
關(guān)鍵詞采集 | 可采集關(guān)鍵詞搜索出來的內(nèi)容 | |
瀑布流翻頁采集 | 可采集瀑布流翻頁的網(wǎng)站 | |
瀏覽器采集 | 可模擬瀏覽器點(diǎn)擊采集 | |
采集批量數(shù)據(jù)源網(wǎng)站 | 可配置一個(gè)模板采集成千上萬個(gè)網(wǎng)站 | |
支持的數(shù)據(jù)格式 | 采集外部數(shù)據(jù)源 | 采集時(shí)可調(diào)用本數(shù)據(jù)庫中的其他數(shù)據(jù)表,或其他數(shù)據(jù)庫/服務(wù)器中的數(shù)據(jù),作為采集關(guān)鍵詞、數(shù)據(jù)源地址等 |
采集視頻 | 可采集網(wǎng)頁中的視頻 | |
采集直播 | 可采集網(wǎng)頁中正在直播的視頻 | |
采集音頻 | 可采集網(wǎng)頁中的音頻 | |
采集圖片 | 可采集網(wǎng)頁中的圖片 | |
采集pdf文件 | 可采集網(wǎng)頁中的pdf文件 | |
采集word文件 | 可采集網(wǎng)頁中的word文件 | |
采集表格文件 | 可采集網(wǎng)頁中的表格 | |
采集各種附件 | 可采集網(wǎng)頁中的各類附件 |
多場景輕松配置 | ||
---|---|---|
功能分類 | 功能點(diǎn) | 詳細(xì)介紹 |
登錄配置 | 登錄配置 | 可自動(dòng)配置,也可手動(dòng)配置 |
自動(dòng)生成cookie | 可自動(dòng)生成cookie,獲取數(shù)據(jù) | |
手動(dòng)配置cookie | 對(duì)于需要cookie的網(wǎng)站,可手動(dòng)添加cookie,獲取數(shù)據(jù) | |
關(guān)鍵詞配置 | 關(guān)鍵詞配置 | 可進(jìn)行關(guān)鍵詞配置,可在高級(jí)配置中配置各項(xiàng)參數(shù) |
批量導(dǎo)入、修改關(guān)鍵詞 | 批量導(dǎo)入刪除、修改關(guān)鍵詞 | |
關(guān)鍵詞自動(dòng)排重 | 批量關(guān)鍵詞自動(dòng)排重 | |
鏈接抽取過濾 | 定位過濾鏈接 | 根據(jù)網(wǎng)頁位置,抽取固定位置的鏈接 |
地址過濾鏈接 | 根據(jù)網(wǎng)址規(guī)律,抽取特定規(guī)律的鏈接 | |
標(biāo)題過濾鏈接 | 根據(jù)網(wǎng)址標(biāo)題規(guī)律,抽取符合標(biāo)題規(guī)律的鏈接 | |
智能拼接鏈接 | 根據(jù)網(wǎng)站規(guī)律,高級(jí)設(shè)置鏈接參數(shù),快速拼接鏈接 | |
數(shù)據(jù)抽取過濾 | 定位取值 | 抽取特定位置的數(shù)據(jù) |
節(jié)點(diǎn)取值 | 抽取網(wǎng)頁源碼中特定節(jié)點(diǎn)的數(shù)據(jù) | |
特征定位 | 根據(jù)正文文本特征,自動(dòng)定位抽取數(shù)據(jù) | |
智能識(shí)別正文 | 可智能識(shí)別數(shù)據(jù)頁正文內(nèi)容 | |
智能識(shí)別標(biāo)題 | 可智能識(shí)別數(shù)據(jù)頁標(biāo)題 | |
自動(dòng)獲取網(wǎng)頁title | 可自動(dòng)獲取數(shù)據(jù)頁title | |
自動(dòng)獲取網(wǎng)頁時(shí)間 | 可自動(dòng)獲取網(wǎng)頁更新時(shí)間 | |
自動(dòng)獲取采集時(shí)間 | 可自動(dòng)獲取采集時(shí)間 | |
自動(dòng)獲取頁面源碼 | 自動(dòng)獲取頁面源碼 | |
自動(dòng)識(shí)別列表數(shù)據(jù) | 自動(dòng)識(shí)別網(wǎng)頁中列表鏈接的內(nèi)容并抽取數(shù)據(jù)。 | |
智能獲取節(jié)點(diǎn)屬性值 | 可智能獲取頁面源碼中某一節(jié)點(diǎn)屬性值,如href中的鏈接地址 | |
智能提取其他頁面數(shù)據(jù) | 可智能提取其他頁面的數(shù)據(jù),將其他頁數(shù)據(jù)存儲(chǔ)到本頁的數(shù)據(jù)表中 | |
支持UTF-8與GBK相互轉(zhuǎn)碼 | 可以將頁面源碼中的UTF-8與GBK相互轉(zhuǎn)碼 | |
挖掘清洗分類 | 支持?jǐn)?shù)據(jù)分析功能 | 可對(duì)采集到的數(shù)據(jù)進(jìn)行分析 |
挖掘特征數(shù)據(jù) | 根據(jù)某類特征挖掘數(shù)據(jù) | |
智能清洗數(shù)據(jù) | 根據(jù)數(shù)據(jù)規(guī)律,智能清洗不需要的文本內(nèi)容 | |
自定義主題識(shí)別 | 按照需求自動(dòng)識(shí)別文本主題,并分類采集存儲(chǔ) | |
條件篩選 | 自定義采集視頻大小及時(shí)長 | 設(shè)置采集視頻的大小及時(shí)長,采集符合要求的視頻數(shù)據(jù) |
自定義采集文件大小 | 設(shè)置采集文件的大小,采集符合要求的文件數(shù)據(jù) | |
過濾采集文件類型 | 設(shè)置采集文件的類型,采集該類型的文件數(shù)據(jù) | |
采集特定時(shí)間段數(shù)據(jù) | 采集網(wǎng)站中指定時(shí)間段內(nèi)的數(shù)據(jù) | |
采集預(yù)覽 | 模板預(yù)覽 | 在配置過程中預(yù)覽某層模板的采集效果,及時(shí)調(diào)整提高配置效率 |
檢測鏈接抽取 | 在配置中可隨時(shí)查看鏈接抽取準(zhǔn)確性,調(diào)整過濾規(guī)則 | |
檢測數(shù)據(jù)抽取 | 在配置中可隨時(shí)查看數(shù)據(jù)抽取準(zhǔn)確性 | |
批量智能配置 | 配置繼承共享 | 子模板共享父模板內(nèi)容 |
配置映射共享 | 不同模板之間通過映射靈活共享共同配置部分 | |
關(guān)聯(lián)外部數(shù)據(jù)源 | 關(guān)鍵詞、采集源,數(shù)據(jù)匹配入庫等均能關(guān)聯(lián)外部數(shù)據(jù)源進(jìn)行數(shù)據(jù)匹配 | |
AI配置批量網(wǎng)站 | 智能配置成千上萬的結(jié)構(gòu)類似的網(wǎng)站 | |
模板復(fù)制粘貼 | 將已配置好的模板層級(jí),復(fù)制并粘貼到需要的新模板中,提高配置效率 | |
表結(jié)構(gòu)可復(fù)用 | 不同網(wǎng)站可重復(fù)使用同一表結(jié)構(gòu),無需重建表結(jié)構(gòu) |
普適化運(yùn)行設(shè)置 | ||
---|---|---|
模板導(dǎo)入/出 | 導(dǎo)出采集模板 | 可將配置好的采集模板導(dǎo)出 |
導(dǎo)入采集模板/出 | 可將配置好的采集模板導(dǎo)入 | |
靈活調(diào)速 | 自定義設(shè)置采集速度 | 自定義采集速度,采集速度最高可達(dá)8000萬條/天 |
自定義調(diào)整采集線程 | 自定義調(diào)整線程 | |
動(dòng)態(tài)調(diào)整采集速度 | 可直接在采集過程中調(diào)整采集速度,無需終止任務(wù) | |
動(dòng)態(tài)調(diào)整采集線程 | 可直接在采集過程中調(diào)整采集線程,無需終止任務(wù) | |
瀏覽器加速 | 加載時(shí)自動(dòng)過濾頁面中的非html文件,加速加載和運(yùn)行 | |
定時(shí)采集 | 間隔定時(shí)采集 | 設(shè)定間隔時(shí)間,實(shí)現(xiàn)固定間隔時(shí)間的采集開啟/關(guān)閉 |
定點(diǎn)定時(shí)采集 | 設(shè)定爬蟲自動(dòng)開始/關(guān)閉的時(shí)間 | |
自定義采集策略 | 增量采集 | 增量采集網(wǎng)頁更新數(shù)據(jù),不重復(fù)采集/天 |
查漏采集 | 運(yùn)行中網(wǎng)絡(luò)錯(cuò)誤、入庫錯(cuò)誤的請求,查漏再次采集,更新補(bǔ)充保證采集數(shù)據(jù)的完整性 | |
繼續(xù)采集 | 繼續(xù)運(yùn)行上次未完成的采集任務(wù) | |
全部重采 | 重新運(yùn)行全部采集任務(wù) | |
自定義請求上限 | 設(shè)置請求上限,達(dá)到上限后停止采集 | |
加載日志宏 | 設(shè)置日志加載命令,使日志按照命令執(zhí)行 | |
運(yùn)行排重 | 運(yùn)行列表排重 | 運(yùn)行時(shí)對(duì)請求進(jìn)行排重處理,防止重復(fù)采集數(shù)據(jù) |
加載超時(shí)設(shè)置 | 自定義超時(shí)時(shí)間 | 設(shè)置發(fā)送超時(shí)和請求超時(shí)最大時(shí)長,有效防止因網(wǎng)絡(luò)等原因?qū)е碌?,超時(shí)請求發(fā)送或接收數(shù)據(jù)失敗的情況 |
超時(shí)重試次數(shù)設(shè)置 | 設(shè)置超時(shí)重試次數(shù),可在超過設(shè)置的時(shí)間后多次重試 | |
模擬瀏覽器 | 模擬瀏覽器版本 | 自定義設(shè)置運(yùn)行時(shí)使用的瀏覽器版本 |
自定義User-Agent | 自定義User-Agent,模仿蜘蛛采集 | |
異常錯(cuò)誤處理 | 網(wǎng)絡(luò)異常預(yù)警 | 運(yùn)行時(shí)遇到因網(wǎng)絡(luò)異常而導(dǎo)致的請求失敗,系統(tǒng)會(huì)自動(dòng)預(yù)警 |
錯(cuò)誤處理模板 | 運(yùn)行中錯(cuò)誤的請求返回指指定模板中再次運(yùn)行,大大提高采集效率 | |
運(yùn)行進(jìn)度監(jiān)控 | 采集日志記錄 | 記錄運(yùn)行過程中所有請求日志 |
日志導(dǎo)入/導(dǎo)出 | 導(dǎo)出、導(dǎo)入日志 | |
日志統(tǒng)計(jì) | 統(tǒng)計(jì)日志數(shù)據(jù) | |
自動(dòng)保存任務(wù)進(jìn)度 | 出現(xiàn)異常情況時(shí),自動(dòng)保存任務(wù)進(jìn)度,重新開啟后可繼續(xù)采集 | |
采集順序 | 多網(wǎng)站采集 | 同時(shí)采集多個(gè)網(wǎng)站/模板 |
多網(wǎng)站同步采集 | 將所有任務(wù)的所有日志都裝載完再開始采集??梢员WC順序和排重。 | |
多網(wǎng)站異步采集 | 邊加載邊采集,優(yōu)點(diǎn)是開始采集會(huì)比較快,等待時(shí)間短,缺點(diǎn)是無法保證順序和排重。 | |
智能自檢 | 系統(tǒng)配置檢測 | 采集前運(yùn)行自檢,可清楚查看配置設(shè)置是否達(dá)到最佳狀態(tài) |
多策略反爬設(shè)置 | ||
---|---|---|
反爬預(yù)警 | 網(wǎng)絡(luò)異常識(shí)別 | 自定義網(wǎng)絡(luò)異常識(shí)別次數(shù),當(dāng)達(dá)到次數(shù)時(shí),會(huì)自動(dòng)提醒 |
反爬識(shí)別 | 自定義反爬識(shí)別次數(shù),當(dāng)達(dá)到次數(shù)時(shí),會(huì)自動(dòng)提醒 | |
自定義預(yù)警操作 | 可自行選擇預(yù)警操作,包括:暫停、自動(dòng)休眠、自動(dòng)更換代理IP等 | |
反爬提醒 | 可自行選擇提醒方式,包括:圖標(biāo)閃爍、彈窗等待等 | |
代理IP設(shè)置 | 接入動(dòng)靜態(tài)代理IP | 可接入第三方代理IP,動(dòng)態(tài)和靜態(tài)均可 |
代理IP測試 | 接入第三方代理IP后,可測試其有效性 | |
反爬自動(dòng)更換代理IP | 運(yùn)行時(shí),自動(dòng)識(shí)別反爬并自動(dòng)更換代理IP | |
代理IP優(yōu)化 | 優(yōu)化無效代理,優(yōu)化響應(yīng)過慢代理 | |
多通道采集 | 多線程采集時(shí),真實(shí)模擬多個(gè)通道進(jìn)行采集的過程 | |
動(dòng)態(tài)IP鎖定 | 將動(dòng)態(tài)IP與運(yùn)行時(shí)獲取一條數(shù)據(jù)的一組請求鎖定,更真實(shí)的模擬IP獲取數(shù)據(jù)的過程 | |
全局代理IP設(shè)置 | 設(shè)置全局代理IP | |
登錄反爬 | 模擬多賬號(hào)登錄 | 模擬多賬號(hào)登錄,用于封號(hào)的反爬策略 |
請求數(shù)限制 | 自定義請求上限 | 設(shè)置請求上限,達(dá)到上限后停止采集 |
驗(yàn)證碼反爬 | 支持批量識(shí)別驗(yàn)證碼 | 可接入第三方打碼平臺(tái),批量識(shí)別驗(yàn)證碼,解決網(wǎng)頁驗(yàn)證碼問題 |
數(shù)據(jù)存儲(chǔ)與導(dǎo)出 | ||
---|---|---|
導(dǎo)出格式多樣化 | 導(dǎo)出為csv | 將數(shù)據(jù)導(dǎo)出為csv格式 |
導(dǎo)出為txt | 將數(shù)據(jù)導(dǎo)出為txt格式 | |
導(dǎo)出為xls | 將數(shù)據(jù)導(dǎo)出為xls格式 | |
導(dǎo)出圖片 | 將采集到的圖片自定義命名字段,導(dǎo)出到指定文檔中 | |
導(dǎo)出視頻 | 將采集到的視頻自定義命名字段,導(dǎo)出到指定文檔中 | |
導(dǎo)出附件 | 將采集到的附件(pdf、word、xls等)自定義命名字段,導(dǎo)出到指定文檔中 | |
局部導(dǎo)出 | 導(dǎo)出指定范圍數(shù)據(jù) | 導(dǎo)出指定范圍的數(shù)據(jù) |
導(dǎo)出指定字段 | 導(dǎo)出指定字段的數(shù)據(jù) | |
自定義文件命名字段 | 自定義文件命名字段 | |
分組導(dǎo)出 | 自定義文件夾分組導(dǎo)出 | 將指定范圍的數(shù)據(jù),分組導(dǎo)出到自命名的不同文件夾中 |
篩選檢索 | 按字段檢索 | 關(guān)鍵詞檢索某一字段 |
全文檢索 | 關(guān)鍵詞檢索全部數(shù)據(jù) | |
按字段檢索并導(dǎo)出 | 關(guān)鍵詞檢索某一字段,并導(dǎo)出符合的數(shù)據(jù) | |
全文檢索并導(dǎo)出 | 關(guān)鍵詞檢索全部數(shù)據(jù),并導(dǎo)出符合的數(shù)據(jù) | |
按字段檢索并刪除數(shù)據(jù) | 關(guān)鍵詞檢索某一字段,并刪除檢索出的數(shù)據(jù) | |
全文檢索并刪除數(shù)據(jù) | 關(guān)鍵詞檢索全部數(shù)據(jù),并刪除檢索出的數(shù)據(jù) | |
存儲(chǔ)功能 | 自定義新增數(shù)據(jù)存儲(chǔ)規(guī)則 | 可設(shè)置不同的數(shù)據(jù)存儲(chǔ)形式:僅更新新增數(shù)據(jù)、實(shí)時(shí)采集最新數(shù)據(jù)并覆蓋舊數(shù)據(jù)、實(shí)時(shí)采集所有采集數(shù)據(jù)等。 |
數(shù)據(jù)自動(dòng)排重 | 自定義排重字段,根據(jù)字段內(nèi)容進(jìn)行排重存儲(chǔ) | |
多個(gè)網(wǎng)站數(shù)據(jù)統(tǒng)一存儲(chǔ) | 多網(wǎng)站數(shù)據(jù)同時(shí)采集并存儲(chǔ)到同一個(gè)數(shù)據(jù)表中 | |
多網(wǎng)站數(shù)據(jù)獨(dú)立存儲(chǔ) | 多網(wǎng)站同時(shí)采集單獨(dú)存儲(chǔ)到不同數(shù)據(jù)表中 | |
自帶數(shù)據(jù)庫 | 系統(tǒng)默認(rèn)數(shù)據(jù)庫為ForeLib數(shù)據(jù)庫 | |
支持Mysql數(shù)據(jù)庫 | 可關(guān)聯(lián)Mysql數(shù)據(jù)庫,將數(shù)據(jù)實(shí)時(shí)采集到Mysql數(shù)據(jù)庫中 | |
支持Access數(shù)據(jù)庫 | 可關(guān)聯(lián)Access數(shù)據(jù)庫,將數(shù)據(jù)實(shí)時(shí)采集到Access數(shù)據(jù)庫中 | |
支持SQL Server數(shù)據(jù)庫 | 可關(guān)聯(lián)SQL Server數(shù)據(jù)庫,將數(shù)據(jù)實(shí)時(shí)采集到SQL Server數(shù)據(jù)庫中 | |
連接外部服務(wù)器存儲(chǔ) | 連接外部服務(wù)器,將數(shù)據(jù)直接存儲(chǔ)到外部服務(wù)器中 |
數(shù)據(jù)推送發(fā)布 | ||
---|---|---|
挖掘清洗 | 推送時(shí)挖掘數(shù)據(jù) | 在推送的同時(shí),對(duì)文本進(jìn)行特征挖掘提取 |
推送時(shí)清洗數(shù)據(jù) | 在推送的同時(shí),對(duì)數(shù)據(jù)按照規(guī)律進(jìn)行清洗 | |
推送時(shí)間設(shè)置 | 推送時(shí)間設(shè)置 | 將采集到的數(shù)據(jù)定時(shí)推送 |
實(shí)時(shí)推送 | 實(shí)時(shí)推送采集到的數(shù)據(jù) | |
推送方式設(shè)置 | 郵件推送 | 通過郵件推送數(shù)據(jù) |
http/https推送 | 通過http/https推送數(shù)據(jù) | |
定制接口推送 | 通過定制接口推送數(shù)據(jù) | |
數(shù)據(jù)庫推送 | 將數(shù)據(jù)推送到指定數(shù)據(jù)庫 |
極速采集 | ||
---|---|---|
并行采集流數(shù)據(jù) | 并行采集視頻文件 | 并行下載多個(gè)視頻文件,加快下載速度 |
并行下載附件 | 并行下載多個(gè)附件文件,加快下載速度 | |
多進(jìn)程采集 | 多進(jìn)程多線程運(yùn)行 | 可同時(shí)運(yùn)行多進(jìn)程和多個(gè)線程,加快采集速度 |
多網(wǎng)站智能管理 | 多網(wǎng)站采集獨(dú)立管理 | 同時(shí)運(yùn)行多個(gè)網(wǎng)站時(shí),可獨(dú)立方便管理 |
多網(wǎng)站定時(shí)采集獨(dú)立管理 | 同時(shí)運(yùn)行多個(gè)網(wǎng)站時(shí),獨(dú)立對(duì)各網(wǎng)站進(jìn)行定時(shí)管理 | |
多網(wǎng)站日志獨(dú)立管理 | 同時(shí)運(yùn)行多個(gè)網(wǎng)站時(shí),日志獨(dú)立管理 | |
采集批量網(wǎng)站無上限 | 可同時(shí)采集成千上萬個(gè)網(wǎng)站,沒有上限 | |
自研內(nèi)核引擎 | JS引擎內(nèi)核 | 采集引擎完全由C++編寫,不同于瀏覽器采集,單機(jī)采集速度最高可達(dá)400萬條/天 |
CSS引擎 | 擁有CSS引擎,可對(duì)快速解析網(wǎng)頁中CSS數(shù)據(jù),高效采集 | |
DOM樹解析引擎 | 擁有DOM樹解析引擎,對(duì)網(wǎng)頁中DOM樹結(jié)構(gòu)快速解析 | |
分布式引擎 | 分布式引擎,可實(shí)現(xiàn)多機(jī)集群采集 |