SysNucleus WebHarvy官方版是專業(yè)的可以幫助我們對采集的操作做到很好的管理。SysNucleus
WebHarvy官方版可以掃描和采集到我們自己想要的數(shù)據(jù)。
一、直觀化的操作界面
WebHarvy是一個可視化的網(wǎng)頁提取工具。其實完全沒有必要編寫任何腳本或代碼用來提取數(shù)據(jù)。使用webharvy的內(nèi)置瀏覽器瀏覽網(wǎng)頁。您可以選擇用鼠標(biāo)點擊來提取數(shù)據(jù)。它是那么容易!
二、智能識別模式
WebHarvy自動識別網(wǎng)頁中出現(xiàn)的數(shù)據(jù)模式。所以,如果你需要從一個網(wǎng)頁刮項目(姓名,地址,電子郵件,價格等)的列表,你不需要做任何額外的配置。如果數(shù)據(jù)重復(fù),WebHarvy會自動刮。
三、導(dǎo)出捕獲的數(shù)據(jù)
可以保存從各種格式的網(wǎng)頁中提取的數(shù)據(jù)。 WebHarvy網(wǎng)站刮板的當(dāng)前版本允許你導(dǎo)出的刮數(shù)據(jù)作為XML,CSV,JSON或TSV文件。您還可以刮下數(shù)據(jù)導(dǎo)出到一個SQL數(shù)據(jù)庫。
四、從多個頁面提取
通常網(wǎng)頁顯示數(shù)據(jù),如在多個頁面中的產(chǎn)品目錄。 WebHarvy可以自動抓取并從多個網(wǎng)頁中提取數(shù)據(jù)。只是指出了“鏈接到下一頁'和WebHarvy網(wǎng)站刮板將自動刮從所有頁面的數(shù)據(jù)。
五、基于關(guān)鍵字的提取
基于關(guān)鍵字的提取可讓您捕捉從搜索結(jié)果頁面輸入關(guān)鍵字的列表數(shù)據(jù)。您創(chuàng)建的配置將被自動重復(fù)所有給定輸入關(guān)鍵字,而挖掘的數(shù)據(jù)。可以指定任意數(shù)量的輸入關(guān)鍵字
六、提取分類
WebHarvy網(wǎng)站刮板允許您從一個鏈接列表,從而導(dǎo)致一個網(wǎng)站內(nèi)的相似頁面抽取數(shù)據(jù)。這使您可以使用一個單一的配置刮網(wǎng)站內(nèi)的類別或小節(jié)。
七、使用正則表達(dá)式提取
WebHarvy可以應(yīng)用正則表達(dá)式(正則表達(dá)式)在文本或網(wǎng)頁的HTML源代碼,并提取去匹配的部分。這種強大的技術(shù)為您提供了更多的靈活性,同時拼搶的數(shù)據(jù)。
網(wǎng)友評論