jdk怎么建web項目?
JDK是JAVA開發包的總稱。使用JDK創建一個Web項目意味著你想用JAVA開發Web應用程序,所以你可以使用不同的技術系統。首先,可以使用JSP和Servlet技術,這是一種相對原始的JAVAWeb開發技術。雖然有點過時,但是簡單易用,是開發Web項目非常基本的。第二種是使用目前主流的Spring框架,尤其是SpringBoot系統,需要IDEA或者Eclips
webmagic詳解?
Webmagic是一個開源的Java垂直爬蟲框架。其目標是簡化爬蟲的開發過程,讓開發者專注于邏輯功能的開發。
設計原理
Webmagic采用完全模塊化的設計,覆蓋了爬蟲的全生命周期(鏈接提取、頁面下載、內容提取、持久化),支持多線程抓取、分布式抓取、自動重試、用戶自定義UA/cookie等功能。
Webmagic包含頁面提取功能,開發者可以使用css選擇器、xpath和正則表達式提取鏈接和內容,支持多個選擇器鏈調用。
使用maven
Webmagic使用maven來管理依賴項,您可以通過向項目添加相應的依賴項來使用webmagic:
WebMagic使用slf4j-log4j12作為slf4j的實現。如果您自己定制slf4j的實現,請從項目中移除這個依賴項。
項目結構
Webmagic主要包括兩個包:
webmagic的核心部分——corewebmagic只包含爬蟲的基本模塊和基本提取器。webmagic-core的目標是成為一個教科書式的網絡爬蟲實現。
webmagic的擴展模塊-extensionwebmagic提供了一些更方便的寫爬蟲的工具。包括標注格式定義爬蟲、JSON、分布式等支持。
Webmagic還包含了兩個可用的擴展包,因為兩個包都依賴于相對重量級的工具,所以與主包分離,這些包需要下載源代碼并自行編譯。