黄色网址大全免费-黄色网址你懂得-黄色网址你懂的-黄色网址有那些-免费超爽视频-免费大片黄国产在线观看

專注Java教育14年全國咨詢/投訴熱線：400-8080-105

全國校區(qū)

Java培訓機構

北京

深圳Java培訓

深圳

上海Java培訓

上海

廣州Java培訓

廣州

武漢Java培訓

武漢

Java培訓機構

成都

西安Java培訓機構

西安

鄭州Java培訓機構

鄭州

南京Java培訓機構

南京

長沙Java培訓機構

長沙

按需選班

爆
Java實驗班



Java就業(yè)班



Java在職加薪班



Java架構師班



Java夜校班
首頁
師資力量
在線學習
圖書館
視頻教程
畢業(yè)設計
報名須知

首頁學習攻略 java爬蟲技術之如何使用Java制作網(wǎng)絡爬蟲？

java爬蟲技術之如何使用Java制作網(wǎng)絡爬蟲？

更新時間：2020-06-22 11:59:49 來源：動力節(jié)點瀏覽2752次

如何使用Java制作簡單的Web爬網(wǎng)程序原型。制作Web搜尋器并不像聽起來那樣困難。只需按照指南進行操作，您將在1小時或更短的時間內迅速到達該地點，然后享受它可以為您提供的大量信息。由于這只是一個原型，因此您需要花費更多時間來根據(jù)需要自定義它。

java爬蟲技術之如何使用Java制作網(wǎng)絡爬蟲？

以下是本教程的先決條件：

·基本Java程式設計

·關于SQL和MySQL數(shù)據(jù)庫的一些知識。

如果您不想使用數(shù)據(jù)庫，則可以使用文件來跟蹤爬網(wǎng)歷史記錄。

1.目標

在本教程中，目標如下：

給定學校根URL，例如"mit.edu"，返回包含該學校字符串"research"的所有頁面

典型的搜尋器按以下步驟工作：

1.解析根網(wǎng)頁（"mit.edu"），并從該頁面獲取所有鏈接。要訪問每個URL并解析HTML頁面，我將使用JSoup，它是用Java編寫的便捷的網(wǎng)頁解析器。

2.使用從步驟1檢索到的URL，并解析這些URL

3.執(zhí)行上述步驟時，我們需要跟蹤之前已處理過的頁面，因此每個網(wǎng)頁僅被處理一次。這就是我們需要數(shù)據(jù)庫的原因。

2.設置MySQL數(shù)據(jù)庫

如果您使用的是Ubuntu，則可以按照本指南安裝Apache，MySQL，PHP和phpMyAdmin。

如果使用Windows，則只需使用WampServer。您可以簡單地從wampserver.com下載它，并在一分鐘內安裝它，可以繼續(xù)進行下一步。

我將使用phpMyAdmin來操作MySQL數(shù)據(jù)庫。它只是使用MySQL的GUI界面。如果您使用任何其他工具或不使用GUI工具，那都很好。

3.創(chuàng)建一個數(shù)據(jù)庫和一個表

創(chuàng)建一個名為"Crawler"的數(shù)據(jù)庫，并創(chuàng)建一個名為"Record"的表，如下所示：

CREATE TABLE IF NOT EXISTS`Record`(
`RecordID`INT(11)NOT NULL AUTO_INCREMENT,
`URL`text NOT NULL,
PRIMARY KEY(`RecordID`))ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1;

4.開始使用Java進行爬網(wǎng)

1）下載JSoup核心庫。

2）現(xiàn)在，在Jsoup中創(chuàng)建一個名為"Crawler"的項目，并將您下載的JSoup和mysql-connector jar文件添加到Java Build Path。（右鍵單擊項目->選擇"構建路徑"->"配置構建路徑"->單擊"庫"選項卡->單擊"添加外部JAR"）

3）創(chuàng)建一個名為"DB"的類，該類用于處理數(shù)據(jù)庫操作。

import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;

public class DB{
public Connection conn=null;
public DB(){
try{
Class.forName("com.mysql.jdbc.Driver");
String url="jdbc:mysql://localhost:3306/Crawler";
conn=DriverManager.getConnection(url,"root","admin213");
System.out.println("conn built");
}catch(SQLException e){
e.printStackTrace();
}catch(ClassNotFoundException e){
e.printStackTrace();
}
}

public ResultSet runSql(String sql)throws SQLException{
Statement sta=conn.createStatement();
return sta.executeQuery(sql);
}

public boolean runSql2(String sql)throws SQLException{
Statement sta=conn.createStatement();
return sta.execute(sql);
}

Override
protected void finalize()throws Throwable{
if(conn!=null||!conn.isClosed()){
conn.close();
}
}}

4）創(chuàng)建一個名稱為"Main"的類，它將作為我們的搜尋器。

import java.io.IOException;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;

public class Main{
public static DB db=new DB();
public static void main(String[]args)throws SQLException,IOException{
db.runSql2("TRUNCATE Record;");
processPage("http://www.mit.edu");
}
public static void processPage(String URL)throws SQLException,IOException{
//check if the given URL is already in database
String sql="select*from Record where URL='"+URL+"'";
ResultSet rs=db.runSql(sql);
if(rs.next()){
}else{
//store the URL to database to avoid parsing again
sql="INSERT INTO`Crawler`.`Record`"+"(`URL`)VALUES"+"(?);";
PreparedStatement stmt=db.conn.prepareStatement(sql,Statement.RETURN_GENERATED_KEYS);
stmt.setString(1,URL);
stmt.execute();
//get useful information
Document doc=Jsoup.connect("http://www.mit.edu/").get();
if(doc.text().contains("research")){
System.out.println(URL);
}

//get all links and recursively call the processPage method
Elements questions=doc.select("a[href]");
for(Element link:questions){
if(link.attr("href").contains("mit.edu"))
processPage(link.attr("abs:href"));
}
}
}}

以上就是動力節(jié)點java培訓機構的小編針對“java爬蟲技術之如何使用Java制作網(wǎng)絡爬蟲？”的內容進行的回答，希望對大家有所幫助，如有疑問，請在線咨詢，有專業(yè)老師隨時為你服務。

上一篇零基礎Java學習需要基礎嗎下一篇html5學習之java視頻課程

相關閱讀

最新文章

提交申請后，顧問老師會電話與您溝通安排學習

課程大綱學習路線畢業(yè)設計開發(fā)工具

北京校區(qū) 2025-07-18 搶座中
北京校區(qū) 2025-08-29 搶座中

北京校區(qū) 2025-07-05 搶座中
北京校區(qū) 2025-08-02 搶座中
北京校區(qū) 2025-09-13 搶座中

免費課程推薦 >>

技術文檔推薦 >>

大家在問 >>

Java培訓班
熱點話題
城市分站
資源廣場
熱門專題

Java培訓實驗班 Java培訓就業(yè)班 Java培訓夜校班 Java培訓在職加薪班 Java培訓架構師班 Java培訓課程

Java培訓動態(tài) 零基礎學Java Java職場就業(yè)

北京Java培訓廣州Java培訓深圳Java培訓上海Java培訓武漢Java培訓成都Java培訓西安Java培訓鄭州Java培訓南京Java培訓長沙Java培訓

Java書籍 Java視頻教程 Java畢業(yè)設計 Java面試題 Java API文檔 Java開發(fā)工具 Java在線學習

上海java培訓北京java培訓深圳java培訓廣州java培訓武漢java培訓成都java培訓西安java培訓鄭州java培訓南京java培訓長沙java培訓 java線上培訓班

主站蜘蛛池模板：嗯男人边吃奶边做边爱视频 | 黑人最猛性free护士hd | 久久综合九色综合97婷婷女人 | 免看一级a毛片一片成人不卡 | 久久精品国产欧美成人 | 欧美日本一区二区 | 无遮挡黄漫动漫yy动漫免费 | 成人a级特黄毛片 | 成人男女网18免费看 | 午夜影皖普通区 | 被男人吃奶很爽的毛片两男一女 | 欧美色图亚洲 | 最近中文字幕免费在线看 | 国产一级片免费视频 | 国产精品视频免费看 | 深夜福利一区二区 | 国内精品免费一区二区观看 | 中国一级毛片国产高清 | 亚洲欧美中文日韩欧美 | 一级aaa级毛片午夜在线播放 | 26uuu亚洲| 欧美中文字幕 | 右手影院亚洲欧美 | 国产精品国内免费一区二区三区 | 国产一级a毛片 | 91在线欧美精品观看 | 成人精品一区二区不卡视频 | 九草在线播放 | 日日摸夜夜添夜夜添人人爽 | 成年人免费在线观看 | 韩国三级日本三级在线观看 | 亚洲乱码尤物193yw在线播放 | 操操网址| 亚洲欧美片 | 久久男女| 免费黄色欧美视频 | 国产精品99久久久久久董美香 | 夜夜澡人人爽人人喊_欧美夜夜躁天天躁很很躁 | 国产成人精品免费2021 | 黄色网址免费观看视频 | 黄色一级毛片在线观看 |