06.沈慧鈞 / Excel讀取外部資料 / 從Web學習爬蟲 / 道瓊30成分股
1.首先打開瀏覽器,輸入關鍵字「道瓊30 鉅亨網」。
*使用鉅亨網是因為該網站不會擋別人抓取資料。
2.跳出搜尋結果後,點選第一筆結果。
4.開啟一個新的Excel檔,到資料標籤,點選「從Web」。
5.貼上剛剛複製的網址並按確定。
6.跳出下一個對話框後,直接點選連接即可。
7.等待連線幾秒鐘過後會跳出此視窗,選擇Table 0,並點選載入。
8.上個步驟需等待幾秒鐘載入資料,接下來會跳出新工作表,如下圖。
9.從Web抓取資料的方便之處在於可以隨時更新資料,如美股於晚間9:30開盤,在此時點至資料標籤點選「全部重新整理」就會自動更新內容。
EXCEL讀取WEB 鉅亨網 道瓊30成分股
EXCEL資料 讀取自己的網頁
將「阿迪達斯」改為「愛迪達」;將「戴姆勒股份有限公司」改為「戴姆勒賓士汽車公司」,並更新。 接下來到EXCEL資料標籤,按「全部重新整理」,資料即更新完成,如下圖。
EXCEL資料 重新整理
網路爬蟲
網路爬蟲(英語:web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。
網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所存取的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。
爬蟲存取網站的過程會消耗目標系統資源。不少網路系統並不默許爬蟲工作。因此在存取大量頁面時,爬蟲需要考慮到規劃、負載,還需要講「禮貌」。 不願意被爬蟲存取、被爬蟲主人知曉的公開站點可以使用robots.txt檔案之類的方法避免存取。這個檔案可以要求機器人只對網站的一部分進行索引,或完全不作處理。
網際網路上的頁面極多,即使是最大的爬蟲系統也無法做出完整的索引。因此在公元2000年之前的全球資訊網出現初期,搜尋引擎經常找不到多少相關結果。現在的搜尋引擎在這方面已經進步很多,能夠即刻給出高品質結果。
爬蟲還可以驗證超連結和HTML代碼,用於網路抓取(參見資料驅動編程)。
留言
張貼留言