為何網站可以整個抓下來 , 部落格卻不行呢?

有時我會將整個網站複製下來 , 做為日後查閱相關文獻時的參考依據 , 因為一頁頁複製太過繁瑣 , 我通常都用Teleport Pro 跟 SuperBot這兩套軟體 , 或是直接 [另存新檔] !

但很奇怪! 我下載一般網站時 , 每個內部連結都可成功離線瀏覽 , 但當下載部落格時 , 卻只能離線瀏覽我所下載的那一頁面 , 而此頁面上頭的其它連結全都失敗 , 無法深入進行多層複製!

請問這狀況是我軟體設定錯誤 , 還是部落格這種形式的頁面,本身就無法進行所謂[一次全抓下來]? 但又是什麼原因呢? 聽說是因為部落格是有資料庫的, 請問[資料庫]是指什麼? 以及目前有無其他軟體或特殊方法,可解決這個問題?


文章關鍵字
可能有幾個原因:
1. 網站有設定允許抓取的部份(通常會寫在 robots.txt), 如果砍站軟體有照 robots.txt 內容約束, 就可能不去抓不被允許的檔案. 這部份改砍站軟體的設定.
2. 網站使用了 cookie 或 session 來控制顯示的檔案, 而砍站軟體無法處理.
3. 網站的檔名有特殊處理過.
4. 其他.


一般來說,部落格是用資料庫在紀錄資訊的!
資料庫就是儲存資料的地方!

這麼說吧!有些部落格的人數眾多!你要他們把所有的發言發表通通寫成網頁,那不知道有多花費力氣,如果有個樣板,把同樣顯示內容的放到一樣的地方,這樣就很省功了!

所以發言的內容放到資料庫裡面,而網頁只寫成簡單的樣板,這樣要管理網頁也方便多了!
應該是靜態網頁與動態網頁的差別!!
動態網頁式即時產生的,你沒有request他不會產生你要的頁面
謝謝各位朋友的解說

看來只好一頁頁慢慢複製了~
我的信箱 moby12152@yahoo.com.tw
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!