门户网站分流(一)

来源:互联网 发布:域名注册需要什么信息 编辑:程序博客网 时间:2024/06/10 19:12
嗯,上面的 Link 感覺沒有交特清楚,或不太對的觀念,原作者的說明:

QUOTE:
上面是sina的http头的反馈信息。里面有很多有价值的东东哦:)譬如,它后面的apache是用2.0.49,还设了过期时间为2分钟。最后修改时间。这些都是要在编译apache的时候载入的,特别是Last-Modified还需要小小的改一把源码--至少我是这样做的。
HTTP/1.0 200 OK 這大家都知道
Date: 代表 Web 的 Response 時間,若這個時間不變,基本上可以猜測是 Proxy Server 回應的,也就是 Proxy Server 真正去 sina 後台抓這一頁的時間點
Server: 後台被代理的 Web 版本
Last-Modified: Request 的檔案最後修改時間,也就是你 ls -l 看到的時間,不懂該篇所提的含意
Vary: 這個欄位我不懂,沒有特別研究,但覺得 RFC 2616 有交待不明確的感覺
Cache-Control: max-age=60 每60秒後的 Request 檢查後面的 Web 本頁有無更新,會和 Age: 有關
Expires: 本頁過期時間. Expires 和 Cache-Control 同時存在時,將以 Cache-Control 為運作機制)
Content-Length: 180747
Content-Type: text/html 這兩個大家都知道,但有時要多注意 1.1 中的 Transfer-Encoding: chunked 狀況 Ex: http://bbs.chinaunix.net/forum/viewtopic.php?t=417548
Age: 現在 Cache 的秒數,依本例若超過 60 頁面更新查詢,若 Last-Modified 有異則更新頁面的 Cache,並從0起記
X-Cache: 表示是由 Cache 回應,有 Age 值即有此欄為 HIT,不然為 MISS xxxx.....
Connection: close 由於這是 Proxy 回的,所以通常為 Close,也就是 Server 丟出 Response 後就會 Close Connection.
        每一次 HTTP 的請求及回應都會一個新的 Connection.
        另外一種狀況為 Keep-Alive,通常會由 Keep-Alive: Header 說明其連線時間,ex: timeout=20, max=99 ,IDLE timeout 為20秒
        最多使用 99 秒在同一個 http connection 中

其他欄位...有看到再說囉,當然,我的認知也可能有錯,若有錯希望您能告訴我.
熟知原理,標準,你就可以知道作法,只是外面的套子有點不同而以.
至於原貼提到的 Raid 或 NFS,這個重遠端並無法知道,只能用猜.
是不是二層反向代理,我個人猜測是沒有的,原因是你對 www.sina.com.cn 做 HTTP Protocol 實驗即知:

CODE:
[Copy to clipboard]
for ip in `dig @168.95.1.1 www.sina.com.cn|grep '^libra' | awk '{print $5}'`
do
        echo $ip;echo -e "GET / HTTP/1.1/nHost: www.sina.com.cn/n/n"| nc $ip 80 | sed -n '1,20p'|grep -E 'Date|Last-|Expire'
done
結果:

CODE:
[Copy to clipboard]
61.135.153.183
Date: Wed, 20 Oct 2004 18:42:30 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:43:30 GMT
61.135.153.184
Date: Wed, 20 Oct 2004 18:42:54 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:43:54 GMT
61.135.152.65
Date: Wed, 20 Oct 2004 18:42:04 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:43:04 GMT
61.135.152.66
Date: Wed, 20 Oct 2004 18:42:12 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:43:12 GMT
61.135.152.67
Date: Wed, 20 Oct 2004 18:43:54 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:44:54 GMT
61.135.152.68
Date: Wed, 20 Oct 2004 18:42:15 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:43:15 GMT
61.135.152.69
Date: Wed, 20 Oct 2004 18:42:05 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:43:05 GMT
61.135.152.70
Date: Wed, 20 Oct 2004 18:44:41 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:45:41 GMT
61.135.152.71
Date: Wed, 20 Oct 2004 18:42:41 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:43:41 GMT
61.135.152.72
Date: Wed, 20 Oct 2004 18:42:34 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:43:34 GMT
61.135.152.73
Date: Wed, 20 Oct 2004 18:43:50 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:44:50 GMT
61.135.152.74
Date: Wed, 20 Oct 2004 18:42:34 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:43:34 GMT
61.135.152.75
Date: Wed, 20 Oct 2004 18:44:49 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:45:49 GMT
61.135.153.180
Date: Wed, 20 Oct 2004 18:42:53 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:43:53 GMT
61.135.153.181
Date: Wed, 20 Oct 2004 18:42:10 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:43:10 GMT
61.135.153.182
Date: Wed, 20 Oct 2004 18:42:06 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Expires: Wed, 20 Oct 2004 18:43:06 GMT
這個 IP List (www.sina.com.cn) 不見得和你一樣,但你可以發現 Date 多不同,若有兩次反向代理,應該會分成幾個群才是
Last-Modified 可以看出大概是同一來源,所以理論上,用戶最多全 touch 到最 Fresh 的最新的首頁(後台),一天最多不過 1440 次(MISS),
就算跑個 100 台 squid,144000 次對一般的 Apache Server 而言,並不算什麼,尤其又平均拆到一分鐘去算
至於動態頁面的 Cache 估計也是有做(如搜尋功能),且 Cache 時間應會遠比首頁來的長很多,主要即是看頁面更新頻率,來決定 Cache-Control 時間


用新網來試的例子:

CODE:
[Copy to clipboard]
for ip in `dig @210.51.170.66 www.sina.com.cn|grep '^pavo' | awk '{print $5}'`
do
        echo $ip;echo -e "GET / HTTP/1.1/nHost: www.sina.com.cn/n/n"| nc $ip 80 | sed -n '1,20p'|grep -E 'Date|Last-|Expire|Age|Cache-';
done


CODE:
[Copy to clipboard]
210.51.179.89
Date: Wed, 20 Oct 2004 19:04:15 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Cache-Control: max-age=60
Expires: Wed, 20 Oct 2004 19:07:21 GMT
Age: 89
210.51.179.90
Age: 125
Date: Wed, 20 Oct 2004 19:05:23 GMT
Expires: Wed, 20 Oct 2004 19:06:23 GMT
Cache-Control: max-age=60
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
210.51.179.91
Date: Wed, 20 Oct 2004 18:53:55 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
Cache-Control: max-age=60
Expires: Wed, 20 Oct 2004 18:57:09 GMT
Age: 9
210.51.179.88
Date: Wed, 20 Oct 2004 19:04:43 GMT
Last-Modified: Wed, 20 Oct 2004 18:41:47 GMT
發現有什麼狀況嗎 ?  
原创粉丝点击