HTTP協議我想任何IT人士都耳熟能詳了,大家都能說出個所以然來。但是如果我問你HTTP協議的請求方法有哪些?POST與GET的差異?GET或POST傳送數據量的大小有限制嗎?HTTP響應的狀態有哪些?以及在C#中你如何使用?如果你不能清楚地回答其中的大部分問題,那麼這篇文章就是為你准備的!大綱如下:
為了喚醒你對HTTP協議的記憶或使你能夠對HTTP協議有所了解,首先簡單一下HTTP協議。超文本傳輸協議(HTTP,HyperText Transfer Protocol)是互聯網上應用最為廣泛的一種網絡協議。所有的WWW文件都必須遵守這個標准。設計HTTP最初的目的是為了提供一種發布和接收HTML頁面的方法。
HTTP的發展是萬維網協會(World Wide Web Consortium)和Internet工作小組(Internet Engineering Task Force)合作的結果,(他們)最終發布了一系列的RFC,其中最著名的就是RFC 2616。RFC 2616定義了HTTP協議中一個現今被廣泛使用的版本——HTTP 1.1。
HTTP是一個客戶端和服務器端請求和應答的標准(TCP)。客戶端是終端用戶,服務器端是網站。通過使用Web浏覽器、網絡爬蟲或者其它的工具,客戶端發起一個到服務器上指定端口(默認端口為80)的HTTP請求。(我們稱這個客戶端)調用戶代理(user agent)。應答的服務器上存儲著(一些)資源,比如HTML文件和圖像。(我們稱)這個應答服務器為源服務器(origin server)。在用戶代理和源服務器中間可能存在多個中間層,比如代理,網關,或者隧道(tunnel)。盡管TCP/IP協議是互聯網上最流行的應用,HTTP協議並沒有規定必須使用它和(基於)它支持的層。事實上,HTTP可以在任何其他互聯網協議上,或者在其他網絡上實現。HTTP只假定(其下層協議提供)可靠的傳輸,任何能夠提供這種保證的協議都可以被其使用。
通常,由HTTP客戶端發起一個請求,建立一個到服務器指定端口(默認是80端口)的TCP連接。HTTP服務器則在那個端口監聽客戶端發送過來的請求。一旦收到請求,服務器(向客戶端)發回一個狀態行,比如"HTTP/1.1 200 OK",和(響應的)消息,消息的消息體可能是請求的文件、錯誤消息、或者其它一些信息。
HTTP使用TCP而不是UDP的原因在於(打開一個)一個網頁必須傳送很多數據,而TCP協議提供傳輸控制,按順序組織數據,和錯誤糾正。通過HTTP或者HTTPS協議請求的資源由統一資源標識符(Uniform Resource Identifiers,或者,更准確一些,URI)來標識。
客戶端與服務器端的結構與交互過程可以表示為下面2張圖:
圖1、Web客戶端-服務器端結構(其中web服務器的超文本鏈接,即通過網站上的一個鏈接跳轉到了其他服務器上)
圖2、Web客戶端與服務器端的交互
客戶端與服務器之間的交互用到了兩種類型的消息:請求(Request)和響應(Response)。
HTTP請求的格式為:
圖3、HTTP請求的格式
HTTP響應的格式為:
圖4、HTTP響應的格式
從上面可以看出HTTP的請求和響應消息的首部均包含可變數量的字段,用一個空行(blank line)將所有首部字段(header)與消息主體(body)分隔開來。一個首部字段由字段名和隨後的冒號、一個空格和字段值組成,字段名不區分大小寫。
報文頭可分為三類:一類應用於請求,一類應用於響應,還有一類描述主體。有一些報文頭(例如:Date)既可用於請求又可用於響應。描述主體的報文頭可以出現在POST請求和所有響應報文中。HTTP的首部字段如下圖所示:
圖5、HTTP首部字段
HTTP/1.1協議中共定義了八種方法(有時也叫“動作”)來表明Request-URI指定的資源的不同操作方式:
方法名稱是區分大小寫的。當某個請求所針對的資源不支持對應的請求方法的時候,服務器應當返回狀態碼405(Method Not Allowed);當服務器不認識或者不支持對應的請求方法的時候,應當返回狀態碼501(Not Implemented)。
HTTP服務器至少應該實現GET和HEAD方法,其他方法都是可選的。此外,除了上述方法,特定的HTTP服務器還能夠擴展自定義的方法。
安全方法
開發者應當意識到他們的軟件代表了用戶在因特網上進行交互,並且應當告知用戶,他們正在進行的操作可能對他們自身或者其他人有未曾預料的重要影響。
特別地,對於GET和HEAD方法而言,除了進行獲取資源信息外,這些請求不應當再有任何其他意義。也就是說,這些方法應當被認為是“安全的”,即所謂安全的意味著該操作用於獲取信息而非修改信息。客戶端應當使用其他“非安全”方法,例如POST、PUT及DELETE來以特殊的方式(通常是按鈕而不是超鏈接)使得客戶能夠意識到可能要負的責任(例如一個按鈕帶來的資金交易)或者被告知正在請求的操作可能是不安全的(例如某個文件將被上傳或刪除)。
但是,不能想當然地認為服務器不會在處理某個GET請求時不會產生任何副作用。事實上,很多動態資源會把這作為其特性。這裡重要的區別在於用戶並沒有請求這一副作用,因此不應由用戶為這些副作用承擔責任。
冪等方法
假如在不考慮諸如錯誤或者過期等問題的情況下,若干次請求的副作用與單次請求相同或者根本沒有副作用,那麼這些請求方法就能夠被視作“冪等”的。GET,HEAD,PUT和DELETE方法都有這樣的冪等屬性,同樣由於根據協議,OPTIONS,TRACE都不應有副作用,因此也理所當然也是冪等的。
假如某個由若干個請求做成的請求串行產生的結果在重復執行這個請求串行或者其中任何一個或多個請求後仍沒有發生變化,則這個請求串行便是“冪等” 的。但是,可能出現若干個請求做成的請求串行是“非冪等”的,即使這個請求串行中所有執行的請求方法都是冪等的。例如,這個請求串行的結果依賴於某個會在下次執行這個串行的過程中被修改的變量。
服務器程序響應的第一行叫狀態行。狀態行以HTTP版本號開始,後面跟著3位數字表示響應代碼,最後是易讀的響應短語。根據第一位可以把響應分成5類:
圖6、HTTP響應代碼
現在我們對HTTP基本上算是了解了,下面我用wireshark抓取打開博客園首頁時,我的電腦與博客園服務器的交互過程的HTTP數據包。做好准備工作,關閉一些可能干擾我們抓取打開博客園的相關程序。如下圖,我們在浏覽器中輸入www.cnblogs.com並確定時,首先抓到如下包:
圖7、打開博客園抓取的包
從圖中可以看出,我們在浏覽器中輸入www.cnblogs.com並確定時是向服務器發送了一個HTTP請求消息:GET / HTTP/1.1。根據1.2中介紹的HTTP消息的格式,我們知道GET對應request、/對應request-line、HTTP/1.1對應版本號。除了請求行之外,發送了一些首部字段,如:Accept、Accept-Language、User-Agent、Accept-Encoding、Host、Connection等。而且可以看出他們的格式就是:首部字段名: 字段值,注意冒號後面有個空格。
接下來我們看一下GET / HTTP/1.1請求的響應消息是怎樣的:
圖8、GET / HTTP/1.1請求的響應消息
響應消息的狀態行是:HTTP/1.1 200 OK,其中HTTP/1.1對應版本號、200對應response-code、OK對應response-phrase。除了狀態行,還返回了一些首部字段,如:Cache-Control、Content-Type、Content-Encoding、Expires、Last-Modified、Vary、Server等等。(通過上圖我們可以看出,博客用的是IIS7.0)
上面抓的是GET的數據包,現在我來看一個POST的數據包——打開博客園首頁過程中獲取左邊的分類信息就是通過POST請求返回的。
圖9、POST數據包
我們可以看到,POST /ws/PublicUserService.asmx/GetLoginInfo HTTP/1.1。除了把GET換成了POST之外,其它信息差不多。下面我們放大看下發送的首部字段:
圖10、POST /ws/PublicUserService.asmx/GetLoginInfo HTTP/1.1的首部字段
NOTE:本節涉及的一些首部字段我就不在這裡解釋了。我想,到了這裡大家對HTTP的認識應該更深入了一步。
1.3中介紹了8種方法,其中GET與POST最基本和常用了。表單提交中get和post方式的區別歸納如下幾點:
在FORM提交的時候,如果不指定Method,則默認為GET請求(.net默認是POST),Form中提交的數據將會附加在url之後,以?分開與url分開。字母數字字符原樣發送,但空格轉換為“+”號,其它符號轉換為%XX,其中XX為該符號以16進制表示的ASCII(或ISO Latin-1)值。GET請求請提交的數據放置在HTTP請求協議頭中,而POST提交的數據則放在實體數據中;GET方式提交的數據最多只能有2048字節,而POST則沒有此限制。POST傳遞的參數在doc裡,也就http協議所傳遞的文本,接受時再解析參數部分。獲得參數。一般用POST比較好。POST提交數據是隱式的,GET是通過在url裡面傳遞的,用來傳遞一些不需要保密的數據,GET是通過在URL裡傳遞參數,POST不是。
說明:關於“POST與GET的差異”查考了網上前輩的資料,由於找不出源頭,到處都是轉帖,這裡就不貼出相關網址了,baidu或Google下就知道了。
在介紹實例之前,我們要先介紹一下HttpWebRequest和HttpWebResponse,在C#中就是用這兩個類實現客戶端向服務器端發送HTTP消息、客戶端接受服務器端的HTTP響應。
在設計實現實例之前我們首先要介紹一下HttpWebRequest這個類——提供WebRequest 類的HTTP 特定的實現,HttpWebRequest類對WebRequest中定義的屬性和方法提供支持,也對使用戶能夠直接與使用 HTTP 的服務器交互的附加屬性和方法提供支持。
不要使用HttpWebRequest 構造函數。使用System.Net.WebRequest.Create 方法初始化新的HttpWebRequest對象。如果統一資源標識符 (URI) 的方案是 http:// 或 https://,則 Create返回HttpWebRequest對象。
HTTP消息的首部字段(headers),在HttpWebRequest中表示為公開的屬性。下表列出了由屬性或方法設置或由系統設置的 HTTP 標頭。
如果本地計算機配置指定使用代理,或者如果請求指定代理,則使用代理發送請求。如果未指定代理,則請求發送到服務器。
HttpWebRequest類主要包括如下方法,用於與HTTP服務器交互:
在設計實現實例之前我們還要介紹一下HttpWebRequest這個類——提供WebResponse 類的HTTP 特定的實現。此類包含對WebResponse類中的屬性和方法的 HTTP 特定用法的支持。HttpWebResponse類用於生成發送HTTP請求和接收HTTP響應的HTTP獨立客戶端應用程序。
注意
不要混淆 HttpWebResponse 和 HttpResponse 類;後者用於 ASP.NET 應用程序,而且它的方法和屬性是通過 ASP.NET 的內部 Response 對象公開的。
決不要直接創建HttpWebResponse類的實例。而應當使用通過調用 HttpWebRequest.GetResponse 所返回的實例。您必須調用 Stream.Close 方法或 HttpWebResponse.Close 方法來關閉響應並將連接釋放出來供重用。不必同時調用 Stream.Close 和 HttpWebResponse.Close,但這樣做不會導致錯誤。
從 Internet 資源返回的公共標頭信息公開為該類的屬性。有關完整的列表,請參見下表。可以從 Headers 屬性以名稱/值對的形式讀取其他標頭。下表顯示可以通過HttpWebResponse類的屬性使用的公共 HTTP 標頭。
通過調用GetResponseStream方法,以Stream的形式返回來自 Internet 資源的響應的內容。
HttpWebRequest類主要包括如下方法與HTTP服務器交互:(與HttpWebRequest類相比,方法較少)
通過前面兩小節的介紹,我們對HttpWebRequest類和HttpWebRequest類有所了解,現在我們就應用它們來編寫一個小程序來實踐。程序界面大概如下:
功能也比較簡單,就是通過點擊“在WebBrowser中顯示”按鈕就在下方的 WebBrowser控件中顯示博客園首頁,通過點擊查看“html源碼”按鈕就彈出一個對話框顯示博客園首頁的html源碼。
首先我們介紹如何實現——通過點擊查看“html源碼”按鈕就彈出一個對話框顯示博客園首頁的html源碼。核心代碼如下:
private string GetCnBlogs() { string html = String.Empty; HttpWebRequest cnbogs = (HttpWebRequest)System.Net.WebRequest.Create(txtURL.Text.ToString()); cnbogs.Accept = "image/jpeg, application/x-ms-application, image/gif, application/xaml+xml, image/pjpeg, application/x-ms-xbap, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, application/QVOD, application/QVOD, */*"; cnbogs.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; MALN; CIBA; InfoPath.2; .NET4.0C; .NET4.0E; Media Center PC 6.0; Tablet PC 2.0; AskTB5.6)"; cnbogs.Method = "GET"; HttpWebResponse cnblogsRespone = (HttpWebResponse)cnbogs.GetResponse(); if (cnblogsRespone !=null&&cnblogsRespone.StatusCode==HttpStatusCode.OK) { using(StreamReader sr = newStreamReader(cnblogsRespone.GetResponseStream())) { html = sr.ReadToEnd(); } } return html; }private void btnGetHtml_Click(object sender, EventArgs e) { MessageBox.Show(GetCnBlogs()); }
其實這個過程更我們通過在浏覽器中輸入博客園網站打開效果是一樣的,只不過在這裡我們是通過HttpWebRequest類和HttpWebRequest類的對象來實現的。
然而,通過點擊“在WebBrowser中顯示”按鈕就在下方的 WebBrowser控件中顯示博客園首頁的功能類似,只不過是在WebBrowser控件中顯示且我這裡把一些常用的HTTP相關的操作封裝到一個命名空間Helper中,便於以後使用,本質跟上面的是一樣的。點擊下載整個項目的源碼。
我這個源碼還是比較簡陋,只是簡單地實現了使用HttpWebRequest類和HttpWebRequest類與HTTP服務器交互,更完善的功能期待你去完成。
補充說明:關於url的長度限制問題,IE的url最長可以傳 2083 字符(半角),而GET最多只能到2048字符。但是RFC 2616,Hypertext Transfer Protocol -- HTTP/1.1,並沒有對url的最大長度做限制。
參考:寫此文章時,我參閱了不少文章,我列舉其中印象比較深的