最近由於要做一個爬蟲項目,要對很多網站進行爬取,所以一直都在看這方面的文章。在翻閱了很多資料後,下載了一個curl庫,著實對項目有了很大的幫助。
一、LibCurl基本編程框架 二、一些基本的函數 三、curl_easy_setopt函數部分選項介紹 四、curl_easy_perform 函數說明(error 狀態碼) 五、libcurl使用的HTTP消息頭一、LibCurl基本編程框架
六、獲取http應答頭信息 七、多線程問題 八、什麼時候libcurl無法正常工作 九、關於密碼 十、HTTP驗證 十一、代碼示例 1.基本的http GET/POST操作 2 獲取html網頁 3 網頁下載保存實例 4 進度條實例顯示文件下載進度 5 斷點續傳實例
五、libcurl使用的HTTP消息頭
當使用libcurl發送http請求時,它會自動添加一些http頭。我們可以通過CURLOPT_HTTPHEADER屬性手動替換、添加或刪除相應 的HTTP消息頭。
Host
http1.1(大部分http1.0)版本都要求客戶端請求提供這個信息頭。
Pragma
"no-cache"。表示不要緩沖數據。
Accept
"*/*"。表示允許接收任何類型的數據。
Expect
以POST的方式向HTTP服務器提交請求時,libcurl會設置該消息頭為"100-continue",它要求服務器在正式處理該請求之前,返回一 個"OK"消息。如果POST的數據很小,libcurl可能不會設置該消息頭。
自定義選項
當前越來越多的協議都構建在HTTP協議之上(如:soap),這主要歸功於HTTP的可靠性,以及被廣泛使用的代理支持(可以穿透大部分防火牆)。 這些協議的使用方式與傳統HTTP可能有很大的不同。對此,libcurl作了很好的支持。
自定義請求方式(CustomRequest)
HTTP支持GET, HEAD或者POST提交請求。可以設置CURLOPT_CUSTOMREQUEST來設置自定義的請求方式,libcurl默認以GET方式提交請求:
curl_easy_setopt(easy_handle, CURLOPT_CUSTOMREQUEST, "MYOWNREQUEST");
修改消息頭
HTTP協議提供了消息頭,請求消息頭用於告訴服務器如何處理請求;響應消息頭則告訴浏覽器如何處理接收到的數據。在libcurl中,你可以自由的添加 這些消息頭:
struct curl_slist *headers=NULL; /* init to NULL is important */ headers = curl_slist_append(headers, "Hey-server-hey: how are you?"); headers = curl_slist_append(headers, "X-silly-content: yes"); /* pass our list of custom made headers */ curl_easy_setopt(easyhandle, CURLOPT_HTTPHEADER, headers); curl_easy_perform(easyhandle); /* transfer http */ curl_slist_free_all(headers); /* free the header list */
對於已經存在的消息頭,可以重新設置它的值:
headers = curl_slist_append(headers, "Accept: Agent-007"); headers = curl_slist_append(headers, "Host: munged.host.line");
刪除消息頭
對於一個已經存在的消息頭,設置它的內容為空,libcurl在發送請求時就不會同時提交該消息頭:
headers = curl_slist_append(headers, "Accept:");
六、獲取http應答頭信息
發出http請求後,服務器會返回應答頭信息和應答數據,如果僅僅是打印應答頭的所有內容,則直接可以通過curl_easy_setopt(curl, CURLOPT_HEADERFUNCTION, 打印函數)的方式來完成,這裡需要獲取的是應答頭中特定的信息,比如應答碼、cookies列表等,則需要通過下面這個函數:
CURLcode curl_easy_getinfo(CURL *curl, CURLINFO info, ... );
info參數就是我們需要獲取的內容,下面是一些參數值:
1.CURLINFO_RESPONSE_CODE
獲取應答碼
2.CURLINFO_HEADER_SIZE
頭大小
3.CURLINFO_COOKIELIST
cookies列表
除了獲取應答信息外,這個函數還能獲取curl的一些內部信息,如請求時間、連接時間等等。
更多的參數可以參考API文檔。
七、多線程問題
首先一個基本原則就是:絕對不應該在線程之間共享同一個libcurl handle(CURL *對象),不管是easy handle還是multi handle(本文只介紹easy_handle)。一個線程每次只能使用一個handle。
libcurl是線程安全的,但有兩點例外:信號(signals)和SSL/TLS handler。 信號用於超時失效名字解析(timing out name resolves)。libcurl依賴其他的庫來支持SSL/STL,所以用多線程的方式訪問HTTPS或FTPS的URL時,應該滿足這些庫對多線程 操作的一些要求。詳細可以參考:
OpenSSL: http://www.openssl.org/docs/crypto/threads.html#DESCRIPTION
GnuTLS: http://www.gnu.org/software/gnutls/manual/html_node/Multi_002dthreaded-applications.html
NSS: 宣稱是多線程安全的。
八、什麼時候libcurl無法正常工作
傳輸失敗總是有原因的。你可能錯誤的設置了一些libcurl的屬性或者沒有正確的理解某些屬性的含義,或者是遠程主機返回一些無法被正確解析的內容。
這裡有一個黃金法則來處理這些問題:將CURLOPT_VERBOSE屬性設置為1,libcurl會輸出通信過程中的一些細節。如果使用的是http協 議,請求頭/響應頭也會被輸出。將CURLOPT_HEADER設為1,這些頭信息將出現在消息的內容中。
當然不可否認的是,libcurl還存在bug。
如果你對相關的協議了解越多,在使用libcurl時,就越不容易犯錯。
九、關於密碼
客戶端向服務器發送請求時,許多協議都要求提供用戶名與密碼。libcurl提供了多種方式來設置它們。
一些協議支持在URL中直接指定用戶名和密碼,類似於: protocol://user:[email protected]/path/。libcurl能正確的識別這種URL中的用戶名與密碼並執行 相應的操作。如果你提供的用戶名和密碼中有特殊字符,首先應該對其進行URL編碼。
也可以通過CURLOPT_USERPWD屬性來設置用戶名與密碼。參數是格式如 “user:password ”的字符串:
curl_easy_setopt(easy_handle, CURLOPT_USERPWD, "user_name:password");
有時候在訪問代理服務器的時候,可能時時要求提供用戶名和密碼進行用戶身份驗證。這種情況下,libcurl提供了另 一個屬性CURLOPT_PROXYUSERPWD:
curl_easy_setopt(easy_handle, CURLOPT_PROXYUSERPWD, "user_name:password");
在UNIX平台下,訪問FTP的用戶名和密碼可能會被保存在$HOME/.netrc文件中。libcurl支持直接從這個文件中獲取用戶名與密碼:
curl_easy_setopt(easy_handle, CURLOPT_NETRC, 1L);
在使用SSL時,可能需要提供一個私鑰用於數據安全傳輸,通過CURLOPT_KEYPASSWD來設置私鑰:
curl_easy_setopt(easy_handle, CURLOPT_KEYPASSWD, "keypassword");
十、HTTP驗證
在使用HTTP協議時,客戶端有很多種方式向服務器提供驗證信息。默認的 HTTP驗證方法是"Basic”,它將用戶名與密碼以明文的方式、經Base64編碼後保存在HTTP請求頭中,發往服務器。當然這不太安全。
當前版本的libcurl支持的驗證方法有:basic, Digest, NTLM, Negotiate, GSS-Negotiate and SPNEGO。(譯者感歎:搞Web這麼多年,盡然不知道這些Http的驗證方式,實在慚愧。)可以通過CURLOPT_HTTPAUTH屬性來設置具體 的驗證方式:
curl_easy_setopt(easy_handle, CURLOPT_HTTPAUTH, CURLAUTH_DIGEST);
向代理服務器發送驗證信息時,可以通過CURLOPT_PROXYAUTH設置驗證方式:
curl_easy_setopt(easy_handle, CURLOPT_PROXYAUTH, CURLAUTH_NTLM);
也可以同時設置多種驗證方式(通過按位與), 使用‘CURLAUTH_ANY‘將允許libcurl可以選擇任何它所支持的驗證方式。通過CURLOPT_HTTPAUTH或 CURLOPT_PROXYAUTH屬性設置的多種驗證方式,libcurl會在運行時選擇一種它認為是最好的方式與服務器通信:
curl_easy_setopt(easy_handle, CURLOPT_HTTPAUTH, CURLAUTH_DIGEST|CURLAUTH_BASIC);
// curl_easy_setopt(easy_handle, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
十一、代碼示例 下載的libcurl中自帶了很多示例代碼,在docs\examples目錄下,建議下載該庫後好好閱讀一下這些代碼。 libcurl的API文檔在docs\libcurl\index.html中。 1.基本的http GET/POST操作
#include <stdio.h> #include <curl/curl.h> bool getUrl(char *filename) { CURL *curl; CURLcode res; FILE *fp; if ((fp = fopen(filename, "w")) == NULL) // 返回結果用文件存儲 return false; struct curl_slist *headers = NULL; headers = curl_slist_append(headers, "Accept: Agent-007"); curl = curl_easy_init(); // 初始化 if (curl) { //curl_easy_setopt(curl, CURLOPT_PROXY, "10.99.60.201:8080");// 代理 curl_easy_setopt(curl, CURLOPT_HTTPHEADER, headers);// 改協議頭 curl_easy_setopt(curl, CURLOPT_URL,"http://www.baidu.com"); curl_easy_setopt(curl, CURLOPT_WRITEDATA, fp); //將返回的http頭輸出到fp指向的文件 curl_easy_setopt(curl, CURLOPT_HEADERDATA, fp); //將返回的html主體數據輸出到fp指向的文件 res = curl_easy_perform(curl); // 執行 if (res != 0) { curl_slist_free_all(headers); curl_easy_cleanup(curl); } fclose(fp); return true; } } bool postUrl(char *filename) { CURL *curl; CURLcode res; FILE *fp; if ((fp = fopen(filename, "w")) == NULL) return false; curl = curl_easy_init(); if (curl) { curl_easy_setopt(curl, CURLOPT_COOKIEFILE, "/tmp/cookie.txt"); // 指定cookie文件 curl_easy_setopt(curl, CURLOPT_POSTFIELDS, "&logintype=uid&u=xieyan&psw=xxx86"); // 指定post內容 //curl_easy_setopt(curl, CURLOPT_PROXY, "10.99.60.201:8080"); curl_easy_setopt(curl, CURLOPT_URL, " http://mail.sina.com.cn/cgi-bin/login.cgi "); // 指定url curl_easy_setopt(curl, CURLOPT_WRITEDATA, fp); res = curl_easy_perform(curl); curl_easy_cleanup(curl); } fclose(fp); return true; } int main(void) { getUrl("/tmp/get.html"); postUrl("/tmp/post.html"); }