【背景】
進行數據抽取時,抽取“聯系電話”字段時,發現存在部分中文、英文,需要對該字段進行清理。
【垃圾數據存在原因】
如果有“聯系電話”這樣的字段,在設計之初就設置為number,而不是設置成varchar2,再在前端軟件做一個約束,相信就不會有這樣存在英文或中文的干擾,也就不會出現垃圾數據了。而如今,遇到了,只好想辦法處理了。
【解決過程】
開始想復雜了,想要用一個函數做判斷,然後再利用case處理,但後來得到其它公司的DBA提示,用了個正則表達式就搞定了,诶呀!
下面模擬做個試驗:
1、創建實驗表(源端)