python实践心得体会_“Python自然语言实践”——总结(一),实战
正則表達式在NLP中的基本應用
正則表達式的作用:
(1)將文檔內容從非結構化轉為結構化以便后續(xù)的文本挖掘
(2)去除“噪聲”,在處理大量文本片段的時候,有非常多的文字信息與最終輸出的文本無關。這些無關的片段稱之為“噪聲”。
1. 匹配字符串
在Python中會使用re模塊來實現(xiàn)正則表達式。
re.search(regres,string)
該方法可也檢查這個string字符串是否匹配正則表達式regex。如果表達式匹配則會返回一個match對象,如果沒有匹配,則返回None。
例1:獲取包含“爬蟲”這個關鍵字的句子
查找哪些語句包含“爬蟲”這個關鍵字,python的代碼實現(xiàn)如下:
import re
text_string = "文本最重要的淶源無疑是網(wǎng)絡。我們要把網(wǎng)絡中的文本獲取形成一個文本數(shù)據(jù)庫。" \
"利用一個爬蟲抓取到網(wǎng)絡中的信息。爬取的策略有廣度爬取和深度爬取。" \
"根據(jù)用戶的需求,爬蟲可以有主題爬蟲和通用爬蟲之分。"
regrex = "爬蟲"
p_string = text_string.split("。") # 以句號為分隔符,通過split切分
for line in p_string:
if re.search(regrex,line) is not None: # search方法是用來查找匹配當前行是否匹配這個regrex,返回的是一個match對象
print(line) # 如果匹配到,打印這行信息
上述代碼的運行結果:
利用一個爬蟲抓取到網(wǎng)絡中的信息
根據(jù)用戶的需求,爬蟲可以有主題爬蟲和通用爬蟲之分
同理,查找哪些語句包含“文本”這個關鍵字,python的代碼實現(xiàn)如下:
import re
text_string = "文本最重要的淶源無疑是網(wǎng)絡。我們要把網(wǎng)絡中的文本獲取形成一個文本數(shù)據(jù)庫。" \
"利用一個爬蟲抓取到網(wǎng)絡中的信息。爬取的策略有廣度爬取和深度爬取。" \
"根據(jù)用戶的需求,爬蟲可以有主題爬蟲和通用爬蟲之分。"
regrex = "文本"
p_string = text_string.split("。") # 以句號為分隔符,通過split切分
for line in p_string:
if re.search(regrex,line) is not None: # search方法是用來查找匹配當前行是否匹配這個regrex,返回的是一個match對象
print(line) # 如果匹配到,打印這行信息
代碼運行結果如下:
文本最重要的淶源無疑是網(wǎng)絡
我們要把網(wǎng)絡中的文本獲取形成一個文本數(shù)據(jù)庫
例2: 匹配任意一個字符
正則表達式中,有一些保留的特殊符號可以幫助我們處理一些常用邏輯。
符號
含義
.
匹配任意一個字符
舉例:
正則表達式
可以匹配的例子
不能匹配的例子
“a.c”
“abc”,“branch”
“add”,“crash”
“…t”
“bat”,“oat”
“it”,“table”
提示:"."代替任何單個字符(換行符除外)
現(xiàn)在演示,如何查找包含“爬”+任意一個字的句子,代碼如下:
import re
text_string = "文本最重要的淶源無疑是網(wǎng)絡。我們要把網(wǎng)絡中的文本獲取形成一個文本數(shù)據(jù)庫。" \
"利用一個爬蟲抓取到網(wǎng)絡中的信息。爬取的策略有廣度爬取和深度爬取。" \
"根據(jù)用戶的需求,爬蟲可以有主題爬蟲和通用爬蟲之分。"
regrex = "爬."
p_string = text_string.split("。") # 以句號為分隔符,通過split切分
for line in p_string:
if re.search(regrex,line) is not None: # search方法是用來查找匹配當前行是否匹配這個regrex,返回的是一個match對象
print(line) # 如果匹配到,打印這行信息
運行結果如下:
利用一個爬蟲抓取到網(wǎng)絡中的信息
爬取的策略有廣度爬取和深度爬取
根據(jù)用戶的需求,爬蟲可以有主題爬蟲和通用爬蟲之分
同理,查找包含“用戶”+任意一個字的句子,代碼如下:
import re
text_string = "文本最重要的淶源無疑是網(wǎng)絡。我們要把網(wǎng)絡中的文本獲取形成一個文本數(shù)據(jù)庫。" \
"利用一個爬蟲抓取到網(wǎng)絡中的信息。爬取的策略有廣度爬取和深度爬取。" \
"根據(jù)用戶的需求,爬蟲可以有主題爬蟲和通用爬蟲之分。"
regrex = "用戶."
p_string = text_string.split("。") # 以句號為分隔符,通過split切分
for line in p_string:
if re.search(regrex,line) is not None: # search方法是用來查找匹配當前行是否匹配這個regrex,返回的是一個match對象
print(line) # 如果匹配到,打印這行信息
代碼運行結果如下:
根據(jù)用戶的需求,爬蟲可以有主題爬蟲和通用爬蟲之分
例3:匹配起始和結尾字符串
符號
含義
[ ]
匹配多個字符
舉例:
“[bcr]at” 代表的是匹配"bat" "cat"以及 “rat”
以下文字,句子和句子之間以逗號分隔
? [重要的]今年第七號臺風23日登陸廣東東部沿海地區(qū)。
? 上海發(fā)布車庫銷售監(jiān)管通知:違規(guī)者暫停網(wǎng)簽資格。
? [緊要的]中國對連發(fā)強硬信息,印度急切需要結束對峙。
希望提取以[重要的]或者[緊要的]為起始的新聞標題。代碼如下:
import re
text_string = ["[重要的]今年第七號臺風23日登陸廣東東部沿海地區(qū)。","上海發(fā)布車庫銷售監(jiān)管通知:違規(guī)者暫停網(wǎng)簽資格。","[緊要的]中國對連發(fā)強硬信息,印度急切需要結束對峙。"]
regrex = "^\[[重緊]..\]"
for line in text_string:
if re.search(regrex,line) is not None:
print(line)
else:
print('not match')
運行結果如下:
[重要的]今年第七號臺風23日登陸廣東東部沿海地區(qū)。
not match
[緊要的]中國對連發(fā)強硬信息,印度急切需要結束對峙。
觀察數(shù)據(jù),我們發(fā)現(xiàn)一些新聞標題是以"[重要的]" “[緊急的]“為起始,所以需要添加”^“特殊符號代表起始,之后因為存在"重"或"緊”,所以我們使用”[ ]“匹配多個字符,然后以”." “.” 代表之后的任意兩個字符。
2.使用轉義符
上述代碼中,使用
"\"
為轉義符,因為"[ ]"在正則表達式中是特殊符號。
如果需要匹配文本中的字符
"\"
,那么使用編程語言表示的正則表達式里將需要4個反斜杠
"\\\\"
:前兩個和后兩個分別用于在編程語言里轉義成反斜杠,轉換成兩個反斜杠后再在正則表達式里轉義成一個反斜杠。在Python中可使用
r"\\"
表示。匹配一個數(shù)字的
"\\d"
可以寫成
r"\d"
。有了原生字符串,表達式更為直觀。
舉例:匹配字符串中的反斜杠"nee\dle"。
import re
if re.search("\\\\","I have one nee\dle"):
print("match it")
else:
print("not match")
運行結果:match it
另一種寫法:
if re.search(r"\\", "I have one nee\dle"):
print("match it")
else:
print("not match")
3. 抽取文本中的數(shù)字
(1)通過正則表達式匹配年份
"[0-9]“代表的是從0到9的所有數(shù)字,相對的”[a-z]"代表的是從a到z的所有小寫字母。
例:首先定義一個list分配一個變量strings,匹配年份是1000年~2999年之間。代碼如下:
import re
year_strings = []
strings = ['war of 1812','There are 5280 feet to a mile','Happy New Year 2016!']
for string in strings:
# print(string)
if re.search("[1-2][0-9]{3}",string):
year_strings.append(string)
print(year_strings)
上述代碼中
"[1-2][0-9]{3}"
表示的是:字符串有英文有數(shù)字,匹配其中的數(shù)字部分,并且是在1000~2999之間,{3}代表的是重復之前的[0-9]三次,是
[0-9][0-9][0-9]
的簡化寫法。
(2)抽取所有的年份
使用Python中的re模塊的另一個方法findall()來返回匹配帶正則表達式的那部分字符串。
re.findall("[a-z]","abc1234")
得到的結果是
["a","b","c"]
。
例:定義一個字符串years_string,其中的內容是"2015 was a good year, but 2016 will be better!"?,F(xiàn)在抽取一下所有的年份。代碼如下:
import re
years_string = "2016 was a good year, but 2017 will be better!"
years = re.findall('[2][0-9]{3}',years_string)
print(years)
運行結果:[‘2016’, ‘2017’]
總結
以上是生活随笔為你收集整理的python实践心得体会_“Python自然语言实践”——总结(一),实战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何重置无线路由器没有重置键如何重置路由
- 下一篇: rizomuv缩放排布_RizomUV