NLTK基础教程学习笔记(一)
先來介紹一下相關的python基礎:
list:list是python中最基礎的數據結構相對于其他語言中的數組:
例子:
結果:
python是一種解釋性語言,會在對其計算的同時檢查其中的變量類型,我們在聲明這些變量時無需對其進行初始化和類型聲明,但在這里list中的包含一些整數對象,不能直接關聯到print上,后者只能接受String類型的對象,所以要將列表元素轉換為String類型。
例子:
結果:
First element:1 Last element:4 First element:1,2,3 Last element:2,3,4常見的對字符串操作的函數:
split():一個能基于默寫分隔符來對于字符串進行切割的方法。如果你沒有為其提供具體參數則默認空格為其分隔符。
結果:
['Monty', 'Python!', 'And', 'the', 'holy', 'Grail', '!']strip():一個可以從字符串中刪除其尾隨空白符(如‘n’,'nr')的方法
例子:
通過rstrip()和lstrip()可以選擇剝離字符串左邊還是右邊尾部的空白符
upper()/lower():可以用來改變字符串中字母的大小寫
例子
replace()可以替換目標字符串中的某個子串
例子:
在NLP中正則表達式是另一個非常重要的技能。正則表達式(regular expression)能對字符串進行有效地匹配的模式,能從大量凌亂的文本數據中提取出有意義的信息。
正則表達式一般有:
(句號):用于匹配除換行字符外的任意單字符。
w:用于匹配某一字符或者數字,相當于[a-z A-Z 0-9]
W:用于匹配任意非單詞性字符
s:用于匹配任意單個空白字符,包括換行,返回制表等,相當于[nrt]
S:用于匹配單個任意非空白字符。’
t:用于匹配制表符。
n:用于匹配換行符。
r:用于匹配返回符。
d:用于匹配十進制數字。
^:用于匹配相關字符的開始位置。
$:用于匹配先關字符串結尾位置。
:用于低效特殊字符的特殊性。如要匹配$符號,則在前面加上.
下面是一個使用字符串的子串搜索模塊re來查找字符對象的例子。
結果:
We found Pythonfindall()是一個用于對字符串進行全部模式查找的函數。他會按照給定模式對字符串進行查找,并列出其中所有匹配的對象:
import re mystring="Monty Python! And the holy Grail !\n" print(re.findall("!",mystring))結果:
['!', '!']findall()返回兩個對象的列表。
總結
以上是生活随笔為你收集整理的NLTK基础教程学习笔记(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一阶低通滤波算法
- 下一篇: JavaScript test() 方法