python爬虫与数据分析实战27_Python网络爬虫与文本数据分析
原標(biāo)題:Python網(wǎng)絡(luò)爬蟲與文本數(shù)據(jù)分析
課程介紹
在過去的兩年間,Python一路高歌猛進(jìn),成功竄上“最火編程語言”的寶座。驚奇的是使用Python最多的人群其實(shí)不是程序員,而是數(shù)據(jù)科學(xué)家,尤其是社會(huì)科學(xué)家,涵蓋的學(xué)科有經(jīng)濟(jì)學(xué)、管理學(xué)、會(huì)計(jì)學(xué)、社會(huì)學(xué)、傳播學(xué)、新聞學(xué)等等。
大數(shù)據(jù)時(shí)代到來,網(wǎng)絡(luò)數(shù)據(jù)正成為潛在寶藏,大量商業(yè)信息、社會(huì)信息以文本等非結(jié)構(gòu)化、異構(gòu)型數(shù)據(jù)格式存儲(chǔ)于網(wǎng)頁中。非計(jì)算機(jī)專業(yè)背景的人也可借助機(jī)器學(xué)習(xí)、人工智能等方法進(jìn)行研究。使用網(wǎng)絡(luò)世界數(shù)據(jù)進(jìn)行研究,面臨兩大難點(diǎn):
數(shù)據(jù)的獲取
文本(非結(jié)構(gòu)化)數(shù)據(jù)的處理與分析
數(shù)據(jù)獲取需要借助Python編程語言設(shè)計(jì)網(wǎng)絡(luò)爬蟲,而獲得的數(shù)據(jù)中有相當(dāng)比例數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),這就需要文本數(shù)據(jù)分析技術(shù)。本次課程參照已發(fā)表的社科類的文章,希望幫助大家解決文本分析這最難的兩大難點(diǎn)。課程設(shè)計(jì)的初衷是用最少的時(shí)間讓大家學(xué)到最有用的知識(shí)點(diǎn),降低學(xué)習(xí)難度。希望學(xué)習(xí)完本課程后能讓各位結(jié)合研究需要對(duì)自己學(xué)科內(nèi)的文本分析有一個(gè)全面深刻的了解,方便各位開展后續(xù)研究。
課程試聽
課程python語法入門和網(wǎng)絡(luò)爬蟲部分可免費(fèi)試聽,對(duì)python感興趣的童鞋可以收藏觀看~
試聽
支付成功后,可下載騰訊課堂app或網(wǎng)頁端打開騰訊課堂官網(wǎng),使用微信掃碼登錄后即可學(xué)習(xí)
目錄
一、準(zhǔn)備階段
Win中的Python配置
Mac中的Python配置
二、Python語法入門
Python跟英語一樣是一門語言
數(shù)據(jù)類型之字符串
數(shù)據(jù)類型之列表元組集合
數(shù)據(jù)類型之字典
數(shù)據(jù)類型之布爾值、None
邏輯語句(if&for&tryexcept)
列表推導(dǎo)式
理解函數(shù)
常用的內(nèi)置函數(shù)
內(nèi)置庫(kù)文件路徑pathlib庫(kù)
內(nèi)置庫(kù)csv文件庫(kù)
內(nèi)置庫(kù)正則表達(dá)式re庫(kù)
初學(xué)python常出錯(cuò)誤匯總
三、數(shù)據(jù)采集
網(wǎng)絡(luò)爬蟲原理
網(wǎng)絡(luò)訪問requests庫(kù)
網(wǎng)頁解析pyquery庫(kù)
實(shí)戰(zhàn):大眾點(diǎn)評(píng)
實(shí)戰(zhàn):豆瓣讀書
實(shí)戰(zhàn):Boss直聘
如何解析json數(shù)據(jù)
實(shí)戰(zhàn): 豆瓣電影
實(shí)戰(zhàn): 京東商城
如何用爬蟲下載文檔及多媒體文件
上市公司定期報(bào)告pdf批量下載
爬蟲知識(shí)點(diǎn)總結(jié)
補(bǔ)充-用pandas采集表格數(shù)據(jù)
四、數(shù)據(jù)分析
Pandas基礎(chǔ)知識(shí)
數(shù)據(jù)去重與缺失值處理
合并數(shù)據(jù)
重塑數(shù)據(jù)
選取表中指定記錄(行)
選取表中指定字段(列)
描述性統(tǒng)計(jì)
在表中創(chuàng)建新字段(列)
批操作apply與agg
透視表pivot_table
數(shù)據(jù)分組groupby
時(shí)間序列時(shí)間點(diǎn)創(chuàng)建
日期數(shù)據(jù)的dt屬性
日期行索引操作(選取指定日期的數(shù)據(jù))
時(shí)間序列date_range
時(shí)間序列重采樣resample
時(shí)間序列時(shí)間窗口rolling
實(shí)戰(zhàn):Kaggle titanic數(shù)據(jù)集探索性分析
實(shí)戰(zhàn):Boss直聘Python崗位分析
五、初識(shí)文本分析
文本分析在經(jīng)管領(lǐng)域中的應(yīng)用概述(1)
讀取不同格式文件中的數(shù)據(jù)
實(shí)戰(zhàn):實(shí)戰(zhàn)之如何將多個(gè)整理到一個(gè)excel中
中文分詞及數(shù)據(jù)清洗
實(shí)戰(zhàn):詞頻統(tǒng)計(jì)
實(shí)戰(zhàn):中文情感分析(詞典法)
實(shí)戰(zhàn):對(duì)excel中的文本進(jìn)行情感分析
實(shí)戰(zhàn):共現(xiàn)法擴(kuò)展情感詞典(領(lǐng)域詞典)
六、機(jī)器學(xué)習(xí)與文本分析
了解機(jī)器學(xué)習(xí)
使用機(jī)器學(xué)習(xí)做文本分析的流程
scikit-learn機(jī)器學(xué)習(xí)庫(kù)簡(jiǎn)介
文本特征抽取(特征工程)
實(shí)戰(zhàn):在線評(píng)論文本分類
文本相似性計(jì)算
實(shí)戰(zhàn):使用文本相似性識(shí)別變化(政策連續(xù)性)
實(shí)戰(zhàn):Kmeans聚類算法
實(shí)戰(zhàn):LDA話題模型
簡(jiǎn)化版的LDA
文本分析在經(jīng)管領(lǐng)域中的應(yīng)用概述(2)
購(gòu)買鏈接
掃碼購(gòu)買
支付成功后,可下載騰訊課堂app或網(wǎng)頁端打開騰訊課堂官網(wǎng),使用微信掃碼登錄后即可學(xué)習(xí)返回搜狐,查看更多
責(zé)任編輯:
總結(jié)
以上是生活随笔為你收集整理的python爬虫与数据分析实战27_Python网络爬虫与文本数据分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: unity hub添加找不到文件夹_教师
- 下一篇: python 定义函数方法_Python