第三張看起來(lái)很像我們所需要的表 。
接下來(lái),我們開(kāi)始創(chuàng)建必要的邏輯來(lái)提取并清理我們需要的細(xì)節(jié) 。
sports_table = parent_lst[2]complete_row = []for i in sports_table:rows = i.find_all('tr')print('n--------row--------n')print(rows)for row in rows:cells = row.find_all('td')print('n-------cells--------n')print(cells)if not cells:continuerank = cells[0].text.strip('n')page_name = cells[1].find('a').textsport = cells[2].find('a').textviews = cells[3].text.strip('n')print('n-------CLEAN--------n')print(rank)print(page_name)print(sport)print(views)complete_row.append([rank, page_name, sport, views])for i in complete_row:print(i)復(fù)制代碼
分解一下:
sports_table = parent_lst[2]complete_row = []復(fù)制代碼
下面我們從上面的列表中選擇第三個(gè)元素 。這就是我們需要的表 。
接下來(lái)創(chuàng)建一個(gè)空列表,用于存儲(chǔ)每行的詳細(xì)信息 。在遍歷這個(gè)表的時(shí)候,建立一個(gè)循環(huán),遍歷表中的每一行,并將其保存到 rows 變量中 。
for i in sports_table:rows = i.find_all('tr')print('n--------row--------n')print(rows)復(fù)制代碼
for row in rows:cells = row.find_all('td')print('n-------cells--------n')print(cells)復(fù)制代碼
建立了嵌套的循環(huán) 。遍歷上一個(gè)循環(huán)中保存的每個(gè)行 。在遍歷這些單元格時(shí),我們將每個(gè)單元格保存在一個(gè)新的變量 。
if not cells:continue復(fù)制代碼
這段簡(jiǎn)短的代碼允許我們?cè)趶膯卧裰刑崛∥谋緯r(shí),避免空單元格并防止發(fā)生錯(cuò)誤 。
rank = cells[0].text.strip('n')page_name = cells[1].find('a').textsport = cells[2].find('a').textviews = cells[3].text.strip('n')復(fù)制代碼
在此,我們將各種單元格清理為純文本格式 。清除后的值保存在其列名下的變量中 。
print('n-------CLEAN--------n')print(rank)print(page_name)print(sport)print(views)complete_row.append([rank, page_name, sport, views])復(fù)制代碼
此處,我們向行列表添加這些值 。然后輸出清理后的值 。
-------cells--------[<td>13</td>, <td style="text-align: left;"><a title="Conor McGregor">Conor McGregor</a></td>, <td><a title="Mixed martial arts">Mixed martial arts</a></td>, <td>43</td>]-------CLEAN--------13Conor McGregorMixed martial arts43復(fù)制代碼
下面將其轉(zhuǎn)換為數(shù)據(jù)結(jié)構(gòu):
headers = ['Rank', 'Name', 'Sport', 'Views Mil']df = pd.DataFrame(complete_row, columns=headers)df復(fù)制代碼
現(xiàn)在你可以在機(jī)器學(xué)習(xí)項(xiàng)目中使用的 pandas 數(shù)據(jù)結(jié)構(gòu)了 。你可以使用自己喜歡的庫(kù)來(lái)擬合模型數(shù)據(jù) 。
以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問(wèn)題,請(qǐng)您及時(shí)就醫(yī)或請(qǐng)專業(yè)人士給予相關(guān)指導(dǎo)!
「愛(ài)刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對(duì)您有所幫助:- Internet Explorer已限制此網(wǎng)頁(yè)運(yùn)行可以訪問(wèn)計(jì)算機(jī)的腳本或ActiveX控件——強(qiáng)烈譴
- 華為手機(jī)如何收藏網(wǎng)頁(yè) 如何保存網(wǎng)頁(yè)
- 百度網(wǎng)頁(yè)分享按鈕工具下線 百度工具條怎么沒(méi)了
- 婚姻生辰八字配對(duì)免費(fèi)測(cè)試,哪有測(cè)生辰八字配對(duì)婚姻的軟件或網(wǎng)頁(yè)??
- adobephotoshop入門教程 Adobe推出網(wǎng)頁(yè)版Photoshop
- 女星被大佬哄去多人運(yùn)動(dòng)爆料 被曝多人運(yùn)動(dòng)的明星都有誰(shuí)
- vim下一頁(yè):網(wǎng)頁(yè)游戲排行榜2021前十名,2021十大最火網(wǎng)頁(yè)游戲排名
- 分析mac打不開(kāi)百度的原因 為什么mac打不開(kāi)網(wǎng)頁(yè)
- 免費(fèi)學(xué)生網(wǎng)頁(yè)制作成品 銷售問(wèn)答網(wǎng)站模板
- 自己制作一個(gè)網(wǎng)站的方法 html5制作網(wǎng)頁(yè)教程
