亚洲精品久久久久久第一页-人妻少妇精彩视品一区二区三区-91国产自拍免费视频-免费一级a在线播放视频正片-少妇天天日天天射天天爽-国产大屁股喷水视频在线观看-操美女骚穴抽插性爱视频-亚洲 欧美 中文字幕 丝袜-成人免费无码片在线观看

爆料網(wǎng)頁(yè)數(shù)據(jù)采集技巧 如何采集網(wǎng)頁(yè)數(shù)據(jù)( 二 )


第三張看起來(lái)很像我們所需要的表 。
接下來(lái),我們開(kāi)始創(chuàng)建必要的邏輯來(lái)提取并清理我們需要的細(xì)節(jié) 。
sports_table = parent_lst[2]complete_row = []for i in sports_table:rows = i.find_all('tr')print('n--------row--------n')print(rows)for row in rows:cells = row.find_all('td')print('n-------cells--------n')print(cells)if not cells:continuerank = cells[0].text.strip('n')page_name = cells[1].find('a').textsport = cells[2].find('a').textviews = cells[3].text.strip('n')print('n-------CLEAN--------n')print(rank)print(page_name)print(sport)print(views)complete_row.append([rank, page_name, sport, views])for i in complete_row:print(i)復(fù)制代碼
分解一下:
sports_table = parent_lst[2]complete_row = []復(fù)制代碼
下面我們從上面的列表中選擇第三個(gè)元素 。這就是我們需要的表 。
接下來(lái)創(chuàng)建一個(gè)空列表,用于存儲(chǔ)每行的詳細(xì)信息 。在遍歷這個(gè)表的時(shí)候,建立一個(gè)循環(huán),遍歷表中的每一行,并將其保存到 rows 變量中 。
for i in sports_table:rows = i.find_all('tr')print('n--------row--------n')print(rows)復(fù)制代碼
for row in rows:cells = row.find_all('td')print('n-------cells--------n')print(cells)復(fù)制代碼
建立了嵌套的循環(huán) 。遍歷上一個(gè)循環(huán)中保存的每個(gè)行 。在遍歷這些單元格時(shí),我們將每個(gè)單元格保存在一個(gè)新的變量 。
if not cells:continue復(fù)制代碼
這段簡(jiǎn)短的代碼允許我們?cè)趶膯卧裰刑崛∥谋緯r(shí),避免空單元格并防止發(fā)生錯(cuò)誤 。
rank = cells[0].text.strip('n')page_name = cells[1].find('a').textsport = cells[2].find('a').textviews = cells[3].text.strip('n')復(fù)制代碼
在此,我們將各種單元格清理為純文本格式 。清除后的值保存在其列名下的變量中 。
print('n-------CLEAN--------n')print(rank)print(page_name)print(sport)print(views)complete_row.append([rank, page_name, sport, views])復(fù)制代碼
此處,我們向行列表添加這些值 。然后輸出清理后的值 。
-------cells--------[<td>13</td>, <td style="text-align: left;"><a title="Conor McGregor">Conor McGregor</a></td>, <td><a title="Mixed martial arts">Mixed martial arts</a></td>, <td>43</td>]-------CLEAN--------13Conor McGregorMixed martial arts43復(fù)制代碼
下面將其轉(zhuǎn)換為數(shù)據(jù)結(jié)構(gòu):
headers = ['Rank', 'Name', 'Sport', 'Views Mil']df = pd.DataFrame(complete_row, columns=headers)df復(fù)制代碼
現(xiàn)在你可以在機(jī)器學(xué)習(xí)項(xiàng)目中使用的 pandas 數(shù)據(jù)結(jié)構(gòu)了 。你可以使用自己喜歡的庫(kù)來(lái)擬合模型數(shù)據(jù) 。


以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問(wèn)題,請(qǐng)您及時(shí)就醫(yī)或請(qǐng)專業(yè)人士給予相關(guān)指導(dǎo)!

「愛(ài)刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對(duì)您有所幫助: