2019熱門電影關鍵字爬蟲
(A)程式學習到的事情:
- (1) 將自己所出題目用程式碼實現
- 如何把自己的想法先以 pseudo code方式先呈現,並將其轉換成程式碼
- (2) 網頁爬蟲與使用遞迴
- 利用 requests & BeautifulSoup 將 html 標籤內的文字取出
- 每次紀錄上一頁超連結,如日期不等於 2018/12/31 則再次呼叫自己本身,作資料結構的遞迴
- 以日期作判斷篩選出 2019 年電影好雷的標題並以 json 檔輸出
- (3) Cloud_word 實作
- 利用 jieba 將熱門電影標題拆成關鍵字,並作關鍵字次數統計
- (4) 資料庫 SQLite
(B)程式描述:
想要實作出一個文字雲程式,推薦 2019 好看的電影,因此利用爬蟲將 PTT Movie 好雷
文章資訊紀錄於 Dict ,並記錄每一頁的上一頁超連結,在函式內呼叫自己直到日期為 2018
的 12/31 為止,接著作關鍵字拆解,並統計數據輸出至資料庫與文字雲。
2019 電影熱門關鍵字程式 demo
電影熱門關鍵字程式心得紀錄
解題想法與概念:
- 思考如果要得到 2019 好看的電影名單,該獲取哪些資訊
- 利用爬蟲將 日期與好雷電影的標題紀錄於 Dict 中
- 利用 Jieba 拆解標題作次數統計
- 以不同可視化方式輸出,因此以文字雲呈現,次數越多,字體越大