Leunging

nlderek 的學習倉庫
nlderek's learning warehouse

港股即時

Economic Calendar

Monday, April 16, 2018

Python Web Scraping

Libraries for Python Web Scraping:

Requests

using it to get the raw ingredients (i.e. raw HTML)

http://docs.python-requests.org/en/master/user/quickstart/

BeautifulSoup

a parsing library that can use different parsers. A parser is simply a program that can extract data from HTML and XML documents.

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

https://gist.github.com/bradmontgomery/1872970

lxml

a high-performance, production-quality HTML and XML parsing library

http://lxml.de/index.html#introduction

http://docs.python-guide.org/en/latest/scenarios/scrape/

Selenium

to scrape sites with data tucked away by JavaScript.

http://selenium-python.readthedocs.io/

http://thiagomarzagao.com/2013/11/12/webscraping-with-selenium-part-1/

https://www.scrapehero.com/tutorial-web-scraping-hotel-prices-using-selenium-and-python/

Scrapy

if you need to build a real spider or web-crawler

https://doc.scrapy.org/en/latest/topics/architecture.html

https://medium.com/@kaismh/extracting-data-from-websites-using-scrapy-e1e1e357651a#.sw7c9ycio

https://scrapinghub.com/

Reference

https://elitedatascience.com/python-web-scraping-libraries

Posted by nlderek at 10:22 AM

Email This BlogThis!Share to X Share to Facebook Share to Pinterest

No comments:

Post a Comment

Newer Post Older Post Home

Subscribe to: Post Comments (Atom)

Search This Blog

此blog僅為自我學習、收集及整理資料用。

如有任何問題，可以e-mail我聯絡。

Thank you!

-----

My Patreon

My Patreon

沽空機構

Blazing Research
Anonymous Analytics
Muddy Water
Glaucus Research
Emerson Analytics
Gotham City
Citron Research

有用連結

US China Trade War 中美貿易戰

Trade War

文學文化

鄭楚雄先生blog

Blog Archive

► 2024 (1)
- ► March (1)
  - ► Mar 30 (1)

► 2022 (10)
- ► November (1)
  - ► Nov 18 (1)
- ► March (7)
  - ► Mar 24 (1)
  - ► Mar 21 (1)
  - ► Mar 16 (1)
  - ► Mar 15 (2)
  - ► Mar 14 (1)
  - ► Mar 04 (1)
- ► February (1)
  - ► Feb 23 (1)
- ► January (1)
  - ► Jan 31 (1)

► 2021 (19)
- ► August (5)
  - ► Aug 23 (2)
  - ► Aug 21 (1)
  - ► Aug 15 (1)
  - ► Aug 05 (1)
- ► July (3)
  - ► Jul 28 (1)
  - ► Jul 17 (1)
  - ► Jul 15 (1)
- ► April (1)
  - ► Apr 28 (1)
- ► March (5)
  - ► Mar 25 (1)
  - ► Mar 22 (1)
  - ► Mar 19 (1)
  - ► Mar 05 (1)
  - ► Mar 04 (1)
- ► February (2)
  - ► Feb 17 (1)
  - ► Feb 09 (1)
- ► January (3)
  - ► Jan 27 (1)
  - ► Jan 05 (2)

► 2020 (7)
- ► December (1)
  - ► Dec 11 (1)
- ► September (1)
  - ► Sep 28 (1)
- ► August (1)
  - ► Aug 17 (1)
- ► March (1)
  - ► Mar 02 (1)
- ► February (3)
  - ► Feb 27 (1)
  - ► Feb 13 (1)
  - ► Feb 03 (1)

► 2019 (5)
- ► November (1)
  - ► Nov 04 (1)
- ► August (2)
  - ► Aug 23 (1)
  - ► Aug 19 (1)
- ► May (2)
  - ► May 18 (1)
  - ► May 11 (1)

▼ 2018 (7)
- ► September (1)
  - ► Sep 21 (1)
- ► July (1)
  - ► Jul 26 (1)
- ▼ April (3)
  - ► Apr 23 (1)
  - ▼ Apr 16 (1)
    - Python Web Scraping
  - ► Apr 11 (1)
- ► March (2)
  - ► Mar 28 (1)
  - ► Mar 19 (1)

► 2017 (51)
- ► December (1)
  - ► Dec 19 (1)
- ► October (5)
  - ► Oct 12 (1)
  - ► Oct 06 (2)
  - ► Oct 04 (1)
  - ► Oct 01 (1)
- ► September (6)
  - ► Sep 29 (1)
  - ► Sep 25 (2)
  - ► Sep 21 (1)
  - ► Sep 11 (1)
  - ► Sep 04 (1)
- ► August (2)
  - ► Aug 16 (1)
  - ► Aug 11 (1)
- ► July (1)
  - ► Jul 03 (1)
- ► June (12)
  - ► Jun 29 (1)
  - ► Jun 20 (1)
  - ► Jun 19 (1)
  - ► Jun 13 (1)
  - ► Jun 09 (1)
  - ► Jun 08 (1)
  - ► Jun 06 (1)
  - ► Jun 05 (1)
  - ► Jun 02 (2)
  - ► Jun 01 (2)
- ► May (17)
  - ► May 29 (2)
  - ► May 28 (1)
  - ► May 25 (1)
  - ► May 23 (1)
  - ► May 22 (1)
  - ► May 18 (1)
  - ► May 16 (6)
  - ► May 08 (1)
  - ► May 04 (1)
  - ► May 02 (2)
- ► April (4)
  - ► Apr 26 (1)
  - ► Apr 24 (1)
  - ► Apr 20 (2)
- ► February (3)
  - ► Feb 14 (2)
  - ► Feb 10 (1)

► 2016 (42)
- ► November (4)
  - ► Nov 27 (1)
  - ► Nov 19 (1)
  - ► Nov 04 (1)
  - ► Nov 01 (1)
- ► October (16)
  - ► Oct 28 (1)
  - ► Oct 25 (1)
  - ► Oct 22 (1)
  - ► Oct 16 (1)
  - ► Oct 11 (1)
  - ► Oct 07 (1)
  - ► Oct 05 (3)
  - ► Oct 03 (5)
  - ► Oct 02 (2)
- ► September (22)
  - ► Sep 30 (2)
  - ► Sep 29 (1)
  - ► Sep 27 (3)
  - ► Sep 26 (16)

Labels

Logistics (12) Supply Chain (11) python (9) 學習文 (9) 物流 (9) Hanjin (8) 一帶一路 (8) 供應鏈 (8) 韓進 (8) China (6) one belt one road (6) 中國 (6) Gold (5) 債券 (5) 國債 (5) 黃金 (5) Android (4) 經濟 (4) Coco Bond (3) Deutsche Bank (3) Economy (3) Learning (3) Treasuries (3) US (3) VAT (3) 德銀 (3) 股票 (3) Bond (2) C++ (2) Coronavirus (2) Covid-19 (2) Japan (2) Monetary system (2) Slovenia (2) books (2) money (2) vba (2) 伊斯蘭 (2) 公債 (2) 哈薩克 (2) 科技 (2) 穆斯林 (2) 貨幣 (2) 阿拉伯 (2) 0806 (1) 1100 (1) 64 (1) 8266 (1) 8964 (1) AI (1) API (1) ARK (1) Activity (1) Agriculture (1) Airlines (1) Bible (1) Bilderberg Club (1) Bilderberg Group (1) Bilderberg conference (1) Binder (1) Block Chain (1) Brexit (1) CDS (1) CE (1) Calender (1) DIY (1) Dalvik (1) Deep learning (1) Docker (1) E-mail (1) ETF (1) Energy (1) Ethereum 以太坊 (1) Europe (1) Funds (1) GCC (1) Grapes (1) HS Code (1) Horticulture (1) IB (1) IMF (1) Incoterms (1) Inflation (1) Israel (1) JNI (1) Jamaica Accords (1) Java (1) Linux (1) MLF (1) Mineral Resource (1) NWTN (1) Neural Network (1) PSL (1) RFID (1) Raise rate (1) SLF (1) SQL (1) SSH Key (1) Stock (1) Surgical Masks (1) TPP (1) Technology (1) Trade War (1) Trading (1) Triffin Dilemma (1) UK (1) UKCA (1) United Nation (1) Wirelesslan (1) Wlan (1) World news (1) Yield (1) business (1) chip (1) deepmind (1) excel (1) flask (1) flight (1) forex (1) framework (1) investment (1) multiable (1) nas (1) news (1) passive income (1) password (1) programming (1) property. 物業買賣 (1) shipping (1) source (1) synology (1) tax (1) unlock (1) web (1) zip (1) 中東局勢 (1) 以色列 (1) 信用違約交換 (1) 債務 (1) 債息 (1) 公開市場操作 (1) 加息 (1) 區塊鏈 (1) 半導體 (1) 南北韓 (1) 卡塔爾 (1) 國際新聞 (1) 存款準備金 (1) 恒大 (1) 投資 (1) 支爆 (1) 新聞 (1) 日歷 (1) 晶原 (1) 杜拜王子 (1) 樓價 (1) 歐州 (1) 正回購 (1) 武漢肺炎 (1) 歷史 (1) 法西斯 (1) 滙率 (1) 煙草業 (1) 牙買加體系，超主權貨幣 (1) 特裡芬悖論 (1) 礦物資源 (1) 聖經 (1) 聖膏 (1) 聯合國 (1) 能源 (1) 自學 (1) 舍客勒 (1) 英文 (1) 西藏 (1) 財務報表 (1) 貨幣制度 (1) 逆回購 (1) 重貼現率 (1) 金達 (1) 銀行 (1) 閱讀筆記 (1) 電子產品 (1)

Featured Post

財經日歷、商品、股市、匯率及各大指數 Economic Calender, Commodities, Stock Market, Exchange Rate & other important index

Labels

0806 (1) 1100 (1) 64 (1) 8266 (1) 8964 (1) Activity (1) Agriculture (1) AI (1) Airlines (1) Android (4) API (1) ARK (1) Bible (1) Bilderberg Club (1) Bilderberg conference (1) Bilderberg Group (1) Binder (1) Block Chain (1) Bond (2) books (2) Brexit (1) business (1) C++ (2) Calender (1) CDS (1) CE (1) China (6) chip (1) Coco Bond (3) Coronavirus (2) Covid-19 (2) Dalvik (1) Deep learning (1) deepmind (1) Deutsche Bank (3) DIY (1) Docker (1) E-mail (1) Economy (3) Energy (1) ETF (1) Ethereum 以太坊 (1) Europe (1) excel (1) flask (1) flight (1) forex (1) framework (1) Funds (1) GCC (1) Gold (5) Grapes (1) Hanjin (8) Horticulture (1) HS Code (1) IB (1) IMF (1) Incoterms (1) Inflation (1) investment (1) Israel (1) Jamaica Accords (1) Japan (2) Java (1) JNI (1) Learning (3) Linux (1) Logistics (12) Mineral Resource (1) MLF (1) Monetary system (2) money (2) multiable (1) nas (1) Neural Network (1) news (1) NWTN (1) one belt one road (6) passive income (1) password (1) programming (1) property. 物業買賣 (1) PSL (1) python (9) Raise rate (1) RFID (1) shipping (1) SLF (1) Slovenia (2) source (1) SQL (1) SSH Key (1) Stock (1) Supply Chain (11) Surgical Masks (1) synology (1) tax (1) Technology (1) TPP (1) Trade War (1) Trading (1) Treasuries (3) Triffin Dilemma (1) UK (1) UKCA (1) United Nation (1) unlock (1) US (3) VAT (3) vba (2) web (1) Wirelesslan (1) Wlan (1) World news (1) Yield (1) zip (1) 一帶一路 (8) 中國 (6) 中東局勢 (1) 以色列 (1) 伊斯蘭 (2) 供應鏈 (8) 信用違約交換 (1) 債券 (5) 債務 (1) 債息 (1) 公債 (2) 公開市場操作 (1) 加息 (1) 區塊鏈 (1) 半導體 (1) 南北韓 (1) 卡塔爾 (1) 哈薩克 (2) 國債 (5) 國際新聞 (1) 存款準備金 (1) 學習文 (9) 德銀 (3) 恒大 (1) 投資 (1) 支爆 (1) 新聞 (1) 日歷 (1) 晶原 (1) 杜拜王子 (1) 樓價 (1) 歐州 (1) 正回購 (1) 武漢肺炎 (1) 歷史 (1) 法西斯 (1) 滙率 (1) 煙草業 (1) 牙買加體系，超主權貨幣 (1) 物流 (9) 特裡芬悖論 (1) 礦物資源 (1) 科技 (2) 穆斯林 (2) 經濟 (4) 聖經 (1) 聖膏 (1) 聯合國 (1) 股票 (3) 能源 (1) 自學 (1) 舍客勒 (1) 英文 (1) 西藏 (1) 財務報表 (1) 貨幣 (2) 貨幣制度 (1) 逆回購 (1) 重貼現率 (1) 金達 (1) 銀行 (1) 閱讀筆記 (1) 阿拉伯 (2) 電子產品 (1) 韓進 (8) 黃金 (5)

Copyright by Derek Wai. Powered by Blogger.