# Getting started with Python Web Scraping
https://hub.packtpub.com/getting-started-with-python-web-scraping/
以前(1, 2, 3)、nerodiaを用いてブラウザを操作し、表示内容の取得や投稿を行いました。
次はもうちょっとシンプルに、リクエストを出して帰ってきたHTMLをパースして・・・といったやり方でやってみます。
まず今回は、最初のリンク先にあった内容をそのままやってみます。
手順に記載がないですが、リンク先では’lxml’を使用しているので、必要に応じてインストールします。
pip install lxml
または
pip3 install lxml
参照先のHTML内容に変更があったのか、一部そのままでは実行できない箇所がありました。
events = soup.find('ul', {'class': 'list-recent-events'}).findAll('li')
- リンク先では’list-recentevents’となっている。
出力はこのようになりました。(2018/4/6現在)
{'name': 'PythonCamp 2018 - Cologne', 'location': 'GFU Cyrus AG, Am Grauen Stein 27, 51105 Köln, Germany', 'time': '07 April – 09 April 2018'}
{'name': 'PyCon IT 9', 'location': 'Hotel Mediterraneo - Lungarno del Tempio, 44, 50121 Firenze FI, Italy', 'time': '19 April – 23 April 2018'}
{'name': 'PyCamp Baradero 2018 (PyAr Community)', 'location': 'Baradero, Buenos Aires Province, Argentina', 'time': '28 April – 02 May 2018'}
{'name': 'PyDays Vienna', 'location': 'FH Technikum Wien, Hoechstaedtplatz 6, Vienna, Austria', 'time': '04 May – 06 May 2018'}
{'name': 'GeoPython 2018', 'location': 'Basel, Switzerland', 'time': '07 May – 10 May 2018'}
{'name': 'PyCon US 2018', 'location': 'Cleveland, Ohio, USA', 'time': '09 May – 18 May 2018'}
次はもう少し実用的なものをやりたいと思います。
Written with StackEdit.
コメント
コメントを投稿