Hi ae,
Thông qua bài viết này mình chia sẻ với mn về thu thập dữ liệu website. Hay còn gọi là data scraping. Các bạn có thể xây dựng một websosanh bằng kỹ thuật này.
Hiện nay có 3 thư viện/framework hỗ trợ làm điều này. Mình sẽ giới thiệu với các bạn một framework siêu mạnh đó là Scrapy. Vậy Scrapy có điểm gì mạnh mà mình lại giới thiệu đến các bạn?
1. Nó là một framework chứ không phải là thư viện. Nghĩa là nó hỗ trợ các bạn đầy đủ mọi công cụ từ khi bạn bắt đầu download một trang web tới khi bạn lưu trữ dữ liệu mà bạn đã xử lý xong.
Ví dụ: beautiful soup là một thư viện rất hay nhưng trước khi các bạn dùng bs để lọc data, các bạn phải dùng thư viện url request để parse trang web. Hay khi lưu trữ các bạn cần tự code để biến dữ liệu từ dạng thô trở thành file json. Scrapy thì có sẵn hết rồi.
2. Scrapy cho phép các bạn crawl (scrape từ trang này sang trang khác) một cách thần tốc, cơ chế xử lý bất đồng bộ của nó giúp nó có khả năng này.
Có thể sẽ còn nhiều điểm mạnh khác nhưng tạm thời mình chưa biết tới, hy vọng sẽ nhận được nhiều phản hồi từ mn.
Dưới đây là link notion:
Phần 1: Làm quen với Scrapy
Thông qua bài viết này mình chia sẻ với mn về thu thập dữ liệu website. Hay còn gọi là data scraping. Các bạn có thể xây dựng một websosanh bằng kỹ thuật này.
Hiện nay có 3 thư viện/framework hỗ trợ làm điều này. Mình sẽ giới thiệu với các bạn một framework siêu mạnh đó là Scrapy. Vậy Scrapy có điểm gì mạnh mà mình lại giới thiệu đến các bạn?
1. Nó là một framework chứ không phải là thư viện. Nghĩa là nó hỗ trợ các bạn đầy đủ mọi công cụ từ khi bạn bắt đầu download một trang web tới khi bạn lưu trữ dữ liệu mà bạn đã xử lý xong.
Ví dụ: beautiful soup là một thư viện rất hay nhưng trước khi các bạn dùng bs để lọc data, các bạn phải dùng thư viện url request để parse trang web. Hay khi lưu trữ các bạn cần tự code để biến dữ liệu từ dạng thô trở thành file json. Scrapy thì có sẵn hết rồi.
2. Scrapy cho phép các bạn crawl (scrape từ trang này sang trang khác) một cách thần tốc, cơ chế xử lý bất đồng bộ của nó giúp nó có khả năng này.
Có thể sẽ còn nhiều điểm mạnh khác nhưng tạm thời mình chưa biết tới, hy vọng sẽ nhận được nhiều phản hồi từ mn.
Dưới đây là link notion:
Phần 1: Làm quen với Scrapy
Ồ, bạn chưa phải thành viên của forum
Đăng nhập hoặc đăng ký ngay.
Phần 2: Trích xuất dữ liệu bằng Scrapy
Ồ, bạn chưa phải thành viên của forum
Đăng nhập hoặc đăng ký ngay.
Phần 3: Trích xuất dữ liệu linh động
Ồ, bạn chưa phải thành viên của forum
Đăng nhập hoặc đăng ký ngay.