NodeJS bóc tách HTML.



  • Tình hình là em muốn bóc tách phân loại csdl của 1 trang web ví dụ như lazada để lưu vào mongodb thì hướng thế nào hả các bác.
    Thanks!



  • Tùy theo trang web mà bạn học tách, ví dụ như bạn lấy được HTML từ trang web thì bạn http get content của web đó về rồi dùng thư viện 'xml2js' để parse content, còn nếu web đó có api ajax thì cứ lấy từ ajax :D



  • @Bui-Huy tập trung vào các hàm string. Cắt, bỏ, thêm, bớt, thay thế...
    Theo ngu kiến của mình thì phần xử lý string giúp ích khá nhiều để tiến tới tiệm cận pro
    Nó cung hay được hỏi khi phỏng vẫn
    Nên sử dụng các hàm có sẵn của ngôn ngữ mình dùng. Không nên dùng của thằng thứ 3 hoặc tự viết ra
    Cứ để ý db cũng là string, html cũng là string, xml, css ..
    String ngập mặt



  • Sent from Wood-PC.

    0


  • Cơ bản bạn cần làm tuần tự

    • Nghiên cứu source code của web để rút ra cấu trúc/qui luật lặp của nội dung cần lấy
    • Lấy nội dung HTML của trang web bằng Request (method GET) hoặc Querystring (method POST)
    • Dùng Cheerio để load nội dung HTML
    • Dùng Jquery để loop/extract nội dung cần lấy
      Search Google chủ đề "scrape web by nodejs" hoặc "web crawler by nodejs" sẽ tìm được nhiều thông tin hữu ích


  • xem thực tế content trả về từ request nào. Nếu dạng object json từ một ajax thì parse json rồi lấy, nếu là html thì xem cấu trúc trang web, rút ra một mẫu chung selector nơi chứa dữ liệu cần lấy.


Log in to reply