NodeJS: Lấy dữ liệu từ các website bên ngoài



  • Chào mọi người,
    Mọi người cho em hỏi làm thế nào để lấy dữ liệu từ một website bên ngoài về website của mình và lưu nó vào mongodb được không ạ?
    Có thể cho em vài keyword để em tìm hiểu được không?
    Em cảm ơn!



  • crawler





  • cảm ơn mọi người :)



  • Chủ yếu cách sử lý string của bạn thôi (cá nhân mình nghĩ vậy)
    http://dienmayminhhai.com/ đây là site mình làm và nó lấy dữ liệu chủ yếu của điện máy xanh
    Nếu nhưng mạng xã hội lớn như twitter, fb... bạn có thể dùng các api của nó. cá biệt thằng twitter có api stream bạn có thể crawler thoải mái :)



  • @Khoa-Lê-Duy anh có thể nói rõ hơn cho em một chút được không ạ! Tại em mới học mà chưa biết tìm hiểu như thế nào? Cảm ơn anh



  • Bạn có thể tham khảo module này: https://github.com/bda-research/node-crawler
    Hoặc ở đây:
    Part 1: https://www.youtube.com/watch?v=Vf_AXtcfFI4
    Part 2: https://www.youtube.com/watch?v=BTAVPwfpJtM



  • @Dung-Vu-Van dạ. cảm ơn anh!



  • Nhiều khi ban chả cần đến thư viện crawl khỉ nào đâu nhá.
    Cứ http get dữ liệu về kết hợp với tí Regular express chặt chém và phân tích ra thì có thể bóc được hết dữ liệu rồi.



  • @Linh-Trần-Nhật
    Bạn cứ chịu khó đọc hiểu code là được.
    Nó không có gì cao siêu gì cả
    Cũng như bạn @Tieu-dang-van nới chỉ cần get và Regular express là xong.
    Mình cũng bonus thêm string functions nữa.
    Nhưng cũng cố gắng làm nhanh không đang làm dở trang nó thay đổi giao diện thì lại ngồi làm lại.
    Cái này mình dính rùi. chỉ có bực mình thôi. Dù sao mình vẫn là thằng ăn cắp nên chả la làng được.


Log in to reply