Gặp vấn đề về crawl data :)))



  • Nếu mọi người nghĩ crawl data là xấu thì mong mọi người tha lỗi cho em :)))
    Em đang crawl data từ 1 link của server A: nó trả về 1 json. giả sử e lấy trong đó có Time: 2017 (dữ liệu đúng)
    Vấn đề của em:

    1. em vào trên trình duyệt thì ok ==> dữ liệu trả về đúng. Time: 2017
      nhưng khi e chạy bằng nodejs trên localhost thì nó lại trả về dữ liệu sai Time: 2016. sau đó e phát hiện ra là mình chưa fake trình duyệt: setheaders 'User-Agent': 'Mozilla/5.0 (X11; Linux.... vv..vv..." ==> kết quả là dữ liệu trả về đúng.
      *** Em muốn đẩy lên server vì chạy ở máy local sẽ phải onl suốt, mà e thì còn phải đi học các thứ nữa nên máy ko cheo được. Nếu không có cách nào khác thì đành phải chạy ở local vậy :(((
    2. e đẩy lên server B (của em) để cho nó thông lát dis cái server A kia. Nhưng khi log ra thì nó lại nhận được dữ liệu sai: Time: 2016.
      vậy mọi người cho em hỏi là có cần setheader cho request trên server B không ạ? nếu cần thì set những gì ạ?
    3. đây là cái request và response mà server đó trả về. Mọi người xem có cần gì trong đống này ko ạ?
      0_1512223454503_image.png
      cảm ơn mọi người quan tâm!
      chúc mọi người cuối tuần vui vẻ!


  • @Hải-Nguyễn215 Crawl data là 1 nghề hẳn hoi nha em. Nó k có xấu tý nào cả. Bên anh đang tuyển crawler - salary > 1000$ mà vẫn chưa kiếm được người đấy :D

    @AntoniD

    1


  • Bạn a nó nhờ reply, ae support nhau thôi.
    Support

    @AntoniD

    1


  • Một số site đề phòng craw bằng cách nhiều cách, check header, check cookie . . . là một trong số cách đó.

    Bạn buộc phài dùng cách này hay cách khác để check xem cái site đó nó protect bằng cách nào. Rồi mới "qua mặt" nó được !



  • @Neo dạ. e newbie chưa vào nghề nên không biết ạ :(



  • @Neo vừa giật mình ngủ dậy, thấy các bác support nhiệt tình quá :))) thấy ông anh kia có avata quen quen quá. trên fb hình như cũng có lần vô tình chém gió nhau r thì phải :))
    em cũng nghĩ là cookie hay gì đó r nhưng mới nghịch về cái này chả biết check các thứ ntn cả, để e nghịch tiếp vậy.



  • @Quang-Vu-Quang dạ. e cũng nghi nghi là do cookie r, nhưng mới học nên chưa lắm rõ mọi thứ, em cảm ơn ạ.



  • cảm ơn mọi người em đã làm được rồi ạ.
    Lỗi: do em :)))) Zzz, em đã dùng quá nhiều vòng forEach để lấy dữ liệu đổ về cùng 1 lúc dẫn tới dư thưa quá nhiều. chắc là tràn gì đó em cũng ko biết. :))) đến lúc suy nghĩ lại rút gọn code đi mới ra ạ. chứ ko phải server Kia cứng quá mà ko crawl được :)))



  • @Hải-Nguyễn215 cho tham khảo code crawl của bác được không =))))



  • Trên group sky nodejs cũng gặp bác này đây mà :D



  • @Frederick-Pham đơn giản lắm bác ơi. chỉ là gửi request đến api của nó thoi mà.



  • @DuyBui hi. lại gặp người quen à :)))



  • Đã có solution chưa bạn @Hải-Nguyễn215 , nếu có thì share bà con với nhé, mình cũng gặp issue tương tự bạn ;)

    NHAN NGUYEN

    0


  • @Hải-Nguyễn215 ý là ví dụ nó có check headers thì bác làm sao. hay bác chỉ crawl thằng nào k check cái đó. rồi ví dụ thằng zing nó chia tài khoản vip với thường bác crawl hết đc k. chứ ý request thì mình hiểu mà :D


Log in to reply