Dành cho các bạn thích crawl, thích "ăn cắp vặt" của người khác



  • https://fieldrunners.herokuapp.com
    (Bản gốc http://fieldrunnershtml5.appspot.com/)
    Đây là game fieldrunners phiên bản web. Mình đã lấy được toàn bộ mã nguồn của nó(Thực chất code cũng được min lại rồi)
    Mình cũng xin phép không chia sẻ mã nguồn.
    Mục đinh muốn các bạn chia sẽ các khó khăn khi crawl 1 site
    Hoặc thấy cái gì đó hay ho. Muốn lấy nó để cho vào các dự án riêng.
    Biến cái của người thành của mình đế kiếm cơm

    Đây cũng là công việc khó khăn đòi hỏi cần sự kiên trì.
    Có thể ví dụ: khi bạn viết xong 1 script để crawl, nhưng khi bạn tiến hành crawl thì trang web đó thay đổi kiến trúc và lại lần mò từ đâu.. :)



  • @Khoa-Lê-Duy cảm ơn bạn đã đóng góp cho cộng đồng, không như ai kia chỉ suốt ngày ném đá - nói nhăng cuội.



  • Chào bạn, mình cũng đang làm vài project có đi crawl dữ liệu từ nơi khác, cơ mà request nhiều là bị dính captcha ngay, bạn có cách nào giải quyết vấn đề này không chỉ mình với. Đã thử với VPN nhưng mấy site mình crawl nó dùng couldfare, thuật toán của nó tốt quá, vẫn phát hiện mình.



  • @tuananhzippy Mình chưa làm với site có captcha bao giờ:(
    Nếu có thể tìm từ 1 nguồn khác được không
    Trước mình có thử qua cái thằng http://sinhvienit.net
    Cũng lấy được data nhưng nó là form đơn gian không phải captcha.
    Và theo ngu kiến của mình thì đối với google captcha thì hay quên nó đi
    Có thể bạn tìm ra cách nhưng sẽ tốn rất nhiều time

    P/s. Nếu bạn vượt qua được google captcha hình như cũng có thưởng đó :) thoải mái ăn chơi trụy lạc



  • @Khoa-Lê-Duy Bạn có thể chia sẻ về các công cụ (nếu có) bạn đã sử dụng được không?



  • @Phuc-Phan66
    Mình không dùng tool gì cả
    Đối với cách lấy các hiệu ứng slide hay các game như trên thì mình dùng debug của google chrome thôi
    Xem nó thiếu file nào thì tải về.
    Nếu may mắn bạn có thể lấy được list các file cần load rồi dùng các ngôn ngữ khác get về
    Nếu kém may mắn thì phải dùng tay thủ công thôi :(

    Đối với cách lấy content bóc tách html thì mình dùng các hàm xử lý string(chủ yếu là regular expression, cắt chuỗi)
    Nhưng đầu tiên xem trang web mình lấy có api không nếu có thì dùng nó còn không thì mới tính chuyện bóc tách html
    Nếu có captcha như bạn trên nữa kia thì nên tìm nguồn khác.
    Thực sự vượt qua được captcha cũng không hề đơn giản

    Đó là những gì mình hay làm.
    Mong mọi người đóng góp ý kiến mang tính xây dựng.



  • Theo như mình được biết là CAPTCHA ngăn chặn request tự động thường để lấy thông tin còn công việc của bạn @Khoa-Lê-Duy lấy mã của một website chủ yếu thao tác bởi con người. Hai công việc khá là khác nhau.
    CAPTCHA không ảnh hưởng tới việc lấy mã từ trình duyệt.
    Còn muốn tự động vượt qua CAPTCHA thì là một công việc khó khăn và tiền bạc có thể là không thực tế.



  • @Phuc-Phan66
    Khi bạn request nhiều đến 1 web và admin của web đó cẩn thận,
    chăc chắn bạn sẽ bị block 1 khoảng thời gian nào đó
    hoặc có thể bạn phải nhập captcha thì mới được
    Khi crawl bạn request rất nhiêu và nó có thể đến vài trăm request trong 1s
    Đối với server yếu nó có thể die luôn nếu không hạn chế những request liên tục như vậy
    Ví dụ như thằng mediafire.com chẳng hạn khí bạn muốn download nhiều file cùng 1 lúc bạn sẽ phải nhập captcha đó
    Mình đang nói là tài khoản free nhé. Có phí thì mình chưa thử
    Hoặc ví dụ như thằng fshare của vn mình.
    Nó cũng có 1 hình thức biến thể của captcha là đợi khoảng thời gian nào đó bắt xem quảng cáo.
    Nó cũng giúp hạn chế nhiều request đến server tránh server quá tai
    Nhưng mà mục đính chính của nó là để kiếm $ từ những quảng cáo đó.


Log in to reply