Bộ công cụ xử lý ngôn ngữ tiếng Việt bằng Node.js


  • Global Moderator

    Chào các bạn,

    Hiện mình đang thực hiện một dự án mã mở, là tạo ra bộ công cụ xử lý ngôn ngữ tự nhiên dành cho tiếng Việt. Mục đích của toolkit này là hỗ trợ, giúp ta có thể tạo ra các sản phẩm có liên quan đến xử lý ngôn ngữ tự nhiên bằng Nodejs. Đặc biệt là tiếng Việt.

    Trước mắt là đi cóp nhặt các sản phẩm mã mở từ các bài báo đã công bố trong và ngoài nước để tích hợp vào công cụ này. Để giúp cho các dự án khác mà mình đang thực hiện, cũng như giúp các bạn khác (có thể là bạn?) cũng đang nghiên cứu trong lĩnh vực này, viết trên nền nodejs.

    Chắc chắn toolkit này còn rất nhiều lỗi. Vậy mong các bạn trong diễn đàn, cộng đồng Node.js mình có thể hỗ trợ cùng mình làm cho sản phẩm này ngày càng hoàn thiện hơn, tối ưu hơn. Xin cảm ơn các bạn!

    Một số kết quả

    npm version

    Cài đặt

    1. Install Node.js
    2. Run: $ npm install -g vntk

    Xử lý input là một chuỗi

    $ vntk ws "Chào mừng bạn đến với đất nước Việt Nam"
    $ Chào mừng bạn đến với đất_nước Việt_Nam
    

    Xử lý input là một tệp tin

    $ vntk ws demo.txt another.txt -f
    $ Result: demo.txt.seg, another.txt.seg
    

    Đóng góp cho dự án

    Các bạn có thể contribute cho dự án trên github tại link: https://github.com/vunb/vntk
    Mong nhận được phản hồi từ các bạn :)
    Cảm ơn các bạn đã xem bài viết này!