Bộ công cụ xử lý ngôn ngữ tiếng Việt bằng Node.js


  • Global Moderator

    Chào các bạn,

    Hiện mình đang thực hiện một dự án mã mở, là tạo ra bộ công cụ xử lý ngôn ngữ tự nhiên dành cho tiếng Việt. Mục đích của toolkit này là hỗ trợ, giúp ta có thể tạo ra các sản phẩm có liên quan đến xử lý ngôn ngữ tự nhiên bằng Nodejs. Đặc biệt là tiếng Việt.

    Trước mắt là đi cóp nhặt các sản phẩm mã mở từ các bài báo đã công bố trong và ngoài nước để tích hợp vào công cụ này. Để giúp cho các dự án khác mà mình đang thực hiện, cũng như giúp các bạn khác (có thể là bạn?) cũng đang nghiên cứu trong lĩnh vực này, viết trên nền nodejs.

    Chắc chắn toolkit này còn rất nhiều lỗi. Vậy mong các bạn trong diễn đàn, cộng đồng Node.js mình có thể hỗ trợ cùng mình làm cho sản phẩm này ngày càng hoàn thiện hơn, tối ưu hơn. Xin cảm ơn các bạn!

    Một số kết quả

    npm version

    Cài đặt

    1. Install Node.js
    2. Run: $ npm install -g vntk

    Xử lý input là một chuỗi

    $ vntk ws "Chào mừng bạn đến với đất nước Việt Nam"
    $ Chào mừng bạn đến với đất_nước Việt_Nam
    

    Xử lý input là một tệp tin

    $ vntk ws demo.txt another.txt -f
    $ Result: demo.txt.seg, another.txt.seg
    

    Đóng góp cho dự án

    Các bạn có thể contribute cho dự án trên github tại link: https://github.com/vunb/vntk
    Mong nhận được phản hồi từ các bạn :)
    Cảm ơn các bạn đã xem bài viết này!

    Tech-nông
    Twitter: @nhubaovu
    Profile: about.me/vunb

    2

  • Global Moderator

    Sau hơn 1 năm thì mình cũng đã đưa vntk lên phiên bản 1.0.0. Chậm quá! :))

    Một số tính năng mới được thêm vào trong đợt release này:

    • Bộ phân tách đơn vị từ Tokenizer
    • Bộ phân đoạn từ Word Segmentation
    • Bộ dán nhãn từ loại POS Tagging
    • Bộ phân tách cụm từ Chunking
    • Bộ nhận dạng thực thể có tên Named Entity Recognition
    • Một vài tiện ích và cập nhật khác

    Các bạn thấy thú vị có thể fork dự án tại repo tại: https://github.com/vunb/vntk
    Rất mong các bạn sử dụng và trải nghiệm, nếu có lỗi thì báo cho mình biết nhé!

    Xin cảm ơn!

    Tech-nông
    Twitter: @nhubaovu
    Profile: about.me/vunb

    1


  • Mình đang làm một dự án về AI, cái tookit của bác khá hay.
    Nhưng nếu nó biết đâu là động từ, đâu là danh tư. Câu này thuộc cấu trúc ngữ pháp gì thì tuyệt hơn nữa.

    Mà mình hới tham thì phải, làm được vậy thành luis.ai rồi ! Nhưng cứ làm, biết đâu (y) !


  • Global Moderator

    @Quang-Vu-Quang Có rồi mà bạn ơi. Nó thuộc task vntk#chunking, có điều output mình đang để là raw dạng IOB. Mình đang cải tiến để thêm vào các tiện ích, bạn theo dõi thêm issue này vntk/issues/23.

    Mà mình hới tham thì phải, làm được vậy thành luis.ai rồi ! Nhưng cứ làm, biết đâu (y) !

    Vậy mới gọi là tham vọng chứ =)) Mình cũng đang làm 1 service giống như luis.ai đây. Hi vọng bạn cùng contribute cho VNTK :D

    Tech-nông
    Twitter: @nhubaovu
    Profile: about.me/vunb

    0