Categorías
Natural Language Processing Top 10

Las 8 mejores herramientas para el procesamiento del lenguaje natural

El texto en inglés se usa en casi todas partes. Sería mejor si nuestro sistema pudiera entenderlo y generarlo automáticamente. Sin embargo, comprender el lenguaje natural es una tarea complicada. Es tan complicado que muchos investigadores dedicaron toda su vida a hacerlo.

Hoy en día, se han publicado muchas herramientas para realizar trabajos de procesamiento del lenguaje natural. Las siguientes son 8 herramientas que he recopilado. También verifiqué que todas ellas son utilizadas por algunas aplicaciones al menos una vez, por lo que todas son ejecutables. Algunos de ellos de empresas del sector, otros de institutos de investigación. Proporciona funciones como analizar, buscar temas automáticamente, etc.

  • OpenNLP: un paquete de Java para realizar tokenización de texto, etiquetado de parte del discurso, fragmentación, etc. (tutorial)
  • Stanford Parser: una implementación Java de analizadores probabilísticos de lenguaje natural, tanto PCFG * altamente optimizados como analizadores de dependencia lexicalizados, y un analizador PCFG lexicalizado
  • ScalaNLP: procesamiento de lenguaje natural y aprendizaje automático.
  • Snowball: un lematizador, compatible con C y Java.
  • MALLET: un paquete basado en Java para procesamiento estadístico de lenguaje natural, clasificación de documentos, agrupamiento, modelado de temas, extracción de información y otras aplicaciones de aprendizaje automático a texto.
  • JGibbLDA: LDA en Java
  • Apache Lucene Core: una biblioteca de Java para la eliminación y derivación de palabras vacías
  • Caja de herramientas de modelado de temas de Stanford: algoritmo CVB0, etc.

* PCFG: Gramática libre de contexto probabilístico

Por Programación.Click

Más de 20 años programando en diferentes lenguajes de programación. Apasionado del code clean y el terminar lo que se empieza. ¿Programamos de verdad?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *