Ad verba per numeros

Most Recent Entries

Archives

2023
- March
2022
- March
2021
- May
- January
2019
- July
- March
2016
- January
2014
- October
- June
- May
2013
- December
- September
- August
- April
- January
2012
- November
- June
- May
2011
- October
- September
- July
- June
- May
- February
- January
2010
- December
- June
- April
- March
- February
2009
- December
- November
- September
- August
- July
- June
- April
- March
- January
2008
- October
- September
- August
- July
- June
- May
- April
- March
- February
- January
2007
- December
- November
- October
- September
- July
- June
- May
- April
- March
- February
- January
  - (�ltima hora) Google desactiva sus "bombas" �o no?
    01/28/07
  - (Breve) Declaraci�n Universal de Derechos Humanos en Unicode
    01/26/07
  - (Curso de Extensi�n) Tecnolog�as Web 2.0 con PHP
    01/25/07
  - (Corpora comparables) Hoja de ruta (Episodio I)
    01/23/07
  - (Programaci�n distribuida) hadoop
    01/18/07
  - (Simulador geopol�tico) Toma de contacto y primeros recursos
    01/16/07
  - (Identificaci�n de idioma) Hoja de ruta (Episodio I)
    01/10/07
  - (Servicios y utilidades) Live HTTP headers
    01/01/07
2006
- December

Parametrización mediante AG, Segmentación de Chino
Thursday, January 18, 2007, 01:40 AM

Alguno de vosotros está trabajando en el problema de la segmentación de textos escritos en chino. La idea básica supone procesar grandes (más bien enormes) cantidades de texto sin segmentar para encontrar por medios estadísticos patrones que, probablemente, se correspondan con "palabras" chinas. Una vez encontradas se construiría un diccionario que permitiría la segmentación de nuevos textos.

Obviamente el problema fundamental es la complejidad temporal que hace que los tiempos de ejecución sean laaaaargos y que aconseja el desarrollo de la aplicación de manera distribuida.

Otros compañeros están trabajando con AGATA (el framework para algoritmos genéticos) y, aunque no es seguro, existe la posibilidad de que sea necesario adaptarlo para que también opere de forma distribuida...

Pues bien, hadoop puede ser justo lo que necesitamos y, además, está escrito en Java. Así que, tomad nota y, cuando podáis, echadle un vistazo.

Back