Nace un ‘Google’ capaz de detectar las tendencias en innovación científica

El buscador extrae la información contenida en 'papers' para ofrecer resultados más allá de las palabras clave y el autor

Si a los ordenadores se les puede enseñar a extraer el significado de los miles de trabajos de investigación que se publican cada año, entonces quizás también podrían ser entrenados para detectar nuevas tendencias y descubrimientos, y a sacar conclusiones de ellos.

El Instituto Allen para la Inteligencia Artificial está trabajando en esta misma línea, y ha desarrollado una nueva herramienta llamada Semantic Scholar que puede rastrear millones de papers de ciencias informáticas. La herramienta, que se lanzó esta semana, permite refinar las búsquedas en función de la información extraída del texto de los trabajos publicados.

Por ejemplo, es posible restringir una búsqueda al medio que publicó, o la conferencia en la se presentó, o por el conjunto de datos empleados. Semantic Scholar también remarcará las frases claves de un trabajo.

Ya existen muchos motores de búsqueda académica, entre ellos Google Scholar, Microsoft Academic Search, PubMed, y JSTOR. Pero típicamente sólo realizan las búsquedas en función de unas palabras clave y otros datos bien clasificados, como la fecha de publicación.

Oren Etzioni, el director ejecutivo del Instituto Allen para la Inteligencia Artificial, dice los papers contienen mucha información importante que no se muestra según esos parámetros más típicos. El software subyacente de Semantic Scholar fue entrenado para extraer diferentes conceptos mediante una variedad de técnicas de aprendizaje de máquinas. "Con millones de trabajos que se publican cada año, es imposible mantenerse al día", dice Etzioni. "Así que se necesita cierto nivel de entendimiento".

Existe un interés creciente por utilizar el aprendizaje de máquinas para entrenar ordenadores para que reconozcan determinados conceptos dentro de los datos. Google está desarrollando un llamado "gráfico de conocimientos" de conceptos al entrenar algoritmos para navegar la web y extraer informaciones útiles. Por eso, preguntas: "¿Cuántos años tiene Barack Obama?", Google no sólo devolverá páginas web que pueden contener esta información, también te dirá directamente que tiene 54 años.

Otras empresas intentan hacer algo similar con los trabajos académicos. Una empresa llamada Meta también ha anunciado esta semana un servicio que identificará automáticamente las personas y entidades mencionadas en las investigaciones médicas. El CEO de Meta, Sam Molyneux, dice que el servicio, que se lanzará oficialmente hacia finales de semana, puede recomendar trabajos de acuerdo a los conceptos tratados en trabajos leídos previamente por el usuario, y hasta puede identificar tecnologías emergentes de forma automática. "En esencia, te permite rastrear a nivel de conceptos, o a nivel de tecnología, en lugar de hacerlo a nivel de artículo", explica Molyneux. "Los conceptos como la tecnología CRISPR, que realmente está revolucionando cómo se está realizando la ingeniería genómica ahora mismo - lo detectamos como un concepto emergente hace un par de años" (ver CRISPR es el descubrimiento más importante de los últimos cinco años).

Etzioni dice que el objetivo de Semantic Scholar es ir más allá al dotar a los ordenadores de un entendimiento mucho más profundo de las publicaciones científicas nuevas. Su equipo está desarrollando algoritmos que leerán los gráficos o diagramas de un trabajo e intentarán extraer los valores que presentan. "Queremos llegar a ser capaces de escoger un trabajo experimental y decir: 'Vale, ¿tengo que leer este trabajo, o el ordenador puede contarme que este trabajo demostró que tal fármaco fue altamente efectivo?'"