¿Qué es SMITH de Google?

30/1/2022

Cada vez suena con más fuerza, Google SMITH el nuevo algoritmo de Google que le permite analizar textos más largos y complejos ¿Quieres saber más? Te lo explicamos

Pedro Borrego Algarra

Co-fundador & Innovación y tecnología

¿Qué es SMITH de Google?

SMITH (Siamese Multi-depth Transformer-based Hierarchical) es un nuevo modelo de deep-learning que al igual que BERT está diseñado para entender el significado de un texto.


Aparece por primera vez publicado en Octubre de 2020 en el siguiente artículo de investigación (Beyond 512 Tokens: Siamese multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching) y destaca por su capacidad de predecir como continuará un bloque de texto dentro del contexto de todo el documento.


Esto hace que SMITH sea muy potente a la hora de entender documentos largos debido a esta capacidad predictiva, según los autores del paper siendo incluso mejor que el propio BERT a la hora de comprender contenido extenso.


¿Cómo afecta SMITH al posicionamiento?

Según afirman fuentes internas de Google SMITH aún no afecta al posicionamiento ya que no está implementado. Surgieron rumores tras el Google Core Update de Diciembre 2020 en foros como Blackhatseoword sugiriendo que este algoritmo se lanzó durante esta actualización, basados sobre todo en que uno de los puntos fuertes de este update fue la indexación de pasajes de texto en la que SMITH podría jugar un rol muy importante.

Tweet sobre Google SMITH

Pero no hay mayor evidencia de que SMITH haya entrado en producción y en Twitter Danny Sullivan, empleado de Google, nos confirma que SMITH no está aún en funcionamiento y lo justifica diciendo que no todos los artículos que publican acaban produciendo herramientas que se utilizan en el buscador.

¿Por qué es importante?

Debido a las capacidades de entender el contenido de textos largos SMITH podría mejorar funciones como la sugerencia de noticias relacionadas, artículos relacionados y en definitiva todo lo que tenga que ver con el agrupado de contenido o documentos.


También podría afectar al posicionamiento si se implementase en el algoritmo de búsqueda de Google y responder a la intención de búsqueda de los usuarios con contenido más largo. Aunque para esto parece que aún quedaría bastante camino por recorrer y no podemos saber si algún día se hará efectivo.


En cualquier caso es un tema al que merece la pena prestar atención ya que pocas son las publicaciones que dicen mejorar el rendimiento de las herramientas más de vanguardia, en este caso seria BERT, y estos pocos artículos son los que tienen más posibilidades de acabar materializándose en como funciona el buscador de Google.


Deberemos estar pendientes a como evoluciona SMITH para estar siempre un paso por delante y mejorar nuestro contenido y posicionamiento antes de que se produzcan los cambios y nos pillen desprevenidos.

¿En qué se diferencia SMITH de BERT?

BERT (Bidirectional Encoder Representations from Transformers) es una de las adopciones más recientes y conocidas del algoritmo de búsqueda de Google.


A diferencia de SMITH, BERT está limitado al análisis/predicción de un texto corto como un párrafo o unas pocas frases. Según los autores del artículo donde se introduce SMITH:


"In recent years, self-attention based models like Transformers… and BERT …have achieved state-of-the-art performance in the task of text matching. These models, however, are still limited to short text like a few sentences or one paragraph due to the quadratic computational complexity of self-attention with respect to input text length."


Más allá de los detalles técnicos que diferencian la estructura de SMITH y BERT, el primero como ya hemos mencionados si es capaz de analizar textos más largos, incrementando la entrada de texto a analizar desde los 512 caracteres hasta 2048. Según los autores del artículo:


“Our experimental results on several benchmark datasets for long-form document matching show that our proposed SMITH model outperforms the previous state-of-the-art models including hierarchical attention…, multi-depth attention-based hierarchical recurrent neural network…, and BERT.


Comparing to BERT based baselines, our model is able to increase maximum input text length from 512 to 2048.”


Pese a su capacidad de analizar secciones más largas de textos, SMITH se presenta por sus autores como un complemento a BERT y no como un reemplazo. La causa de esto debemos adivinarla y probablemente sea a un menor rendimiento y limitaría su uso a momentos puntuales en los que desde Google decidan que SMITH pudiera mejorar significativamente los resultados con respecto a BERT.


Estaremos pendientes de los experimentos que van llevando a cabo y los cambios en las siguientes Core Update a ver si nos acabamos llevando una sorpresa.


---


En este artículo citamos en varias ocasiones el siguiente artículo:

Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching (2020) Liu Yang, Mingyang Zhang, Cheng Li, Mike Bendersky & Marc Najork.