Reddit vende su contenido a Google para entrenamiento de IA

El contrato con Google, propiedad de Alphabet, tiene un valor de unos 60 millones de dólares al año.

La plataforma de redes sociales Reddit llegó a un acuerdo con Google para que su contenido esté disponible para entrenar los modelos de inteligencia artificial del gigante de los motores de búsqueda. El contrato con Google, propiedad de Alphabet, tiene un valor de unos 60 millones de dólares al año, según una de las fuentes. Las cuales no estaban autorizadas para hablar con los medios y pidieron ser anónimas. Al mismo tiempo, tanto Reddit como Google declinaron hacer comentarios a Reuters.

Dicho acuerdo señala las pretensiones de Reddit, que se está preparando para un lanzamiento bursátil de alto perfil, de generar nuevos ingresos en medio de una feroz competencia por los dólares de publicidad de empresas como TikTok y Meta Platform.

Reddit es una plataforma en línea de noticias y debates donde los usuarios pueden participar en comunidades virtuales conocidas como subreddits categorizados en una amplia variedad de temas, que van desde la tecnología y la política hasta la música y los memes.

Los usuarios de Reddit pueden publicar enlaces, imágenes, textos y vídeos, así como participar en discusiones y votar por el contenido que les gusta o no les gusta. Es una de las plataformas de redes sociales más populares en Internet y ha crecido significativamente desde su lanzamiento en 2005.

Sin embargo, la fiabilidad de la información en Reddit puede variar considerablemente dependiendo del subreddit específico y del contenido en cuestión. Reddit es una plataforma abierta y descentralizada donde cualquier persona puede publicar y comentar, lo que significa que la calidad y la veracidad de la información pueden ser inconsistentes.

Algunos subreddits están moderados de manera estricta y tienen reglas estrictas sobre la verificación de información y la calidad del contenido. Estos subreddits a menudo proporcionan información confiable y útil sobre temas específicos. Por otro lado, hay subreddits menos moderados donde la información puede ser menos confiable y estar sujeta a sesgos o desinformación.

Por ello, entrenar una IA generativa con datos de Reddit podría ser beneficioso en algunos aspectos, pero también conlleva ciertos desafíos y riesgos debido a la naturaleza variada y a veces inconsistente de la información en la plataforma.

Beneficios:

Diversidad de datos: Reddit contiene una amplia gama de información sobre una gran variedad de temas. Esto podría enriquecer el conjunto de datos de entrenamiento y permitir que la IA genere respuestas más variadas y contextualmente relevantes.
Realismo y variabilidad: Al utilizar datos de Reddit, la IA podría aprender a generar respuestas que reflejen el lenguaje y las expresiones utilizadas por los usuarios reales de la plataforma, lo que podría aumentar su capacidad para interactuar de manera más natural con los humanos.

Desafíos y riesgos:

Calidad y veracidad de los datos: Dado que Reddit es una plataforma abierta donde cualquier persona puede publicar información, no todos los datos serán precisos o verificables. Esto podría llevar a que la IA genere respuestas incorrectas o desinformadas.
Sesgo y contenido inapropiado: Reddit también contiene contenido que puede ser sesgado, controvertido o inapropiado. Si la IA se entrena con este tipo de datos, existe el riesgo de que reproduzca y amplifique sesgos o actitudes negativas.
Garantizar la ética y la responsabilidad: Es importante implementar medidas para filtrar y moderar los datos de Reddit antes de utilizarlos para entrenar una IA, con el fin de garantizar que se cumplan estándares éticos y se evite el uso de información problemática o perjudicial.

Habrá que esperar que Google aborde los desafíos relacionados con la calidad, la veracidad y la ética de los datos con una buena estrategia para garantizar resultados positivos y responsables.