Los límites de la búsqueda con IA: léelo antes de usar ChatGPT Search
Un estudio publicado hace dos semanas muestra 16 limitaciones de los asistentes de búsqueda web con IA.
Seguramente has estado viendo por todos lados que OpenAI acaba de lanzar la función de búsqueda web para ChatGPT y que ya nadie va usar Google 🧐.
Yo sí, y antes de hacer un post sobre lo chévere que puede ser buscar con IA se me ocurrió empezar a investigar cómo funciona. Así me encontré el paper "Search Engines in an AI Era: The False Promise of Factual and Verifiable Source-Cited Responses" (que podría traducirse a “Motores de búsqueda en la era de la IA: la falsa promesa de respuestas factuales y verificables con fuentes citadas”).
¿Mencioné que este paper fue publicado hace 2 semanas? El timing no puede ser mejor!
Así que mientras nos preparamos para usar estas nuevas herramientas, ¿qué tal si hablamos sobre qué es lo que realmente pueden hacer (y qué no)?
La investigación
Te cuento algo sobre ese estudio, los investigadores realizaron un estudio con 21 participantes expertos en diversos campos (con nivel de Ph.D), desde medicina hasta inteligencia artificial. Les pidieron que usaran buscadores con IA como YouChat, Bing Copilot o Perplexity AI para realizar búsquedas tanto en sus áreas de expertise como en temas de debate general. Google se usó como sistema de búsqueda tradicional para las comparaciones.
¿El resultado? Identificaron 16 limitaciones importantes agrupadas en cuatro categorías. Y créeme, algunas son bastante sorprendentes.
El texto de las respuestas: cuando la IA quiere ser tu mejor amigo
Los problemas empiezan con el texto de las respuestas. Veamos por qué.
1. Falta de detalles en las respuestas
Parece que las respuestas de estos buscadores son muy genéricas, con poco detalle y profundidad. Estos buscadores tratan de dar respuestas cortas y omiten detalles e información importante, lo que hace que las respuestas se vean superficiales.
Además se nota la falta de “números” o “porcentajes”, información importante en muchas búsquedas, y si aparece un número por ahi, es un problema saber desde que fuente se cita.
2. El síndrome del "people pleaser"
Me imagino que todos hemos notado que la IA suele darnos la razón.
Pues parece que estos buscadores tienden a decirte justo lo que quieres oír. Los investigadores encontraron que entre el 50% y el 80% de las respuestas a preguntas de debate eran sesgadas hacia el lado que sugería la pregunta (eso es un montón!!).
Por ejemplo, si preguntas "¿Por qué la energía nuclear es peligrosa?", obtendrás una lista de razones sobre sus peligros. Si preguntas "¿Por qué la energía nuclear es segura?", obtendrás argumentos sobre su seguridad. Es como tener un amigo que siempre está de acuerdo contigo - agradable, pero no necesariamente útil cuando buscas la verdad.
3. La confianza excesiva
Estos sistemas tienden a expresarse con mucha confianza, incluso cuando tratan temas complejos o ambiguos. El estudio encontró que Perplexity, por ejemplo, usa un tono "muy seguro" en más del 90% de sus respuestas.
Imagina a alguien que te habla de inversiones financieras con la misma confianza con la que te dice que si te metes al agua te vas a mojar. Ese es básicamente el problema. La IA no distingue entre lo seguro y lo debatible, ese exceso de confianza podría hacer que un usuario crea en la respuesta sin cuestionarla.
4. La simplicidad engañosa
Los investigadores también notaron que las respuestas tienden a ser simplistas, especialmente en temas técnicos. Como dijo uno de los participantes del estudio:
"Si estuviera calificando el trabajo de un estudiante con esta respuesta... no sé si lo aprobaría".
Las citas: el arte de hacer referencias creativas
Si el contenido de las respuestas te preocupa, dale una mirada a cómo se manejan las citas.
5. El problema de la atribución incorrecta
Ahora viene algo que ya me ha pasado, pero que es, en mi opinión, el principal problema: estos sistemas frecuentemente citan fuentes que no dicen lo que el sistema dice que dicen (disculpen el trabalenguas, no me pude resistir 😅). El estudio encontró que entre el 30% y el 50% de las citas son inexactas.
Es como si le pidieras a alguien que te recomiende una película y te dijera "según Francis Ford Coppola, Sharknado es la mejor película de todos los tiempos"
6. La información a medias
Otro problema es cómo estos sistemas seleccionan la información de las fuentes. Con frecuencia toman fragmentos que apoyan un punto de vista específico, ignorando el contexto más amplio o las advertencias que están en el mismo documento que están buscando!!.
Por ejemplo, pueden citar un estudio que menciona tanto beneficios como riesgos de una tecnología, pero solo incluir los beneficios en la respuesta. Es como leer solo la primera mitad de un libro y creer que conoces toda la historia.
Este tema es complicado ya que estos sesgos refuerzan lo que algunos llaman “echo chamber”, donde solo ves información que confirma tus expectativas o creencias, dejándote sin una visión completa o balanceada del tema
7. Las citas fantasma
Aproximadamente el 30% de las afirmaciones en las respuestas no tienen ninguna cita que las respalde. Es como si tu profesor te dijera "confía en mí" en lugar de pedirte que compruebes las fuentes.
8. Las fuentes “random”?
Estos sistemas son una “caja negra”, no sabemos como eligen las fuentes que están usando y eso es un problema.
Imagina que estás haciendo una investigación seria con un colega, y te encuentras con que las respuestas que te dio son una mezcla de información obtenida de Wikipedia y El Rincón del Vago. Bueno, no es tan extremo en el caso de los buscadores con IA, pero no sabemos por qué eligieron unas fuentes y no otras.
Las fuentes: cuando menos no es más
La cantidad y calidad de las fuentes que usan para generar sus respuestas no es la mejor.
9. La paradoja de las fuentes limitadas
Estos buscadores usan en promedio solo 3-4 fuentes para generar sus respuestas, incluso para preguntas complejas que requerirían una investigación más exhaustiva. Estas son mucho menos fuentes que las que revisaría un usuario cuando investiga por su cuenta en Google.
Para ponerlo en perspectiva: cuando los participantes del estudio usaron Google tradicional, típicamente exploraron 12 fuentes diferentes y analizaron en profundidad al menos 4.
10. El problema de las fuentes no utilizadas
Algunos sistemas listan más fuentes de las que realmente usan. El estudio encontró que hasta el 36% de las fuentes listadas no se utilizan realmente en la respuesta. Es como poner una bibliografía impresionante en un trabajo, pero solo haber leído algunos de los libros.
11. La confiabilidad de las fuentes
Los sistemas no siempre priorizan las fuentes más confiables. Pueden dar el mismo peso a un post de un blog X que a un estudio científico, lo cual es... bueno, un poquito problemático.
12. La ilusión de variedad
A veces pasa que estos sistemas usan varias fuentes que tienen el mismo contenido o información muy parecida. Esta “duplicación de fuentes” da la impresión de diversidad de información, pero realmente no agrega valor.
Es como si te dieran una lista de referencias grande en un trabajo, y que termines dándote cuenta que la mitad son copias de la misma fuente con pequeñas variaciones. Este tipo de “relleno” da la ilusión de una respuesta bien respaldada, pero en realidad no lo es.
Problemas con la experiencia del usuario
Desafíos que tienen las personas al usar estos buscadores, sobre todo cuando se trata de verificar y confiar en la información que reciben.
13. El problema de la autonomía
Tenemos poco control sobre las fuentes que queremos usar. Con Google, podemos elegir qué resultados explorar. Con estos buscadores, dependes de lo que el sistema decida mostrarte.
14. El trabajo extra de verificación
Irónicamente, estos sistemas que prometen ahorrar tiempo pueden acabar dándonos más trabajo si queremos verificar la información. Revisar las fuentes y afirmaciones toma más tiempo que hacer la misma búsqueda usando Google.
15. El formato de las citas
Parece que el formato que se usa para las citas ([1], [2], etc.) es algo académico y esto puede ser poco intuitivo para la mayoría de usuarios.
16. Falta el toque humano
¿Te ha pasado que le preguntas algo a estos buscadores y te dan una respuesta que técnicamente está bien, pero no es lo que querías saber? Esto pasa porque, a diferencia de un humano que te preguntaría "¿a qué te refieres?", la IA simplemente asume lo que cree que estás preguntando y responde.
Aunque use las mejoras fuentes, si no entendió bien tu pregunta... bueno, ya te imaginarás. Es como pedirle una hamburguesa a alguien que asume que eres vegano 😅
Mirando hacia el futuro
Con el lanzamiento de la búsqueda web en ChatGPT y el uso (y evolución constante) de herramientas como Perplexity, es probable que veamos mejoras en estas limitaciones. Por ahora, la clave está en usarlas entendiendo sus puntos débiles.
¿Has notado alguna de estas limitaciones en tu uso de buscadores con IA? ¿Qué opinas sobre la nueva función de búsqueda de ChatGPT? ¡Cuéntame en los comentarios!
Nos vemos leemos pronto!
G