¿Qué dicen la ciencia y la tecnología sobre la Ciencia de Datos?
Por Víctor Hugo Pérez Gómez
PREVIEW
Esta semana escuché una frase de Pamela Valdes (@PameVls en twitter), CEO y cofounder de beek.io, que decía algo así como "en la época del machine learning nuestra mejor alternativa es ser una learning machine", algo con lo que estuve profundamente de acuerdo y que, ahora, me sirve de antesala para que se enteren del propósito de este blog: aprender permanentemente, de manera objetiva, basado en datos de ciencia y tecnología, sobre los temas que me interesan y compartirlo con ustedes.
Bien, y el primer tema sobre el que estoy interesado en profundizar este 2021 es la Ciencia de Datos; y voy a suponer que, en este caso en particular, los argumentos sobre la importancia que vienen cobrando los datos, que generamos cada vez más y a los que tenemos cada vez más acceso, en cualquier aspecto en el que haya que tomar decisiones, es decir, en prácticamente cualquier cosa, son tácitos y que todos estamos de acuerdo en eso.
Está bien, me arrepentí, considerando que, tal vez, no para todos es tan obvio. Por lo que empezaremos hablando de la Ciencia de Datos, con algunos datos (en realidad será todo lo que haremos en este blog con todos los temas que abordemos): según el libro "Big data: breve manual para conocer la ciencia de datos que ya invadió nuestra vidas" de Walter Sosa Escudero, que, a su vez, cita un estudio de la consultora Cumulus Media, "en un minuto de internet 900.000 personas se conectan a Facebook, 3,5 millones de usuarios realizan búsquedas en Google, se envían 452.000 tuits, se reproducen 4,1 millones de horas de video en YouTube, se miran 70.000 horas de contenido de Netflix y se suben unas 46.200 fotos a Instagram". Y todo lo anterior, describe un comportamiento pre pandemia 2020, es decir, muy seguramente esas cifras hoy son muy superiores. Por eso es tan importante extraer valor de esa cantidad de información, que es lo que hace la Ciencia de Datos.
Bajo ese panorama, y entrando en materia, en este blog utilizaré algunas herramientas de vigilancia tecnológica, algo en lo que he trabajado algunos años como analista, para revisar qué dicen la ciencia y la tecnología sobre la ciencia de datos, a partir de revisión de: tendencias, mercado, artículos científicos que se hayan escrito sobre este tema y patentes sobre desarrollos tecnológicos relacionados; empecemos...
¿QUÉ ES ESO DE LA "CIENCIA DE DATOS"?
Me gusta mucho la definición del Journal of Data Science, que dice:
Por "ciencia de datos", nos referimos a casi todo lo que tiene que ver con los datos: recopilar, analizar, modelar ... pero la parte más importante son sus aplicaciones, todo tipo de aplicaciones.
Claro, no? No, en realidad no, para ser sincero, la definición de Wikipedia podría ayudarnos a delimitar un poco más el alcance del término:
La ciencia de datos es un "concepto para unificar estadísticas, análisis de datos y sus métodos relacionados" con el fin de "comprender y analizar fenómenos reales" con datos.
Y podríamos simplificarlo aún más tomando como ejemplo la definición un poco más informal de la Chief Decision Scientist de Google, Cassie Kozyrkov:
"La ciencia de datos es la disciplina de hacer que los datos sean útiles".
Bien, y considerando suficientes estas referencias, seguiré haciendo preguntas, para tratar de resolverlas con la última definición como premisa.
¿QUÉ DICEN LAS TENDENCIAS SOBRE LA "CIENCIA DE DATOS"?
Las búsquedas por el término "ciencia de datos" en Google fueron casi incipientes entre 2004 y 2012, año a partir del cual empezaron a incrementarse hasta alcanzar niveles de "popularidad" considerables, si valoramos el interés de los cibernautas por este campo de estudio a lo largo del tiempo.
El 14 de enero de 2021, día en el que llevo a cabo esta búsqueda, los países en donde se han realizado la mayor cantidad de búsquedas en proporción a las búsquedas totales sobre "ciencia de datos" son: India, Singapur, Santa Elena, Nepal y Ghana. Y seguro ustedes, igual que yo, se sorprendieron con la aparición en este top de los tres países más pequeños, en términos de población, de ese ranking. Pues bien, por eso la salvedad del principio del párrafo, donde se menciona que la cantidad de búsquedas no se presentan en términos absolutos, sino en "proporción a las búsquedas totales"; así, un país con 4.500 habitantes donde gran proporción de las consultas corresponde al término "ciencia de datos", como Santa Elena, reflejará una mayor puntuación que países con más de 30 millones de habitantes, como Nepal y Ghana, donde un porcentaje menor de las consultas corresponde a esta palabra.
Principalmente, con el hecho de que existe una alta demanda por científicos de datos en el mundo, por lo que las personas están buscando empleos relacionados, curioseando sobre los salarios que podrían llegar a ganar si fueran científicos de datos, o sobre cómo convertirse en uno; de esta manera, algunas de las consultas frecuentes están asociadas a cursos y grados académicos. Y, finalmente, sin lugar a dudas, también queda claro que python, como lenguaje de programación para ciencia de datos, consolida su fama.
Más tendencias
De acuerdo al portal explodingtopics.com, las 7 tendencias de ciencia de datos de más rápido crecimiento en 2021 son:
- Explosión de audio y video falso ("deep fake"), utilizando inteligencia artificial para manipular o crear contenido para representar a otra persona.
- Más aplicaciones creadas con Python, que está en camino de convertirse en el lenguaje de programación más popular en los próximos 5 años.
- Mayor demanda de soluciones de inteligencia artificial de extremo a extremo, o "end to end solution", un término que se utiliza para indicar que un proveedor de software, además de suministrar una solución, estará presente en todas las fases de interacción de un cliente con esa solución.
- Empresas que contratan más analistas de datos, debido a que se prevé que el almacenamiento global de datos crezca de 45 zettabytes a 175 zettabytes para el 2025, por lo tanto, aumentará la demanda por expertos que analicen todos estos datos.
- Científicos de datos que se unen a kaggle, la plataforma de ciencia de datos con más de 5 millones de usuarios en 194 países.
- Mayor interés en la protección de datos del consumidor, lo que podría convertirse en una "pesadilla" para la ciencia de datos, pensando en el futuro de la adquisición y uso de datos de consumidores.
- Desarrolladores de inteligencia artificial que combaten el aprendizaje automático adverso ("adversarial machine learning"), que es cuando un atacante ingresa datos en un modelo de aprendizaje automático con el objetivo de provocar errores.
MERCADO
Con base en analyticsvidhya.com, el mercado mundial de ciencia de datos se valoró en alrededor de 393 mil millones de dólares en 2019, y se espera que se expanda a una tasa de crecimiento anual compuesta (CAGR) del 26% de 2020 a 2027. En el escenario actual, una de cada 10 empresas usa más de 10 aplicaciones de inteligencia artificial que van desde un chatbot, detector de fraude y seguridad, entre otras. La mayor adopción del aprendizaje automático en todas las industrias ha demostrado cómo sus algoritmos y técnicas resuelven de manera eficiente problemas complejos del mundo real.
¿QUÉ DICE LA CIENCIA SOBRE LA "CIENCIA DE DATOS"?
La producción científica sobre el tema "ciencia de datos", en términos de número de artículos publicados entre el 2013 y 2020, ha venido creciendo a una tasa del 55% anual, lo que expone el interés de los investigadores por este tema.
La siguiente gráfica muestra la relación entre el top 20 de autores, palabras claves y fuentes de información. Como puede verse, además de "ciencia de datos", los términos más relevantes cuando se escribe sobre este tema son: machine learning, educación, big data y minería de datos.
De otro lado, se puede ver que las revistas BIG DATA, AMERICAN STATISTICIAN, INTERNATIONAL JOURNAL OF DATA SCIENCE AND ANALYTICS, BIG DATA & SOCIETY y la JOURNAL OF STATISTICS EDUCATION, son fuente de información técnica confiable, para indagar sobre aplicaciones de la ciencia de datos. Del mismo modo, los investigadores con mayor cantidad de artículos publicados en revistas de alto impacto son Jörn Lötsch, Surya Kalidindi y Chia-Yen Lee, cuyas principales áreas de investigación son farmacología, materiales y gestión de información para la industria, respectivamente.
Pero, ¿Qué más podemos extraer de la ciencia sobre las principales áreas de investigación? el siguiente mapa de clúster de palabras, construido con el método de análisis de correspondencia, contribuye en la categorización de dos grupos de palabras claves: en azul el grupo que he denominado "métodos y técnicas" y en rojo el clúster que llamaré "aplicaciones".
Otros términos que vienen ganando tracción en la última década, alrededor de la ciencia de datos, y que ayudan a entender un poco más su enfoque, son diseño, retos, impacto y predicción.
Finalmente, para cerrar este apartado, les dejo el top 10 de los artículos más citados sobre "ciencia de datos" para que puedan revisar algunas aplicaciones del tema:
1. Ciencia de datos, análisis predictivo y macrodatos: una revolución que transformará el diseño y la gestión de la cadena de suministro (2013); DOI: 10.1111/jbl.12010
2. La autocuantificación: disrupción fundamental en la ciencia de Big Data y el descubrimiento biológico (2013); DOI: 10.1089/big.2012.0002
3. La ciencia de datos y su relación con Big Data y la toma de decisiones basada en datos (2013); DOI: 10.1089/big.2013.1508
4. Calidad de datos para ciencia de datos, análisis predictivo y big data en la gestión de la cadena de suministro: una introducción al problema y sugerencias para investigación y aplicaciones (2014); DOI: 10.1016/j.ijpe.2014.04.018
5. Ciencia de datos y predicción (2013); DOI: 10.1145/2500499
6. Ciencia de datos, análisis predictivo y macrodatos en la gestión de la cadena de suministro: estado actual y potencial futuro (2015); DOI: 10.1111/jbl.12082
7. Ciencia de datos guiada por la teoría: un nuevo paradigma para el descubrimiento científico a partir de datos (2017); DOI: 10.1109/TKDE.2017.2720168
8. Servicios inteligentes para la ciencia de Big Data (2014); DOI: 10.1016/j.future.2013.07.014
9. Nuestro camino hacia una mejor ciencia en menos tiempo utilizando herramientas de ciencia de datos abiertos (2017); DOI: 10.1038/s41559-017-0160
10. Vínculos estructura-propiedad utilizando un enfoque de ciencia de datos: aplicación a un sistema compuesto de acero / inclusión no metálica (2015); DOI: 10.1016/j.actamat.2015.02.045
¿QUÉ DICE LA TECNOLOGÍA SOBRE LA "CIENCIA DE DATOS"?
Los desarrollos tecnológicos sobre el tema "ciencia de datos", en términos de número de patentes publicadas, han venido creciendo de forma exponencial durante los últimos 5 años, lo que muestra el interés de los inventores y la industria por este tema.
Mientras que las principales áreas en las que se llevan a cabo esos desarrollos están relacionadas con aplicaciones como: sistemas o métodos para la gestión de inventario o stock, por ejemplo, llenado de pedidos, aprovisionamiento, balance contra pedidos (G06Q10/087); procesamiento de datos para conversión de formato de datos desde o hacia una base de datos (G06F16/258) y para agrupamiento o clasificación de información (G06F16/285); y transmisión de información digital, a través de disposiciones para el mantenimiento, administración o gestión de redes de conmutación de paquetes, reaccionando proactivamente al cambio de calidad del servicio, por ejemplo, degradación o actualización, por reconfiguración (H04L41/5025).
Con productos y servicios que van desde software para gestionar catálogos de datos completos de grandes organizaciones de manera fácil, pasando por "creative cloud" y soluciones todo en uno para construir negocios rentables de ingresos recurrentes con gestión de relaciones comerciales en la nube, hasta ciberseguridad, supervisión del rendimiento y gestión de costes para todos los entornos inalámbricos de tecnología operativa (OT), internet de las cosas (IoT) de amplio espectro y 5G.
ALGUNAS REFLEXIONES Y OPORTUNIDADES
En alguna otra oportunidad, escribí para una revista académica un artículo en el que me pregunto si "¿el conocimiento es poder?", y luego afirmo, en el contexto de ese escrito, que una respuesta para esa pregunta sería "parcialmente". Ahora, en este contexto, el de esta entrada en mi blog, mantengo mi posición de aquella ocasión, con algunos "ajustes": el conocimiento es "una oportunidad para que, por ejemplo, los datos contribuyan" al bienestar individual y social. Pero sólo si genera una movilización alrededor del propósito de cambiar lo que haya que cambiar, empezando por uno mismo, para generar o incrementar ese bienestar. Con esta reflexión quisiera compartir algunas "conclusiones" a modo de oportunidades, sobre eso que se puede hacer para mejorar, tratando de extraer valor de todo lo identificado hasta ahora sobre "ciencia de datos":
1. Inglés. Esta primera pareciera obvia, pero no quiero dejar cabos sueltos, así que voy a subrayar el hecho de que la mayoría de fuentes de información utilizadas como insumo para la realización de este blog están en inglés. Así que, aprenderlo o consolidarlo como propósito para este 2021 es algo imprescindible.
2. Python. Apareció como palabra clave en casi todos los apartados de esta entrada, así que, después del inglés, es fundamental aprender este lenguaje (en este caso, de programación), incluso si no se es programador o desarrollador.
3. Big data, inteligencia artificial y machine learning. Estos son términos con los que hay que estar familiarizado, desde hace algunos años.
4. La nube. Es una metáfora de internet, permite almacenar y acceder a datos y programas a través de Internet en lugar del disco duro de una computadora. Lo que facilita el acceso a información de manera remota y el trabajo colaborativo en tiempo real, entre otras ventajas, pero también, vuelve más vulnerable la información que allí almacenemos; además de la dependencia a internet para poder acceder a ella.
5. Seguridad de la información. Cada día estamos, como usuarios de internet, más expuestos, en términos de la seguridad y privacidad de nuestros datos personales en la red. Incluso, por estos días, la actualización de la política de privacidad de datos llevada a cabo por WhatsApp ha causado polémica. Así que es un tema de primera importancia, tanto si somos usuarios que aceptamos el uso de datos por parte de plataformas tecnológicas, como si somos una empresa que captura información de los usuarios de nuestros servicios.
6. Objetividad basada en datos. Este punto es más una invitación: en tiempos de fake news, por favor, verificar la veracidad de cualquier información antes de compartirla es casi un deber; siempre habrá otras fuentes con las cuales contrastar! Construyamos y cuidemos la confianza en los datos de internet entre todos.
7. Aprendizaje autónomo y trabajo remoto. El crecimiento de la ciencia de datos como área con indudable alto potencial para la generación de empleo, trae consigo, entre otras cosas: la posibilidad de trabajar desde casa y la premisa de que el aprendizaje autónomo (autodidacta) y permanente será una constante. En internet se puede acceder a contenidos de alta calidad y estar conectados con expertos de cualquier parte del mundo para poder apropiar conceptos, teorías, métodos, técnicas, aplicaciones...
8. Comunidad. Finalmente, como lo escribí más arriba, el propósito de este blog es aprender permanentemente, de manera objetiva, basado en datos de ciencia y tecnología, sobre los temas que me interesan y compartirlo con ustedes. Pero, por supuesto, ese "compartirlo con ustedes" alberga una expectativa tácita: me gustaría sentir que no estoy sólo aprendiendo, así que, por favor, háganme saber lo que piensan sobre lo que escribo, incluso, corríjanme si me equivoco; y si esto que escribo les parece útil, compártanlo, tal vez, también le sirva a alguien más y, de esta manera, sólo si están de acuerdo, empecemos a construir comunidad de aprendizaje.
Por las dudas, les dejo mis redes sociales!
APÉNDICE TÉCNICO
En el apartado de tendencias utilicé Google Trends, para descubrir el interés de búsqueda.
Para la revisión científica, la base de datos de donde se extrajeron los artículos científicos fue WoS, utilizando la ecuación de búsqueda (TI=("DATA SCIENCE*")) AND IDIOMA: (English) AND TIPOS DE DOCUMENTOS: (Article) Período de tiempo: 2013-2020. Índices: SCI-EXPANDED, SSCI, A&HCI, ESCI, obteniendo como 471 resultados el día 7-01-2021:
Luego, los gráficos y análisis estadísticos fueron realizados con el software libre R-project.
Para la revisión tecnológica se utilizó la plataforma web Lens.org, buscando el término "data science" tanto en el título como en el abstract y las reclamaciones de las patentes, el día 15 de enero de 2021, obteniendo 353 resultados.













Felicitaciones Victor, muy bueno.
ResponderEliminarMuchas gracias Víctor por ser parte de todo este proceso! Abrazo.
EliminarQue buen artículo... felicitaciones
ResponderEliminarHola estimado Victor, primero que todo gracias por tomarse el tiempo de investigar sobre un tema de tendencia global y que nos debe interesar a todas las personas que hemos descubierto nuestro potencial y que sentimos que un mundo mejor es posible si la información se utiliza de la manera correcta. Leí su publicación de cabeza a pies y me parece bien estructurada la manera como da respuesta al interrogante planteado. En un mundo globalizado vemos a pioneros como Estados Unidos, China, Reino Unido e India, siempre han entendido la importancia de los datos para generar información de valor, producto del ejercicio sus países históricamente han sobresalido sobre otros ¡el tema de los datos no es nuevo! diferente han sido las técnicas y tecnologías que se han utilizado, por eso hemos avanzado más en las últimas décadas que en siglos anteriores, gracias a personas inquietas como usted que investigan sobre temas que afectan al mundo. A hora bien, es responsabilidad de cada quien consumir contenidos, ya sean de valor o no, pero sin duda eso influye en nuestro futuro como sociedad. Por último quiero decir que hay mucho por hacer y si es necesario "construir una comunidad de aprendizaje" para impactar en pro de un desarrollo sostenible.
ResponderEliminarMuchas gracias Ferney! por tomarse el tiempo de leer, pero, sobre todo, por tomarse el tiempo de compartir sus impresiones.
EliminarEl crecimiento en el desarrollo de patentes sobre ciencia de datos está directamente relacionado con la capacidad de los datacenter para gestionar grandes volúmenes de información. La optimización de estas infraestructuras será clave para sostener el avance tecnológico y garantizar el procesamiento eficiente de datos en sectores como inteligencia artificial y transmisión digital.
ResponderEliminar