Anaconda, compañía proveedora de soluciones de ciencia de datos, ha publicado “State of Data Science 2021”. Como era de esperar, el informe ha revelado que Python sigue siendo el lenguaje más utilizado en la ciencia de datos y el aprendizaje automático.
“El informe 2021 State of Data Science analiza cómo está creciendo la ciencia de datos como campo, las tendencias generales en la adopción de entornos comerciales e instituciones académicas, y qué pueden hacer los estudiantes para prepararse para el futuro”, explica el equipo de la compañía.
La adopción de modelos de aprendizaje automático por parte de las compañías cada vez es más común. Sin embargo, todavía se encuentra en una fase muy temprana, por lo que aún hay mucho margen de mejora. De momento, no son una parte esencial en la toma de decisiones empresariales, pero eso podría cambiar más pronto que tarde, cuando se optimicen estos modelos, y, al mismo tiempo, los profesionales cuenten con las herramientas y conocimientos necesarios para interpretar y explicar los datos correctamente.
Python apuntala su liderazgo en el sector
Algunos rankings recientes sitúan a Python como uno de los lenguajes más populares de la actualidad. No sólo eso: algunos, como TIOBE, prevén que podría llegar a convertirse en el número uno en cuestión de meses, superando a Java y C que han mantenido una posición predominante durante muchos años.
Al margen de sus carencias (todos las tienen), el lenguaje de Guido Van Rossum ha demostrado ser muy eficaz en los ámbitos de la ciencia de datos y el aprendizaje automático. Y esta encuesta, realizada a 4.299 profesionales del sector y estudiantes en más de 140 países, lo ha vuelto a poner de manifiesto.
De hecho, el 63% de los encuestados afirmaron que usan Python siempre (34%) o con frecuencia (29%) en su trabajo, mientras que el 71% de los educadores aseguraron que enseñan Python a sus alumnos por sus aplicaciones en la ciencia de datos y el aprendizaje automático. Asimismo, nada menos que el 88% de los estudiantes indicaron que se les estaba instruyendo en este lenguaje para acceder al sector.
SQL es el segundo lenguaje más utilizado en este campo, ya que un 35% de la muestra señaló que lo utiliza siempre (15%) o frecuentemente (20%) en su rutina laboral, seguido de R, JavaScript, HTML/CSS, Java, Bash/Shell, C/C++, C# y TypeScript. Sorprende que Julia, a menudo comparado con Python, no cuente con una mayor popularidad entre los científicos de datos.
Asimismo, el 65% dijo que sus jefes les animaron a contribuir a proyectos de código abierto, no obstante, el 18% declaró que la adopción empresarial de código abierto disminuyó debido a la situación de la pandemia. Por su parte, el 41% considera que los problemas de seguridad del software de código abierto son la principal causa por la que no se apuesta por estos modelos.
Defensores, detractores y circunstancias
La ciencia de datos maneja una cantidad ingente de información. Dejar un conjunto de datos tan colosal solamente en manos de los seres humanos supone una tarea titánica (o prácticamente imposible). Por eso, la mayoría de los encuestados (55%) no considera que el aprendizaje automático vaya a poner en riesgo sus puestos de trabajo, sino que es una herramienta muy beneficiosa y necesaria dentro de la ciencia de datos.
Aun así, el 41% se muestra indiferente y mantiene una postura neutral frente a la irrupción de los modelos de aprendizaje automático y aprendizaje automático automatizado (AutoML); mientras que el 4% se muestra preocupado por las implicaciones que esta tecnología podría tener en la ciencia de datos.
Los investigadores de Anaconda también se han interesado por saber cómo ha afectado la pandemia a la ciencia de datos. Por ello, han preguntado a los participantes del estudio si esta situación ha tenido algún impacto en las inversiones de sus organizaciones en ciencia de datos. Mientras un 37% indicó que el gasto dedicado a este campo en sus empresas ha disminuido, un 26% aseguró que ha aumentado; casi uno de cada cuatro (24%) dijo que la inversión es exactamente la misma que antes de la crisis sanitaria, y el 13% no está seguro.
La “alfabetización en datos” y otros problemas relacionados
Por otro lado, el 39% señaló que muchas de las decisiones que toman se basan en los resultados de la ciencia de datos y un 35% que solo algunas. Sin embargo, como comentamos, este es un campo con pocos años de vida. Por ello, una cuarta parte de los encuestados considera que no poseen las herramientas necesarias para realizar un análisis adecuado de los datos, así que es normal que aún no le atribuyan tanto poder a la ciencia de datos. A fin de cuentas, solo el 36% considera que los responsables de tomar decisiones en sus negocios están “alfabetizados en datos”, es decir, que saben interpretar y explicar los datos obtenidos.
Con respecto a las carencias de las empresas en este sentido, un 38% cree que la “gestión en big data” es la habilidad que más se debería pulir, mientras que un 26% considera que son necesarios los conocimientos en “matemáticas avanzadas” para mejorar en este campo y una cuarta parte comentó que hay escasez de “conocimiento empresarial”.
Del mismo modo, el estudio de Anaconda también recoge cuáles son los problemas asociados a la inteligencia artificial y al aprendizaje automático. La mayoría (31%) piensa que “los impactos sociales del sesgo en los datos y modelos” son un asunto al que se le debería dar prioridad. Seguidamente, el “impacto en la privacidad individual” es el segundo más votado. Otros problemas relacionados con esta tecnología son la pérdida de puestos de trabajo (19%), la guerra de información avanzada (15%) y la falta de diversidad e inclusión en el sector (10%).