Para definir “Data Science” (Ciencia de Datos) es (quizás) más conveniente empezar por centrar la atención en la palabra “science” (ciencia), tal como defiende Jeff Leek. Más que una disciplina, como consta en la definición de Wikipedia, es un campo interdiscipliario que utiliza métodos científicos, procesos y técnicas para la extracción de valor de los datos.
Este campo de estudio integra, de forma directa, conocimientos y técnicas de distintas áreas como: matemáticas, estadística, econometría, minería de datos e informática. E indirectamente, para aplicaciones y usos específicos, puede integrar otra serie de disciplinas y conocimientos, como por ejemplo: economía, medicina, física, química, biología, etc.
Una definición que resulta especialmente útil es la que se propone en el curso “Crash Course in Data Sciente” de Coursera: “Data science es el proceso de formular una pregunta cuantitativa que puede ser respondida con datos (recogiendo, preparando y analizando datos), y comunicar al público interesado la respuesta a la pregunta planteada.