Qu’est-ce le Big Data ?

En quête de savoir, l’homme aspire à comprendre ce qui l’entoure. Mais que cherchons-nous au juste ? Nous entreprenons des recherches en biologie, en chimie, en géologie, en physique, en mathématiques… Nous souhaitons tout simplement comprendre quelle est notre place dans l’univers, ce que nous sommes vraiment, connaître ce qu’il y avait avant, analyser notre environnement actuel et faire des prévisions afin d’améliorer notre propre condition.

Comment trouver des réponses à nos questions ?

Il ne suffit pas de croire que quelque chose est juste pour que cela le soit. Avec ce raisonnement, la terre serait encore plate ! Les chercheurs organisent leur recherche en formulant et en définissant une problématique de recherche. Cela leur permet de se concentrer sur le processus de recherche afin de tirer des conclusions qui reflètent le monde réel de la meilleure façon possible.

Il y a cinq étapes : Hypothèse, Déductions par l’étude des variables, Prédictions, Observations et Tests des prédictions.

Dans le domaine de la recherche, une hypothèse est une suggestion d’explication à un phénomène. Nous formulons tous les jours de nouvelles hypothèses sur de nombreux sujets. Mais comment étudier tous les phénomènes ? Analyser des données et en déduire un schéma est solution pour formuler des prédictions. En matière de météorologie par exemple, les relevés enregistrés permettent de lister les différents comportements en fonction des variables. Ainsi, à l’aide de plusieurs relevés de données, il est possible de classer la situation en fonction d’un comportement dont on suit les règles cequi permet de formuler une prédiction qui, ensuite, sera elle-même confrontée à l’observation de la réalité et donc testée. S’il est démontré que toutes les prévisions sont exactes et fiables avec un faible pourcentage d’erreur et, l’hypothèse formulée est donc validée.

La pierre angulaire pour répondre à nos questions devient l’obtention de données dévolues dès lors, à être analysées. Et ça tombe bien, nous augmentons notre volume de données de manière exponentielle.

On recense déjà 14 milliards de dispositifs ou d’objets communiquant via internet et qui produisent 2 % des données numériques mondiales. Mais d’ici à 2020, le nombre des objets effectivement connectés devrait atteindre 32 milliards et représenter 10 % du volume total de données générées, d’après d’études IDC (International Data Corporation), premier groupe mondial de conseil et d’études sur les marchés des technologies de l’information. D’ailleurs, les pays émergents s’équipent massivement ce qui a pour corolaire que le nombre d’objets connectés augmentent lui aussi. Le volume de données ne peut être qu’en expansion rapide.

Nous avons donc des données, il faut les analyser !

Le Big Data

A ce jour, 28 % seulement des données numériques sont exploitables et 15 % seulement d’entre elles ont été analysées. Le potentiel d’informations est donc énorme. L’analyse de toutes ces données permet de déterminer des comportements de référence.

Ce sont ces phénomènes de référence qui conduisent à la réalisation de prédictions. Evidemment, les entreprises, les marchés financiers, les psychologues, tout le monde s’intéresse de très près à ces prédictions. Le marché financier de tel va secteur va s’étendre, il va faire beau demain, vous avez 85 % de chances de vous remettre pleinement de cette maladie, etc.

Le Big Data représente donc ce flux immense de données qui ne fait que s’accroître. Croiser les données, les analyser, les comprendre est le travail d’informaticiens, de mathématiciens, de docteurs, de gestionnaires, de responsables d’entreprises, de décideurs politiques, de chercheurs… Le Big Data peut également générer des inconvénients. Selon la méthode de travail d’extraction l’analyse des données, l’information peut être manipulée. Ainsi, par exemple, il peut servir pour générer un scandale politique ou constituer une bulle financière hypothétique.

L’arrivée du Big Data est maintenant présentée par de nombreux articles comme une nouvelle révolution industrielle semblable à la découverte de la vapeur (début du 19^e siècle), de l’électricité (fin du 19^e siècle) et de l’informatique (fin du 20^e siècle). D’autres, un peu plus mesurés, décrivent ce phénomène comme étant la dernière étape de la troisième révolution industrielle, laquelle est en fait celle de « l’information ». Dans tous les cas, le Big Data est considéré comme une source de bouleversements profonds de la société.

Le Big Data se présente comme une représentation graphique pour permettre à tout le monde d’accéder en temps réel à des bases de données géantes.

Les données sont fournies par l’humain et des capteurs

L’essentiel du volume d’informations généré aujourd’hui l’est encore par des humains mais, dans les prochaines années, il sera quasi exclusivement produit par des capteurs. Caméras de surveillance, sondes météo, cartes bancaires et autres télescopes géants constituent déjà des mines d’informations.

La mise en réseau des informations et les bases de données rendues publiques profitent désormais à bien des domaines. En croisant toutes les données en provenance des capteurs, du Web et de l’open data, ou donnée ouverte (donnée numérique dont l’accès et l’usage sont laissés libres aux usagers. Elle peut être d’origine publique ou privée), il est possible maintenant de faire parler les données. De nouvelles technologies d’analyse sont développées pour répondre à ce besoin.

Cette nouvelle discipline consiste à analyser ces immenses bases de données en faisant tourner des algorithmes qui vont traquer le plus infime lien entre chacun des éléments stockés, puis à livrer les informations en quelques dixièmes de seconde, pour peu que la capacité de calcul des ordinateurs impliqués dans l’opération soit suffisante. Rien de bien nouveau pour Google, habitué à jongler quotidiennement avec des pétaoctets de données pour les besoins de son moteur de recherche. Mais le géant du Web a entraîné dans son sillage nombre de grands groupes désireux de faire émerger les connaissances cachées dans leurs milliards de fichiers texte, ainsi que des entreprises appâtées par les données récoltées par les autres. Il n’est donc pas étonnant que de nombreuses start-up se soient créées autour de l’analyse du big data.

Comment connaître le comportement des téléspectateurs d’une émission ? En extrayant des données du réseau social Twitter avec des mots-clés et des hashtags spécifiques pendant la diffusion de l’émission, il est possible de générer des métadonnées décrivant ces tweets. En les comparants avec les mesures d’audience, un lien peut être établi entre la diffusion de l’émission, la réaction des téléspectateurs et leurs comportements. La société Mesagraph fournit ainsi à Canal + une modélisation de son audience. Une fois analysées, les informations sont ensuite restituées via une API (Application Programming Interface), à savoir une interface qui rend lisible de manière graphique les résultats du traitement informatique (nuage de mots-clés, camembert, etc.).

Épidémie. Santé, sécurité, consommation, transports, sciences, marketing… Les domaines d’application semblent sans limite.

Dans le secteur des assurances, le modèle du « Pay how you drive », « Payer selon votre conduite » en français débarque. Ce concept permet de réduire jusqu’à 50 % le montant de sa prime d’assurance auto grâce à une conduite vertueuse. Un logiciel extrait les données relatives à la conduite, les accélérations, les freinages brusques et les coups de volant pour déterminer la « bonne conduite ». La prime d’assurance est indexée sur ces paramètres.

Dans le secteur médical, le logiciel HealthMap traite en temps réel des données en provenance, entre autres, de l’Organisation mondiale de la santé (OMS), de Google News et bientôt de Twitter pour dresser une carte planétaire des foyers de maladies. Ce procédé permet de suivre l’évolution, par exemple, de l’épidémie de choléra en Haïti avec près de deux semaines d’avance sur les observations des autorités de santé.

Autre cas, aux Etats-Unis, un programme développé par IBM est utilisé par la police de Memphis (Tennessee) pour prédire les « zones chaudes » et réduire la criminalité, grâce au croisement de données aussi diverses que les jours de paie, le type de populations par quartier et les rencontres sportives.

Formation continue en Big Data : ce que proposent les grandes écoles

Désormais, des grandes écoles proposent des formations dans le Big Data. La pédagogie veut accorder une large part à des études de cas et retours d’expérience. Elle met aussi en exergue les « fils rouges ». Il s’agit de projets de mise en situation professionnelle que certaines grandes entreprises telles que EDF ou encore Capgemini proposent.

Ce genre de formation n’est pas limité à un cadre théorique. Les apprentis sont aussi amenés à faire des pratiques en renforçant leur formation par un stage. Pour intégrer ces écoles, il faut être un titulaire d’un diplôme d’ingénieur en informatique ou en télécommunication, ou d’un master universitaire scientifique ou technique, en informatique ou en mathématiques appliquées. Elles acceptent souvent les bac +4 scientifique à condition que la personne dispose d’au moins 3 ans d’expérience professionnelle.

Les salaires / rémunérations dans le domaine du Big Data

D’après Esilv.fr, les études de salaire des développeurs révèlent que le domaine du Big Data en 2015 est en tête.

Voici une comparaison des salaires de développeurs PHP et des salaires de développeurs en Big Data d’après Urban Linker(Cabinet de recrutement digital).

Salaires de développeurs PHP :

	PHP	PHP + Framework MVC (Zend, Symphony…)
Débutant 0 à 1an	25-30 K€	30-35 K€
Intermédiaire 1 à 2 ans	30-34 K€	35-40 K€
Confirmé 2 à 4 ans	35-40 K€	40-45 K€
Sénior 4 à 6 ans	40-45 K€	45-50 K€
Expert / Architecte 6 ans et +	45-53 K€	50-70 K€
Chef de projet 8 ans et +		45-57 K€

Salaires de développeurs en Big Data :

	Intégration / HTML5 / CSS3 / Javascript	HTML5 / CSS3 / Javascript / New framework JS + responsive design	Dev fullstack JS NodeJs + framework front (Angular, backbone)
Débutant 0 à 1an	28-32 K€	33-37 K€	36-38 K€
Intermédiaire 1 à 2 ans	32-38 K€	37-44 K€	38-45 K€
Confirmé 2 à 4 ans	38-42 K€	44-49 K€	45-50 K€
Sénior 4 à 6 ans	42-45 K€	49-56 K€	50-65 K€