Introduction au Big Data avec Apache Hadoop
à Salle DeloitteLes entreprises d'aujourd'hui produisent plus de données qu'elles ne sont capables d'en traiter. Pensez aux logs qui proviennent des applications web comme Apache, il serait impensable de vouloir les entreposer dans une base de données conventionnelle puisque ce serait trop cher du teraoctet. C'est le type de problème qui représente bien le "Big Data" et les outils de ce domaine qui ont pour but de rendre l'entreposage et le traitement de ces données plus rentable ou même profitable.
Un de ces outils est Apache Hadoop. Il consiste en un système de fichiers distribués et une implementation du cadre programmatique MapReduce (inventé par Google). Il devient maintenant possible, voir facile, d'entreposer et de traiter des teraoctets de données sans avoir recours à des serveurs spécialisés tout en utilisant du code qui peut être distribué sur 3 ou 1000 machines sans être modifié.
Cette présentation fera une introduction à ces concepts et poursuivra avec la présentation de cas d'utilisations spécifiques au domaine du web.
Les trois principales questions auxquelles la présentation répondra
- Qu'est-ce que le Big Data?
- Qu'est-ce que Hadoop?
- Est-ce que ça peut servir mon entreprise?
Biographie
Jean-Daniel Cryans occupe le poste d'ingénieur en logiciel à Cloudera depuis octobre 2012. Il travaille avec l'équipe de Storage où il aide à développer Apache HBase. Précédemment, il travaillait à StumbleUpon en tant qu’ingénieur en base de données où il participait au développement de HBase en plus de maintenir les grappes de centaines de serveurs Hadoop et HBase en production. Jean-Daniel est devenu “committer” et membre du comité de gestion du projet (PMC) Apache HBase en 2008 alors qu’il était encore étudiant à l’École de technologie supérieure (ÉTS) à Montréal. Il habite aujourd’hui avec sa femme à San Francisco.