« » Dieu « n’est pas mort, mais il aurait une bonne communication de service . « réalise ceci est une des nombreuses conclusions qui sont utilisés par des chercheurs de la Harvard University (USA) en interrogeant le corpus de 500 milliards de mots dans le £ 5,000,000 numérisés par Google et certaines universités américaines (Science, 17 Décembre, 2010). Les livres couvrent la période 1800 à 2000, montre clairement que l’utilisation du mot vient des années 1860 jusqu’en 1900, et puisque c’est hors d’être relativement stable, mais pas en dessous.
« Il est phénoménal», explique Jean Véronis, linguiste computationnel de l’Université d’Aix-en-Provence. En 1980, lorsque l’Anglais une numérisées corpus millions de mots (le British National Corpus, NDLR), ont déjà identifié comme une révolution. Grâce à Google, nous sommes dans un ordre de grandeur différent. »
corpus est énorme. » Lire exigent seulement les entrées de l’année 2000 à 200 mots par minute serait plus de huit ans sans interruption. Quand nous avons commencé tous les mots et expressions d’aujourd’hui étaient dix allers-retours constituent la Terre-Lune a écrit, «les chercheurs de Harvard, le projet a élaboré et instruits. À son apogée, a déclaré il ya Jean-Baptiste Michel, un jeune Français Ecole Polytechnique, 28 , et Erez Lieberman Aiden, un mathématicien, physicien et philosophe de l’Amérique.
vous travaillez dans le secret total pendant quatre ans sur ce projet. Ce sont les algorithmes et les tableaux de fréquence que chaque mot de livres numérisés doivent parler et essayer de prendre leurs voitures de cette façon, le développement des sociétés et des cultures établies permettent de traces. Les chercheurs appellent cela «culturomique » en référence à l’ensemble des sciences biologiques de nouveaux «omiques» (génomique, protéomique, métagénomique, métabolomique), le Ces dernières années, ont augmenté. La seule différence cette fois est que ce n’est pas sur les gènes ou les protéines qui ne font pas partie de notre univers familier, mais les mots que les enfants utilisent.
limite unique sur les questions de droit d’auteur pour éviter, les chercheurs avaient les mots de la bande de contexte. Nous avons donc réduit dans le corpus de mots, rugueuse pour permettre à Google à leur plus simple expression à rechercher. Une chose qui certainement historiens WinCE et des sciences sociales. ‘s
Une avalanche de nouveaux mots
Jean-Baptiste Michel et son équipe donnent un rapide aperçu de ce que vous pensez de ce nouvel outil. Premièrement, ils peuvent aussi compter dans le cours de l’histoire (ils ont pour l’anglais). Vous avez trouvé, et leur nombre est trop depuis les années 1900. Cette année, ils ont compté un total de 544 000 et 597 000 en 1950 à 1.022.000 en 2000. «L’ajout de 8500 mots par an, le nombre de mots de plus de 70% d’augmentation en 50 ans, »at-elle noté.
Bien sûr, les dictionnaires, submergé par cette avalanche de mots nouveaux. 52% des mots dans les livres de l’année 2000 sont utilisées, et non dans les deux grands dictionnaires anglo-américains contiennent. Le chef d’une d’entre eux ont également convenu qu’il n’est pas faire sans ce nouvel outil. La même chose s’applique à ses collègues de l’Encyclopedia Britannica a travaillé en étroite collaboration avec des chercheurs de Harvard.
corpus, le développement de la grammaire ainsi que des changements dans la durée de la gloire d’un siècle à l’autre titre. « Les gens sont de plus en plus célèbre qu’auparavant, mais ils sont vite oubliés», écrivent les chercheurs.
Pour stimuler l’intérêt de montrer son corps, elle a comparé anglais et en allemand au nom d’artistes juifs comme Marc Chagall. En allemand, a disparu, son nom 1936-1944 à la hauteur du nazisme et la persécution des Juifs. Ce type de recherche peut être utilisée dans tous les domaines sera exercée, de la nourriture à la place des coffret cadeau femmes dans la société à travers l’innovation technologique, les maladies, les problèmes politiques, guerres, etc. « Chaque jour est une joie de travailler sur ce projet. Il se sent un peu comme les explorateurs », explique Jean-Baptiste Michel. Il espère que le site sera bientôt de nombreux utilisateurs.
télescope de puissance
pour regarder les mots
Ce que chacun dans le projet de « préavis Googlemots», est la taille astronomique. « Il est tel un puissant télescope, les grandes choses qui n’ont jamais vu auparavant peuvent voir. Le site pourrait être une ressource fabuleuse pour les enseignants et les historiens. C’est très grave, même si elle naïf de dire que nous avons soudainement porter toute la culture humaine, car les données sont très hétérogènes », Jean Veronis, a déclaré linguistes informatique à l’Université d’Aix-en-Provence.
Réserves par Francis Chateauraynaud, sociologue au CNRS, le logiciel utilisé par les controverses qui .. notre société (OGM, nucléaire, etc) Croix partagé: «Je suis un amoureux des outils numériques dans les sciences sociales, mais je suis entièrement réservé. Nous devons attendre et voir si le changement d’échelle peut produire de la connaissance. Took les mots hors contexte, il a une vue satellite, similaire à Google Earth. C’est comme s’il n’y avait pas de lecteurs. L’intérêt de l’écoulement instantané de l’Internet et la période souhaitée, mais elle doit être capable de trouver le sens de mots. «
Que se passerait-il si les journaux et articles de magazines, des e-mails, le contenu des blogs et des forums seront inclus? On peut se demander.