Economie-et-Statistique-Numero-520-521-2020-INSEE

Au format Texte :

Economie Statistique Economics Statistics AND ET Varia Dossier thématique Projections de population Articles Accumulation de liquidités par les entreprises Concentration et part du travail Thematic Section Population Projections Articles Accumulation of Cash by Firms Concentration and Labour Share N° 520-521 - 2020 N° 520-521 - 2020 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS Economics Statistics AND Economie StatistiqueET Conseil scientifique / Scientific Committee Jacques LE CACHEUX, président (Université de Pau et des pays de l’Adour) Jérôme BOURDIEU (École d’économie de Paris) Pierre CAHUC (Sciences Po) Gilbert CETTE (Banque de France et École d’économie d’Aix-Marseille) Yannick L’HORTY (Université de Paris-Est - Marne la Vallée) Daniel OESCH (Life Course and Inequality Research (LINES) et Institut des sciences sociales - Université de Lausanne) Sophie PONTHIEUX (Insee) Katheline SCHUBERT (École d’économie de Paris, Université Paris I) Claudia SENIK (Université Paris-Sorbonne et École d’économie de Paris) Louis-André VALLET (Observatoire sociologique du changement-Sciences Po/CNRS) François-Charles WOLFF (Université de Nantes) Comité éditorial / Editorial Advisory Board Luc ARRONDEL (École d’économie de Paris) Lucio BACCARO (Max Planck Institute for the Study of Societies-Cologne et Département de Sociologie-Université de Genève) Antoine BOZIO (Institut des politiques publiques/École d’économie de Paris) Clément CARBONNIER (Théma/Université de Cergy-Pontoise et LIEPPSciences Po) Erwan GAUTIER (Banque de France et Université de Nantes) Pauline GIVORD (Ocde et Crest) Florence JUSOT (Université Paris-Dauphine, Leda-Legos et Irdes) François LEGENDRE (Erudite/Université Paris-Est) Claire LELARGE (Université de Paris-Sud, Paris-Saclay et Crest) Claire LOUPIAS (Direction générale du Trésor) Pierre PORA (Insee) Ariell RESHEF (École d'économie de Paris, Centre d'économie de la Sorbonne et CEPII) Thepthida SOPRASEUTH (Théma/Université de Cergy-Pontoise) La revue est en accès libre sur le site www.insee.fr. Il est possible de s’abonner aux avis de parution sur le site. La revue peut être achetée sur le site www.insee.fr, rubrique « Services / Acheter nos publications ». La revue est également en vente dans 200 librairies à Paris et en province. The journal is available in open access on the Insee website www.insee.fr. Publication alerts can be subscribed on-line. The printed version of the journal (in French) can be purchased on the Insee website www.insee.fr. © Insee Institut national de la statistique et des études économiques 88, avenue Verdier - CS 70058 - 92541 Montrouge Cedex Tél : +33 (0)1 87 69 50 00 Directeur de la publication / Director of Publication: Jean-Luc TAVERNIER Rédactrice en chef / Editor in Chief: Sophie PONTHIEUX Responsable éditorial / Editorial Manager: Pascal GODEFROY Assistant éditorial / Editorial Assistant: … Traductions / Translations: RWS Language Solutions Chiltern Park, Chalfont St. Peter, Bucks, SL9 9FG Royaume-Uni Maquette PAO et impression / CAP and printing: JOUVE 1, rue du Docteur-Sauvé, BP3, 53101 Mayenne N° 520-521 - 2020 Economie Statistique Economics Statistics AND ET Les jugements et opinions exprimés par les auteurs n’engagent qu’eux mêmes, et non les institutions auxquelles ils appartiennent, ni a fortiori l’Insee. Economie et Statistique / Economics and Statistics Numéro 520-521 – 2020 VARIA DOSSIER THÉMATIQUE : PROJECTIONS DE POPULATION 5 Introduction Laurent Toulemon, Gilles Pison et Isabelle Robert‑Bobée 9 Perspectives de population mondiale – Une vision sur le long terme Thomas Buettner 31 Projections probabilistes bayésiennes de population pour la France Vianney Costemalle 51 Évaluer les prévisions probabilistes de population Nico Keilman 69 Le vieillissement de la population française est‑il inéluctable ? Nathalie Blanpain 91 Les dimensions dans les projections mondiales : un état des lieux Anne Goujon ARTICLES 107 L’accumulation de liquidités par les sociétés non financières en France : l’effet des besoins de couverture et de la baisse des coûts de financement Marie‑Baïanne Khder et Simon Ray 131 Pouvoir de marché et part du travail Arthur Bauer et Jocelyn Boussard ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 5 DOSSIER THÉMATIQUE Projections de population Introduction Laurent Toulemon*, Gilles Pison** et Isabelle Robert‑Bobée*** Alors que l’Insee va lancer la préparation de nouvelles projections de population pour la France, ce dossier thématique est l’occasion de faire le point tant sur les résultats des projections précédentes que sur les méthodes utilisées en France et ailleurs. Pourquoi faire des projections ? Parce qu’elles présentent non pas la situation actuelle ou passée mais le futur, les projections sont une production scientifique d’un genre très particulier. Ce n’est que lorsque le futur est devenu présent puis passé que l’on peut évaluer leur « exactitude » ou leurs « erreurs », en assimilant projections et prévisions. Elles sont en fait rarement des prévisions, et toutes les projections ne sont pas faites pour se réaliser. Ainsi certaines projections présentent un avenir non souhaitable, dans le but de valoriser des actions qui permettent d’y échapper (projections anti‑réalisatrices), d’autres fixent un objectif et explorent les chemins pour y arriver (projections volontaristes). Les projections présentées ici partent toutes d’un scénario central, présenté comme le futur le plus probable au vu des connaissances actuelles, et proposent des variantes autour de ce scénario. Au moment où elles sont produites, les utilisateurs s’emparent donc du scénario central comme d’une prévision pour éclairer les actions présentes ou en proposer d’autres. Comment élaborer les scénarios ? Les scénarios sont construits le plus souvent à partir de l’analyse des tendances passées, sur une période plus ou moins longue. Des experts les examinent et proposent la meilleure manière de les prolonger. Parfois, des hypothèses peuvent être exclues a priori, et conduisent de fait à borner l’éventail des évolutions possibles. Compte‑tenu de ce qui a été observé par le passé, on imagine mal par exemple en France de considérer des scénarios avec un solde migratoire négatif (plus de sorties que d’entrées sur le territoire), ou une fécondité supérieure au seuil de remplacement de 2.1 enfants par femme. Le raffinement des hypothèses peut aller loin comme dans le cas des scénarios de mortalité des projections de l’Insee pour la France. Comme l’explique Nathalie Blanpain, elles prennent en compte pour la première fois des effets de généra‑ tions – la baisse de la mortalité s’interrompt pour les générations nées entre 1940 et 1955, avant de reprendre à un rythme soutenu pour celles nées ensuite, comme observé lors des dernières décennies. Comment gérer l’incertitude ? Autour du scénario central les projections offrent des scénarios alternatifs pour intégrer l’incertitude liée aux hypothèses. Depuis la fin du baby‑boom, toutes les projections de l’Insee montrent que le vieillissement de la popu‑ lation, entendu comme la hausse de la part des personnes âgées, est inéluctable. C’est une conséquence heureuse de l’allongement de la vie, accéléré en France par l’arrivée aux âges élevés des générations nombreuses du baby‑boom (nées entre 1946 et 1974). Les projections sont alors utiles pour prévoir les adaptations du système de santé ou des régimes de retraite. La comparaison avec les projections des voisins européens éclaire aussi le futur de la France. La confrontation avec les projections d’Eurostat pour la * Ined ; ** Ined et Laboratoire d’Eco‑anthropologie, UMR 7206 CNRS‑MNHN‑Université Paris Diderot ; *** Insee Citation: Toulemon, L., Pison, G. & Robert‑Bobée, I. (2020). Introduction to the Thematic Section on Population Projections. Economie et Statistique / Economics and Statistics, 520‑521, 5–7. https://doi.org/10.24187/ecostat.2020.520d.2028 Rappel ‑ Les jugements et opinions exprimés par les auteurs n’engagent qu’eux mêmes, et non les institutions auxquelles ils appartiennent, ni a fortiori l’Insee. DOSSIER THÉMATIQUE : PROJECTIONS DE POPULATION 6 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 France – et pour les autres pays de l’Union européenne – est riche d’enseignements. Avec la diffusion publique des avis d’experts, du détail des méthodes et des résultats, les projections de l’Insee pour la France forment un outil devenu central dans le débat public dans le pays. Quel est l’intérêt des projections probabilistes ? Les scénarios haut et bas proposés par l’Insee pour la France permettent de poser les limites de l’incertitude, tandis que les projections probabilistes intègrent l’aléa différemment : il n’y a pas de variantes mais un ensemble de scénarios construit sur des densités de probabilité. L’avantage principal de ces projections est d’offrir pour tout indicateur dérivé (par exemple la proportion de femmes parmi les personnes âgées de plus de 65 ans en 2070) non seulement une estimation centrale mais également un intervalle de confiance. Vianney Costemalle se livre à cet exercice pour la France. Outre le fait de prouver la faisabilité de ces projections en les réalisant, il montre des différences avec les projections habituelles de l’Insee. La valeur centrale de la fécondité projetée en 2070 est la même (1.95 enfant par femme) mais l’incertitude est plus forte : l’intervalle de confiance à 95 %, assimilé ici à l’écart entre hypothèse haute et hypothèse basse, est de [1.63 ; 2.26] contre [1.8 ; 2.1] pour les scénarios haut et bas ; par contre, les scénarios de mortalité sont à la fois plus pessimistes et plus resserrés: 88.4 ans et 92.0 ans pour l’espérance de vie à la naissance des hommes et des femmes en 2070, plus ou moins 1 an, contre 90 et 93 ans, plus ou moins 3 ans, dans le cas des scénarios haut et bas. Comment évaluer les projections ? Une manière d’évaluer les projections passées consiste à les comparer à l’évolution réelle. Nico Keilman a montré ailleurs que, depuis 40 ans, les projections ne se rapprochent pas de la réalité, et en a conclu qu’il est nécessaire de produire des projections probabilistes (Keilman, 2008). Il propose ici une méthode pour évaluer ce type de projections, et l’applique aux projections de trois pays, la France, la Norvège et les Pays Bas. Cela lui permet de revenir sur les projections auxquelles il avait participé il y a dix ans, et de montrer qu’elles se sont révélées plus précises que les projections officielles, sauf pour la France où les ajustements de 1999 et 2006 n’avaient pas été pris en compte correctement dans l’estimation des paramètres. Il montre également que les erreurs sont plus marquées pour les effectifs à certains âges, soit parce qu’il y a effectivement plus d’incertitude soit parce les ajustements ont porté spécifiquement sur certains âges. Comment construire les projections ? La méthode des composantes utilisée dans les projections consiste à estimer pour chaque année les soldes migratoires par sexe et âge, les décès par sexe et âge d’après les quotients de mortalité, et le nombre total de naissances sur la base du nombre de femmes en âge d’avoir des enfants et des taux de fécondité par âge. La méthode est très efficace car le sexe et l’âge des habitants sont très faciles à prévoir : les filles âgées de 10 ans en 2020 seront des femmes de 60 ans en 2070, si elles sont encore vivantes. Ces contraintes très fortes sur le sexe et l’âge permettent aux projections de population d’être beaucoup plus solides que d’autres projections (par exemple les projec‑ tions économiques) et de proposer des horizons temporels longs d’au moins 50 ans. Mais d’autres dimensions peuvent être envisagées : mode de vie résidentiel pour les projections de ménages (Jacquot, 2012), situation professionnelle pour les projections de population active (Koubi & Marrakchi, 2017), état de santé pour les projections de population dépendante (Lecroart, 2013 ; Larbi & Roy, 2019) ; elles sont réalisées traditionnellement par l’Insee ou la DREES en projetant des proportions et en les plaquant sur les résultats des projections de population. Les projections peuvent être plus complexes et dynamiques, par exemple selon la région de résidence pour les projections infra‑nationales (Desrivierre, 2017), dans lesquelles les taux de migration interne servent à établir le nombre de migrants internes, la cohérence d’ensemble étant assurée (toute sortie d’une région devenant une entrée dans une autre). Calculer des projections prenant en compte d’autres dimensions que le sexe et l’âge ? D’autres dimensions pourraient également être incluses dans les projections. C’est ce que présente Anne Goujon, en discutant les difficultés de l’exercice à partir des projections selon le niveau d’éducation. Elle passe en revue des méthodes de projection de population multi‑états et montre leur plus‑value potentielle (mesure du capital humain, rétroaction Introduction ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 7 de l’éducation sur les composantes de fécondité, migrations, mortalité). Elle traite à titre d’exemple d’autres dimensions possibles : le régime alimentaire, la langue parlée, les opinions politiques ou religieuses, le réseau familial et discute de la difficulté accrue de l’exercice quand ces différentes dimensions sont intégrées. Les projections de population mondiale des Nations Unies. Le dossier commence avec la présentation par Thomas Buettner du plus remarquable exercice de projections à ce jour, les projections de population mondiale des Nations Unies (World Population Prospects). Publiées pour leur première édition juste après la fin de la Deuxième Guerre mondiale, en 1951, ces projections sont fondées sur des estimations courantes de la population et la volonté de réfléchir sur le long terme ; les projections ont été révisées à intervalle régulier – tous les deux ans de nos jours – celles publiées en 2019 étant la 26e édition. La description des composantes et de leur évolution à l’échelle des continents donne une idée de l’effort réalisé et du chemin parcouru. Les résultats et les méthodes sont maintenant accessibles facilement et servent de référence à tous les efforts concurrents. La série des projections est très riche, qui permet à la fois de comparer les projections aux évolutions réelles pour différents pays ou continents, ou l’ensemble du monde, mais aussi les projections entre elles, leurs évolutions résultant à la fois de la révision à chaque édition de certains chiffres pour le passé et de la modification des scénarios pour le futur. Le passage à des projections probabilistes a permis de s’affranchir partiellement des hypothèses haute et basse d’une part (±0.5 enfant par femme dans tous les pays) et les intervalles de confiance utilisés dans les projections probabilistes donnent lieu à un effort important de présentation de l’incertitude et de ses limites lors de la publication des résultats. Références Desrivierre, D. (2017). D’ici 2050, la population augmenterait dans toutes les régions de métro‑ pole. Insee Première N° 1652. https://www.insee.fr/fr/statistiques/2867738 Jacquot, A. (2012). La demande potentielle de logements à l’horizon 2030 : une estimation par la croissance attendue du nombre des ménages. Ministère de l’Environnement, de l’Énergie et de la Mer, Le point sur N° 135. https://www.statistiques.developpement-durable.gouv.fr/sites/default/files/2018-10/LPS%20135.pdf Keilman, N. (2008). European demographic forecasts have not become more accurate during the past 25 years. Population and Development Review, 34, 1, 137–153. https://www.jstor.org/stable/25434662 Koubi, M. & Marrakchi, A. (2017). Projections à l’horizon 2070 - Une hausse moins soutenue du nombre d’actifs. Insee Première N° 1646. https://www.insee.fr/fr/statistiques/2844302 Larbi, K. & Roy, D. (2019). 4 millions de seniors seraient en perte d’autonomie en 2050. Insee première N° 1767. https://www.insee.fr/fr/statistiques/4196949 Lecroart, A. (2013). Personnes âgées dépendantes : projection à l’horizon 2060. DREES, Dossier solidarités santé N° 43. https://drees.solidarites-sante.gouv.fr/etudes-et-statistiques/publications/les-dossiers-de-ladrees/dossiers-solidarite-et-sante/article/projection-des-populations-agees-dependantes-deuxmethodes-d-estimation ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 9 Perspectives de population mondiale – Une vision sur le long terme World Population Prospects –A Long View Thomas Buettner* Résumé – Nul besoin de justifier l’intérêt porté à la dynamique des populations. En revanche, il faut apporter des éléments suffisants, détaillés et cohérents. Aujourd’hui, les informations abondent sur les tendances démographiques des pays, quelle que soit leur taille. Cela n’a pas toujours été le cas. Depuis la fin des années 1940, la Division de la population des Nations Unies s’efforce de collecter des éléments (parfois rares) afin de dresser un tableau de plus en plus fourni appelé « Perspectives de population mondiale ». Son évolution, au travers de 26 révisions, est le sujet de cet article. Nous commençons par tracer le contexte historique, puis présentons brièvement les composantes des changements démographiques : la fécondité, la mortalité et la migration (nette). À partir d’une reconstruction des tendances (ou estimations) passées, la Division de la population projette la population actuelle de 235 pays ou régions. La population mondiale pourrait atteindre entre 9.4 et 12.7 milliards de personnes, avec une médiane de 10.9 milliards. Nous concluons avec des suggestions d’améliorations pour l’avenir. Abstract – There is no need to justify interest in population dynamics. But there is a pertinent need for sufficient, detailed and consistent evidence. Today, there is ample information about demographic trends for countries small, exceptionally large, and in‑between. This was not always the case. Since the late 1940s, the United Nations Population Division endeavored to collect (often sparse) evidence for an increasingly complete picture known as World Population Prospects. Its evolution, through 26 revisions, is the topic of this article. It starts with the historical context, followed by brief discussions of the demographic components of change: fertility, mortality and (net) migration. Based on a reconstruction of past trends (or estimates), the Populations Division projects the population of today 235 countries or areas; the world’s population could reach between 9.4 to 12.7 billion people, with a median of 10.9 billion. The article closes with suggestions about further improvements. Codes JEL / JEL Classification: J1, J13, F22, I1 Mots‑clés : Nations Unies, estimations de population, projections,fécondité, mortalité, migration, tendances à long terme Keywords: United Nations, population estimates, projections, fertility, mortality, migration, long‑term trends *Membre du Conseil d’administration de la Deutsche Stiftung Weltbevölkerung (Fondation allemande pour la population mondiale), ancien directeur adjoint de la Division de la population des Nations Unies (planetbuettner@gmail.com) Remerciements – L’auteur remercie deux rapporteurs anonymes. Reçu en septembre 2019, accepté en juillet 2020. Traduit de la version originale anglaise Citation: Buettner, T. (2020). World Population Prospects – A Long View. Economie et Statistique / Economics and Statistics, 520‑521, 9–27. https://doi.org/10.24187/ ecostat.2020.520d.2030 Rappel ‑ Les jugements et opinions exprimés par les auteurs n’engagent qu’eux mêmes, et non les institutions auxquelles ils appartiennent, ni a fortiori l’Insee. 10 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Prologue C’est le pire de tous les temps. Nous sommes en 1944 et la Seconde Guerre mondiale a encore un an devant elle. Mais l’espoir renaît doucement. Le 19 août 1944, la résistance française entame le mouvement qui mènera à la libération de Paris une semaine plus tard. Le 3 septembre, les troupes françaises et américaines libèrent Lyon1 et les soldats britanniques libèrent Bruxelles. L’Armée rouge avait atteint Varsovie, mais le Pacifique restait le terrain de lourds combats dans la bataille des Philippines. C’est dans ces temps difficiles que l’Uni‑ versité de Chicago organise le vingtième congrès de la Fondation Norman Wait Harris (4‑8 septembre 1944) sur le thème de « L’alimentation dans les relations internatio‑ nales ». Frank Notestein, directeur de l’Office of Population Research (bureau de recherche sur la population) de l’Université de Princeton, y présente un article intitulé « Population – The Long View » qui examine les tendances de la population mondiale des trois derniers siècles et définit un cadre conceptuel pour les projections de population mondiale (Notestein, 1945). Dans cet article, il qualifie de « transitoire » la crois‑ sance de la population enregistrée à son époque et identifie trois types (ou régimes) démographiques différents représentant différentes étapes de cette croissance de la population (début du déclin, crois‑ sance transitoire et fort potentiel de croissance). Il présente également la cause démographique de la croissance transitoire (baisse de la mortalité suivie par une baisse de la fécondité) et affirme que le vieillissement (rapide) de la population est inévitable. Il conclut : « […] il semble […] que toute planification raisonnable de l’avenir doive reposer sur l’hypothèse selon laquelle le monde comptera au moins trois milliards de personnes d’ici à l’an 2000. […] La production alimentaire devra augmenter beaucoup plus rapidement que la population. La production industrielle, l’éducation, la santé publique et les gouvernements devront également avancer à grands pas. En effet, ce n’est que lorsque le niveau de vie augmente, la santé s’améliore, l’éducation se renforce et l’espoir renaît quant à l’avenir, donnant valeur et dignité à la vie des personnes, que les anciennes habitudes se perdent et que l’on peut contrôler la fécondité. […] À long terme, il est indéniable que le contrôle de la mortalité dépend obligatoirement du contrôle de la fécondité » (traduit de : Notestein, 1945, p. 57). Son « bref » résumé (de 21 pages !) a posé les bases durables de l’analyse sociale au‑delà de la démographie. Dans son article, Notestein tente d’estimer la population mondiale en l’an 2000 mais se trompe magistralement : en 2000, la population mondiale n’était pas de trois mais de six milliards de personnes. Les Nations Unies voient le jour le 24 octobre 1945. Moins d’un an après, le 3 octobre 1946, son Conseil économique et social créait la Commission de la population2 , avec le mandat de « fournir des conseils et de l’aide pour toute question affectant l’évolution de la population ou touchée par cette évolution ». La Division de la population a été créée au même moment, en tant que secrétariat de la Commission, Frank Notestein ayant été son premier Directeur. Il est vite apparu qu’il fallait établir des projec‑ tions de population. La deuxième session de la Commission de la population s’est penchée sur la nécessité des estimations et prévisions de population et a décidé de définir les priorités : « Compte tenu d’une forte demande pour la production de ces estimations et prévisions, la Commission (E/571) a établi l’ordre des priorités afin de mettre à disposition, le plus rapidement possible, les estimations et prévisions les plus essentielles aux travaux des différents organes des Nations Unies. La Commission a décidé que la première priorité était de compiler les estimations actuelles de la population totale, à une même date récente, pour tous les pays du monde. La Commission recommande également d’accorder une importance prioritaire aux esti‑ mations de population par sexe et par tranche d’âge à des dates récentes, aux prévisions de population totale par sexe et par tranche d’âge à des dates futures rapprochées (1948, 1949 et 1950) et aux prévisions à plus long terme » (traduit de : Population Commission, 1947, p. 20 et United Nations, 1948, p. 640). La notion de population mondiale n’est pas une invention du 20e  siècle. Mais c’est au 20e  siècle qu’elle sera mesurée de façon sérieuse et détaillée, à commencer par son évolution historique (Biraben, 1979, 2006; Durand, 1974). Les données empiriques éparses dont on dispose alors sur la croissance passée de la population humaine montrent que son destin n’est pas nécessairement d’augmenter de façon exponentielle (la « croissance géométrique » envisagée 1. Léon Tabah, cinquième directeur de la Division de la population des Nations Unies (de 1972 à 1984), a reçu la Médaille de la Résistance fran‑ çaise pour sa participation à la libération de Lyon. 2. Renommée « Commission de la population et du développement » en 1994 en vertu de la résolution A/RES/49/128, paragraphe 24, du 19 décembre 1994. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 11 Perspectives de population mondiale – Une vision sur le long terme par Malthus). Mais dans ce cas, que nous réserve l’avenir ? Des propositions théoriques sont alors formulées à partir de la synthèse des données empiriques passées de certains pays. On parle d’abord de « révolution démographique » (Landry, 1934) puis de « transition démographique » (Davis, 1945; Notestein, 1945). Ainsi naît l’idée d’un processus universel, d’un haut niveau vers un bas niveau de fécondité et de mortalité. À quelques exceptions près, cette idée a guidé les démographes de la Division de la population. Les « Perspectives de population mondiale » (World Population Prospects, WPP) ne cessent d’évoluer. À mesure que de nouvelles données démographiques et autres données connexes émergent, que les méthodologies s’améliorent et que la puissance des outils de calcul s’accroît, les estimations et les projections sont révisées, mises à jour, élargies puis révisées à nouveau. Les formats et les titres des produits publiés changent également, ainsi que la couverture géographique, le degré de détail démographique et les périodes de projection. À de nombreux égards, il est très difficile de comparer la version actuelle des WPP avec les versions précédentes. L’un des changements les plus significatifs est le cadre géographique et politique. Certains pays ont accédé à l’indépendance, ont changé de nom, ont divisé leurs territoires (notamment l’Union soviétique qui s’est transformée en quinze États indépendants) ou se sont unifiés ou réunifiés. L’évolution des estimations et des projections dans le temps – nous en sommes aujourd’hui à la 26e itération ou révision – témoigne de l’engagement de la communauté internationale et de la Division de la population vis‑à‑vis de son mandat initial, qui remonte aux années 1940. Dans leur version actuelle, les WPP sont une représentation impressionnante des changements démographiques enregistrés dans les 235 pays3 du monde au cours des 70 dernières années, de 1950 à 20204 . Cette représentation ne se limite pas à une simple compilation d’indicateurs démographiques pertinents. Au fil du temps, elle est devenue une reconstruction exhaustive et cohérente, sur le plan interne, du parcours démographique du monde. Elle présente un niveau de détail démographique qui aurait semblé hors d’atteinte aux premiers démographes responsables du projet. Les projections de population – partie la plus visible du projet – vont jusqu’à la fin du siècle avec le même niveau de détail. Depuis peu, les résultats des projections sont livrés accompagnés d’intervalles de prédiction, ainsi que de certains scénarios illustratifs. Cet article examine brièvement l’historique des efforts, des approches, des échecs et des succès des World Population Prospects des Nations Unies. Par manque de place, nous n’accordons pas à l’évolution de la méthodologie de projection l’attention que pourtant elle mérite5 . Les projections de population sont ici vues principalement comme un puissant outil d’analyse et de compréhension des conditions actuelles(Keyfitz, 1972), qui enrichit nos connaissances sur les futures tendances de fécondité, de mortalité et de migration6 . La référence faite aux conditions et connaissances actuelles implique obligatoirement que ces projections sont un processus évolutif. Nous prenons ici la révision de 2019 comme référence, en supposant qu’elle fournit le meilleur résumé possible des tendances démographiques passées (1950‑2020) et des projections (2020‑2100). Les futures révisions des WPP apporteront certainement d’autres changements, tant pour les estimations passées que pour les projections futures : les WPP resteront des « travaux en cours ». L’histoire des projections des Nations Unies7 ne commence pas par une projection dans l’avenir, mais par une projection dans le passé. L’étude « World Population Trends 1920‑1947 », présente ainsi, en 1949, des estimations de la population, des taux de naissance et de décès, de l’espérance de vie et de lastructure par âge de la population, pour le monde et ses régions principales depuis 1920 (United Nations, 1949, p. iii). Pour publier leurs premières projections mondiales en 1951 (United Nations, 1951), les démographes de la Division de la population ont utilisé des séries chronologiques partielles établies jusqu’en 1950, prenant cette année comme année de base8 . Dès lors, l’année 1950 marque le début des WPP. Lesrévisionssuivantes ont conservé l’année 1950 comme date de début de l’exercice mais ont adopté comme année de base l’année civile divisible par cinq la plus proche de l’année de la révision (voir l’Annexe en ligne C2). À mesure que de nouvelles 3. Comme la pratique courante le veut pour les Perspectives de population mondiale, le terme « pays » utilisé dans le présent article fait également référence aux territoires ou aux régions, selon le cas. Une classification plus détaillée est fournie dans l’Annexe en ligne C1. Le lien vers l’Annexe en ligne est à la fin de l’article. 4. La dernière révision des Perspectives de population mondiale des Nations Unies, publiée en 2019, a choisi l’année 2020 comme année de base des projections. Les données de 2020 sont bien évidemment des projections, fondées sur les données disponibles jusqu’en 2019. 5. L’Annexe en ligne C2 énumère certains des changements apportés à la méthodologie de projection. Pour la dernière version en date, voir United Nations (2019a, 2019b). 6. Caswell affirme : « Les projections de population nous informent sur les conditions actuelles [...], pas sur le comportement futur de la population » (traduit de : Caswell, 2001, p. 30). 7. Pour un parcours plus détaillé des 26 révisions passées des WPP, voir l’Annexe en ligne C2. 8. Parfois appelée « année de départ ». 12 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 données émergeaient des recensements, des statistiques de l’état civil, des enquêtes et d’autres sources, la population projetée pour la nouvelle année de base à partir de la révision devait être mise à jour. Il va de soi que la mise à jour des estimations de population de l’année de base avait un impact sur les résultats des projections. Mais elle avait également un impact sur le passé : pour maintenir l’identité comptable démographique tout au long de l’exercice de projection, il fallait également réviser les estimations de population passées et les variables démographiques associées. En d’autrestermes, la population future n’était pas la seule cible mouvante, les estimations passées en étaient une autre. La riche histoire des WPP peut être présentée de nombreusesfaçons.Laprésentationlaplus courante se concentre sur la population : taille, composition et répartition géographique. Les moteurs des changements démographiques (fécondité, mortalité et migration) reçoivent souvent moins d’attention. Dans cet article, nous les présentons en premier. Puis nous examinons, dans une deuxième section, les évolutions de la population. 1. L’évolution des estimations et des projections : composantes 1.1. Fécondité La fécondité a régulièrement – et parfois de manière spectaculaire – diminué au cours des 70 dernières années. En moyenne, le nombre d’enfants par femme est passé de 5.0 à 2.5 dans le monde entre 1950 et 2020, soit une baisse moyenne d’environ 0.2 enfant par femme par quinquennat. Cette tendance masque des écarts prononcés entre différents pays, régions et sous‑régions durant la période. Les données par grande région (tableau 1 et figure I) montrent que Tableau 1 – Estimations et projections du taux global de fécondité par grande région, 1950‑2100 Nombre d’enfants par femme Variation (%) 1950‑1955 1975‑1980 1995‑2000 2015‑2020 2045‑2050 2095‑2100 1950‑2020 2015‑2100 Monde 5.0 3.9 2.8 2.5 2.2 1.9 ‑50 ‑22 Afrique 6.6 6.6 5.4 4.4 3.1 2.1 ‑32 ‑52 Asie 5.8 4.1 2.6 2.2 1.9 1.8 ‑63 ‑18 Europe 2.7 2.0 1.4 1.6 1.7 1.8 ‑40 +10 Amérique latine 5.8 4.4 2.8 2.0 1.8 1.7 ‑65 ‑15 Amérique du Nord 3.3 1.8 2.0 1.8 1.8 1.8 ‑47 +3 Océanie 3.9 2.8 2.5 2.4 2.1 1.8 ‑39 ‑22 Source : WPP 2019. Figure I – Estimations et projections du taux global de fécondité par grande région, 1950‑2100 Afrique Asie Europe Amérique latine Amérique du Nord Océanie 1 2 3 4 5 6 7 1950 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050 2060 2070 2080 2090 2100 Nombre d’enfants par femme Monde Note : trait plein pour la médiane de l’intervalle de prédiction, pointillés pour l’intervalle de prédiction de 95 % (bornes supérieure/inférieure). Source : WPP 2019. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 13 Perspectives de population mondiale – Une vision sur le long terme si la fécondité commence à diminuer après 1950, cela n’est pas systématique ; elle affiche même une hausse temporaire en Amérique du Nord et en Océanie. Ce n’est que durant les années 1960 que la fécondité a diminué de façon continue dans la plupart des grandes régions. En Afrique, où la fécondité moyenne était la plus élevée entre 1950 et 1955, à hauteur de 6.6 enfants par femme, la fécondité n’a entamé sa phase de transition, en moyenne, que durant les années 1970. Entre 2015 et 2020 (période de base), l’Afrique affichait toujours le taux global de fécondité le plus élevé avec 4.4 enfants par femme. Danstoutesles autresrégions, la fécondité a atteint un niveau bas, aux alentours de la fécondité de remplacement ou largement en deçà (Asie, Europe, Amérique latine et Amérique du Nord). Les niveaux de fécondité moyens des grandes régions ou du monde masquent des écarts importants entre les 235 pays. Sur la période actuelle (2015‑2020), les taux de fécondité vont de 7.0 enfants par femme au Niger à 1.1 enfant par femme en République de Corée. À noter que près de la moitié des êtres humains (49 %) vivent déjà dans des pays où la fécondité est égale ou inférieure au niveau de remplacement des générations de 2.1 enfants par femme (tableau 2). Les estimations attribuent une fécondité intermédiaire (entre 2.1 et 5 enfants par femme) à 46 % de la population mondiale et une fécondité élevée (5 enfants ou plus par femme) à environ 5 % de la population mondiale, soit 11 pays. Tous les pays où la fécondité est élevée se trouvent en Afrique. Les plus grands sont le Nigéria, la République démocratique du Congo, la République‑Unie de Tanzanie et l’Ouganda. Les hypothèses relatives aux futures tendances de fécondité sont celles qui ont l’impact le plus important sur les tendances démographiques. Par rapport à la mortalité et à la migration, la fécondité est le plus puissant moteur de l’évolution de la population et est au cœur des interventions politiques. C’est également l’une des raisons pour lesquelles les données sur les régions « statistiquement sous‑développées » sont devenues disponibles rapidement et à intervalles réguliers9 . Une analyse détaillée des hypothèses de fécondité passées et des corrections qui leur ont été apportées dans les révisions ultérieures n’est pas l’objet du présent article (mais serait néanmoins intéressante). Certains démographes ont critiqué les Nations Unies pour avoir longtemps supposé que le taux de fécondité finirait par converger vers le taux de remplacement des générations(modèle des 2.1 enfants) dans les pays où la fécondité est faible. Si la théorie initiale de la transition fournit au moins des indications sur l’orientation de la fécondité vers des niveaux inférieurs, elle n’en donne pas sur la situation post‑transition. En termes de fécondité post‑transition, la situation est semblable (mais pas identique) à la situation pré‑transition démographique : en situation de pré‑transition le facteur le plus incertain est le début du déclin de la fécondité, en situation de post‑transition le niveau de la descendance finale (si tant est que ce niveau existe). La première transition démographique a montré une baisse de la fécondité, permettant d’établir des projections démographiques relativement fiables. Une fois qu’un niveau (très faible) de fécondité est atteint, la deuxième transition démographique ne donne aucune indication convaincante sur un éventuel niveau de fécondité ultime. Vallin & Caselli avaient suggéré que les projections de population mondiale deviendraient moins fiables à mesure que les différents pays progresseraient dans la transition démographique : « Au moment où ce grand changement historique qu’est la transition démographique touche à sa fin, le paradigme du même nom ne permet absolument pas de prédire l’avenir » (traduit de : Vallin & Caselli, 2006, p. 231). 9. Depuis 1984, les enquêtes démographiques et de santé (Demographic and Health Surveys), avec plus de 300 enquêtes menées dans plus de 90 pays en développement, sont une source indispensable d’informations démographiques. Les enquêtes à grappes à indicateurs multiples intro‑ duites par l’UNICEF, qui sont semblables en termes méthodologiques et tout aussi importantes (358 enquêtes menées dans 118 pays), ont collecté de nombreuses données démographiques, entre autres. Tableau 2 – Nombre de pays par niveau de fécondité et part de ces pays dans la population mondiale, 1950‑2020 Nombre de naissances par femme Nombre de pays % de la population mondiale 1950‑1955 1980‑1985 2015‑2020 1950 1980 2015 En deçà du niveau remplacement (moins de 2.1) 6 50 115 0.4 22.8 52.1 Intermédiaire (2.1 à 5) 68 94 109 34.1 60.1 43.0 Élevé (plus de 5) 161 91 11 65.5 17.1 4.9 Total 235 235 235 100 100 100 Source : WPP 2019 et calculs de l’auteur. 14 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 L’introduction d’un modèle hiérarchique bayésien pour prédire les niveaux de fécondité sur la base des tendances passées est une tentative pour gérer, entre autres, cette incertitude conceptuelle. Ce modèle introduit un niveau de fécondité ultime (faible) qui n’est plus uniforme et peut être largement inférieur au niveau de remplacement, qui n’est pas le même partout et qui est atteint à des horizons différents. Ensuite, la fécondité reste constante. Cela étant, même cette hypothèse de décrémentations proches de zéro est assortie de bornes d’incertitude, lesintervalles de prédiction, qui sont générées par le modèle. La révision de 2019 fait l’hypothèse d’une transition continue mais différenciée de la fécondité dans les pays où celle‑ci est supérieure au seuil de remplacement des générations (cf. tableau 1). Par grandes régions, l’Afrique, l’Asie, l’Amérique latine et l’Océanie enregistreraient une baisse de la fécondité à l’horizon 2100 (variante médiane). En Europe et en Amérique du Nord, la fécondité, à un niveau bas, augmenterait légèrement. D’ici à la fin de la période de projection, toutes les régions pourraient se situer au niveau de la fécondité de remplacement ou en deçà. Le nombre de pays affichant une fécondité supérieure au niveau de remplacement passerait de 124 en 2015‑2020 à seulement 21 en 2095‑2100, fin de la période de projection (tableau 3). Ces 21 pays sont toutefois susceptibles de présenter un niveau de fécondité modéré, aucun ne dépassant 2.5 enfants par femme. 1.2. Mortalité Au cours des 70 dernières années, les pays et grandes régions du monde ont connu un succès remarquable dans la réduction de la mortalité, en éliminant ou en contrôlant certaines maladies infectieuses, en stabilisant et en améliorant la santé et en améliorant les conditions de vie globales. Certes, cela ne s’est pas fait de façon homogène et les réactions ont parfois été violentes, mais les progrès en la matière sont indéniables. La révision de 2019 documente cette transition vers un taux de mortalité inférieur (figure II). La mortalité a diminué dans tous les pays et durant la plupart des quinquennats, tant pour les hommes que pour les femmes. Cette tendance globale présente des exceptions temporelles dues, dans certains pays, à des catastrophes naturelles, des famines, des guerres civiles, des conflits militaires régionaux et, surtout, à la pandémie de VIH/SIDA. Par grandes régions, ces retournements temporaires de tendance se remarquent à peine, sauf en Afrique et en Europe10. Entre 1950 et 2020, l’espérance de vie a augmenté dans le monde, en moyenne et pour les deux sexes, d’environ 25 ans (tableau 4). Sur cette période de 70 ans, les plus fortes hausses absolues ont été observées en Asie et en Afrique, respectivement +31 ans et +25.2 ans par personne en moyenne. La hausse la moins importante a été observée en Amérique du Nord (+10.4 ans), où l’espérance de vie était la plus élevée entre 1950 et 1955. La plupart des grandes régions ont conservé leur position relative (à l’exception d’un léger changement des positions entre l’Europe et l’Océanie). L’espérance de vie a stagné en Afrique entre 1985 et 2000, principalement en raison de l’épidémie de VIH/ SIDA (voir infra). Tous les pays ont contribué à cette forte réduction de la mortalité, mais à des moments et selon des rythmes très différents. Le nombre de pays où la mortalité est excessivement élevée, et où, en conséquence, l’espérance de vie est faible, de moins de 45 ans, est passé de 80 durant la période 1950‑1955 à seulement 10 trente ans plus tard, durant la période 1980‑1985. Entre 2015 et 2020, l’espérance de vie n’est inférieure à 45 ans dans aucun pays. Parallèlement, le nombre de pays où l’espérance de vie est supérieure à 75 ans est passé de 0 durant la période 1950‑1955 à 133 durant la période 2015‑2020 (tableau 5). L’importante réduction de la mortalité globale découle en grande partie d’une baisse 10. La stagnation de l’espérance de vie constatée en Europe entre 1985 et 2000 découle principalement de la hausse de la mortalité dans de nom‑ breux États indépendants de l’ancienne Union soviétique et de l’ancienne Yougoslavie. Tableau 3 – Nombre de pays par niveau de fécondité et part de ces pays dans la population mondiale, 2015‑2100 Nombre de naissances par femme Nombre de pays % de la population mondiale 2015‑2020 2045‑2050 2095‑2100 2015 2045 2095 En deçà du niveau remplacement (moins de 2.1) 121 164 214 52.1 71.1 79.5 Intermédiaire (2.1 à 5) 106 71 21 43.0 28.9 20.5 Élevé (plus de 5) 8 0 0 4.9 0.0 0.0 Total 235 235 235 100 100 100 Source : WPP 2019 et calculs de l’auteur. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 15 Perspectives de population mondiale – Une vision sur le long terme significative de la mortalité infantile et juvénile. Entre 1950 et 1955, environ un nouveau‑né sur cinq mourrait avant l’âge de 5 ans. Même en Europe, le taux de mortalité des moins de 5 ans était d’environ un enfant sur dix. La mortalité juvénile était excessivement élevée en Afrique et en Asie où, respectivement, plus d’un enfant sur trois et environ un enfant sur quatre mourait avant l’âge de 5 ans. Cette tendance a radicalement changé durant les 70 années suivantes. En Afrique, durant la période 2015‑2020, le taux de mortalité des moins de 5 ans correspondait à celui enregistré en Europe entre 1950 et 1955. En Asie, aujourd’hui, ce taux correspond à ce qu’il Figure II – Estimations d’espérance de vie pour les deux sexes, par grande région, 1950‑2100 35 40 45 50 55 60 65 70 75 80 85 90 95 1950 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050 2060 2070 2080 2090 2100 Espérance de vie (années) Amérique du Nord Europe Océanie Amérique latine Asie Afrique Monde Femmes Hommes Note : trait plein pour la médiane de l’intervalle de prédiction, pointillés pour l’intervalle de prédiction de 95 % (bornes supérieure/inférieure). Source : WPP 2019. Tableau 4 – Espérance de vie pour les deux sexes, par grande région, 1950‑2100 Espérance de vie à la naissance (années) Variation (années) 1950‑1955 1975‑1980 1995‑2000 2015‑2020 2045‑2050 2095‑2100 1950‑2020 2015‑2100 Monde 47.0 60.3 65.6 72.3 76.8 81.7 25.3 9.4 Afrique 37.5 48.8 52.3 62.7 69.6 76.2 25.2 13.6 Asie 42.3 59.2 66.6 73.3 77.9 83.7 31.0 10.5 Europe 63.7 71.1 73.1 78.3 82.7 88.8 14.6 10.5 Amérique latine 51.4 63.3 70.7 75.2 80.5 86.8 23.8 11.6 Amérique du Nord 68.7 73.3 76.7 79.2 83.4 88.9 10.4 9.8 Océanie 59.1 68.2 73.6 78.4 82.0 86.6 19.3 8.2 Source : WPP 2019. Tableau 5 – Nombre de pays par niveau de mortalité et part de ces pays dans la population mondiale, 1950‑2020 Espérance de vie à la naissance pour les deux sexes Nombre de pays % de la population mondiale 1950‑1955 1980‑1985 2015‑2020 1950 1980 2015 <45 82 11 0 57 2 0 45‑55 48 40 5 8 26 3 55‑65 72 50 35 17 15 9 65‑75 33 119 81 18 52 42 75+ 0 15 114 0 5 46 Total 235 235 235 100 100 100 Source : WPP 2019. 16 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 était en Amérique du Nord entre 1950 et 1955 (tableau 6). Cette forte réduction de la mortalité juvénile devrait se poursuivre tout au long de la période de projection, et la mortalité juvénile finirait par atteindre des niveaux très bas. Toutes les estimations documentent une transition, qui se poursuit encore dans de nombreuses régions du monde, d’une mortalité précoce à une mortalité tardive. Si la mortalité juvénile se maintient à un bas niveau, la mortalité précoce n’a pas d’impact majeur sur les projections, sauf en Afrique. Le progrès n’est pas une chose acquise. La pandémie de VIH/SIDA a engendré un retournement inattendu et significatif des tendances de mortalité. La modélisation de l’impact de cette maladie sur la mortalité, effectuée pour la première fois avec la révision de 1992, s’est révélée extrêmement difficile. Il a fallu transformer des données empiriques, en quantité limitée, en indicateurs de l’épidémie (estimations de la prévalence et de l’incidence) et en tables de mortalité, par tranche d’âge, pour les populations touchées. Dans un autre modèle de risque, les taux de mortalité des personnes infectées et non infectées ont été combinés dans une tendance de mortalité générale et dynamique. Si l’on compare les tendances d’espérance de vie du Zimbabwe entre la révision des WPP de 199211 et celle de 2019, on constate que les mesures et les modèles se caractérisent par une forte incertitude (figure III). L’impact de l’épidémie sur la mortalité a initialement été fortement sous‑estimé, puis surestimé. 11. La Division de la population des Nations Unies intègre l’impact de la pandémie de VIH/SIDA depuis la révision de 1992. À ces fins, elle a utilisé en premier lieu les informations du programme mondial de l’OMS sur le SIDA, puis celles du Programme commun des Nations Unies sur le VIH/ SIDA (ONUSIDA), créé en juillet 1994. Tableau 6 – Mortalité des moins de 5 ans, par grande région, 1950‑2100 Mortalité des moins de 5 ans (décès des moins de 5 ans pour 1 000 naissances vivantes) 1950‑1955 1975‑1980 1995‑2000 2015‑2020 2045‑2050 2095‑2100 Monde 213 124 82 40 22 12 Afrique 311 200 151 71 36 18 Asie 234 127 73 31 15 6 Europe 93 26 12 5 2 1 Amérique latine 187 92 38 19 9 4 Amérique du Nord 36 17 9 7 4 2 Océanie 94 49 34 23 12 5 Source : WPP 2019. Figure III – Estimations et projections d’espérance de vie pour le Zimbabwe depuis 1980 par révision 2019 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2015 2017 30 35 40 45 50 55 60 65 70 75 80 1980 1985 1990 1995 2000 2005 2010 2015 2020 2025 2030 2035 2040 2045 2050 Espérance de vie (années) Projections Estimations passées Projections WPP 2019 Estimations passées WPP 2019 Source : WPP de 1992 à 2019. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 17 Perspectives de population mondiale – Une vision sur le long terme Si l’on compare son impact sur l’espérance de vie au Zimbabwe à travers plusieurs révisions, la révision de 1992 prévoyait une espérance de vie de 57.3 ans, tandis que la révision de 2002 arrivait à une espérance de vie extrêmement basse de 33.1 ans. La révision de 2019, qui repose sur des éléments empiriques de meilleure qualité et sur des modèles épidémiologiques révisés, estime l’espérance de vie à 43.7 ans, pour les deux sexes, pour la période 2000‑2005. La forte variabilité des estimations et projections d’espérance de vie, qui a affecté d’autres pays souffrant beaucoup de l’épidémie, découle clairement de l’extrême rareté des données empiriques disponibles initialement sur la dynamique de l’incidence et de la prévalence du VIH/SIDA. Toutefois, toutes les révisions depuis 1992 ont fait l’hypothèse que l’épidémie serait temporaire, et de fait prévu une augmentation de l’espérance de vie. S’il s’agissait initialement d’une forme d’optimisme (institutionnel), l’hypothèse s’est révélée correcte par la suite grâce à des médicaments de plus en plus efficaces, de meilleures pratiques de test et des campagnes de prévention. La modélisation du VIH/SIDA effectuée dans le cadre des WPP montre que tout nouveau problème requiert de la patience et doit être fréquemment réexaminé. La validité des estimations ponctuelles estsouvent limitée. À cet égard, la stabilité institutionnelle de la Division de la population lui permet d’assurer l’observation, l’estimation et l’évaluation de ces phénomènes en continu12. La transition vers une mortalité plus faible est‑elle susceptible de se poursuivre ? Si oui, vers quels niveaux ? Les démographes des Nations Unies tentent d’apporter des réponses provisoires à ces questions dans leurs projections. Si l’on suppose, comme de coutume, que des progrès seront réalisés à l’avenir (en l’espèce, baisse de la mortalité), l’espérance de vie des deux sexes devrait augmenter dans le monde entier (voir figure II et tableau 7). D’ici à la période 2095‑2100, l’espérance de vie sera d’au moins 65 ans dans tous les pays et de plus de 75 ans dans la majorité d’entre eux (dans 211 pays). Sans modèles décrivant l’évolution et les tendances de la mortalité par âge, fondés principalement sur les données historiques des pays développés, il aurait été impossible de projeter la mortalité globale de tous les pays du monde. Cette dépendance à l’égard des modèles découlait – et découle toujours – de fortes lacunes en matière d’enregistrement des décès, surtout ceux des personnes adultes, dans les pays en développement. En 2007, une série d’analyses de l’OMS a mis en lumière une quasi absence de progrès entre 1970 et 2004 en matière de couverture de la mortalité adulte, surtout dans les pays en développement (AbouZahr et al., 2007, 2015; Mikkelsen et al., 2015; Setel et al., 2007). Les données empiriques sur les tendances de mortalité se sont quelque peu enrichies dans la plupart des pays en développement, principalement grâce à des enquêtes par sondage et non pas grâce à l’enregistrement des actes d’état civil. De gros efforts ont été fournis pour extraire les meilleures estimations possibles des différentes sources disponibles, mais les données restent lacunaires. Les fourchettes d’incertitude aujourd’hui attachées aux projections d’espérance de vie constituent un grand progrès, d’autant plus remarquable que, avant 2012, les révisions ne produisaient qu’une variante centrale. Sur la période de projection, la révision de 2019 fait l’hypothèse d’une hausse régulière de l’espérance de vie, mais à un rythme décroissant (cf. tableau 4). Entre 2095 et 2100, l’espérance de vie devrait atteindre environ 82 ans dans le monde, soit une hausse de plus de neuf ans. La plus forte hausse est projetée pour l’Afrique, région où le niveau de mortalité 12. Bien sûr, c’est également vrai pour l’ONUSIDA, qui assure une sensi‑ bilisation continue à la pandémie de VIH/SIDA. Tableau 7 – Nombre de pays par niveau de mortalité et part de ces pays dans la population mondiale, 2015‑2100 Espérance de vie à la naissance pour les deux sexes Nombre de pays % de la population mondiale 2015‑2020 2045‑2050 2095‑2100 2015 2045 2095 <45 0 0 0 0 0 0 45‑55 5 0 0 3 0 0 55‑65 35 9 0 9 5 0 65‑75 81 59 24 42 41 17 75+ 114 167 211 46 53 83 Total 235 235 235 100 100 100 Source : WPP 2019. 18 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 est le plus élevé durant la période de base de 2015‑2020. L’espérance de vie devrait augmenter de près de 14 ans, passant de 62.7 ans à 76.2 ans. Les régions avec une mortalité plus basse durant la période de base devraient afficher une hausse moins importante mais néanmoins conserver leurs positions de leader. 1.3. Migration internationale La migration internationale est l’élément le plus complexe de la comptabilité démographique. Dans la plupart des cas, même dans les pays disposant d’un système statistique développé, la migration internationale n’est pas enregistrée de façon suffisante, cohérente et fiable. Parmi les nombreuses raisons à cela, l’une des principales est que les pays ne s’entendent pas tous sur la définition d’un « événement de migration » et des personnes enregistrées en tant que migrants, et n’ont pas tous les mêmes procédures en la matière. En conséquence, les statistiques sur la migration internationale sont rarement compatibles au niveau mondial. Ainsi, la migration internationale n’est souvent qu’une mesure résiduelle. Pourtant, si on la considère comme un flux de personnes, elle implique au moins deux pays. La circulation des biens est mieux documentée que celle des personnes. Puisque les données sur les flux migratoires sont insuffisantes et ne sont pas assez fiables, les WPP utilisent des estimations et projections de la migration nette. La migration nette est un élément complexe car les « migrants nets » n’existent pas. Il est plus facile de comprendre le concept si on l’envisage comme une mesure résiduelle nécessaire pour obtenir l’équilibre de l’équation démographique, avec le risque toutefois d’erreurs de mesure liées aux recensements ou à l’enregistrement des naissances et des décès. Les flux de la migration internationale, contrairement à ceux de la migration nette, affectent à la fois le pays d’origine et le pays d’arrivée. Par conséquent, la migration nette exclut l’un des aspects les plus importants de la migration internationale : le lien entre le pays d’origine et le pays d’arrivée. Elle ignore les paramètres géographiques et n’est pertinente que pour le pays concerné13. Par ailleurs, elle présente souvent des tendances par âge inhabituelles ou invraisemblables. Pour les périodes passées, les WPP montrent des écarts géographiques cohérents et persistants de la migration nette entre les régions où la population augmente et celles où la population diminue en raison de la migration. Entre 1950 et 2020, la population d’Europe a augmenté d’environ 43 millions de personnes, celle d’Amérique du Nord d’environ 64 millions de personnes et celle d’Océanie de près de 8 millions de personnes. Durant la même période, l’Afrique a perdu 28 millions de personnes, l’Asie 44 millions de personnes et l’Amérique latine environ 43 millions de personnes(tableau 8). Ces chiffres globaux sont importants mais pas inquiétants. Après tout, la migration (nette) n’est qu’une composante minime de l’évolution de la population au niveau global. Toutefois, dans certains pays et pendant certaines périodes, la migration peut jouer un rôle considérable et essentiel. Si l’on exprime l’intensité migratoire nette en tant que taux brut de migration nette, c’est‑à‑dire le volume de migration nette pour 1 000 personnes14, on constate qu’elle a un impact relativement modéré sur les dynamiques démographiques (tableau 9). Les taux de migration nette sont les plus élevés dans les grandes régions où la population augmente par le biais de la migration nette (immigration nette), c’est‑à‑dire en Amérique du Nord et en Océanie, ainsi qu’en Europe. 13. Dans la mesure où la migration nette ignore les paramètres géogra‑ phiques, elle ne s’équilibre pas automatiquement au niveau mondial. Même si les grands flux migratoires étaient pris en compte pour estimer la migra‑ tion nette, il faudrait quand même équilibrer la composante « migration » pour que sa somme soit égale à zéro au niveau mondial. 14. Le taux de migration nette correspond à la moyenne par quinquennat. Tableau 8 – Estimations de migration nette par grande région, 1950‑2020 Migration nette (millions) 1950‑ 1980 1980‑ 2000 2000‑ 2020 1950‑ 2020 Monde 0.0 0.0 0.0 0.0 Afrique ‑7.2 ‑7.7 ‑12.8 ‑27.7 Asie +1.2 ‑12.4 ‑32.9 ‑44.1 Europe ‑0.9 +12.1 +31.5 +42.7 Amérique latine ‑11.6 ‑16.4 ‑14.6 ‑42.6 Amérique du Nord +16.1 +22.8 +25.3 +64.2 Océanie +2.4 +1.6 +3.4 +7.5 Source : WPP 2019. Tableau 9 – Estimations du taux de migration nette par grande région, 1950‑2020 Migration nette pour 1 000 personnes 1950‑ 1955 1975‑ 1980 1995‑ 2000 2015‑ 2020 Monde 0.00 0.00 0.00 0.00 Afrique ‑0.51 ‑0.72 ‑0.65 ‑0.37 Asie 0.14 ‑0.10 ‑0.33 ‑0.38 Europe ‑0.62 0.59 0.87 1.83 Amérique latine ‑0.52 ‑2.06 ‑1.86 ‑0.82 Amérique du Nord 1.58 3.38 6.35 3.30 Océanie 6.13 0.82 2.03 3.79 Source : WPP 2019. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 19 Perspectives de population mondiale – Une vision sur le long terme Les taux de migration nette négatifs (indiquant une diminution de la population) sont en valeur absolue largement inférieurs : moins de 1 pour 1 000 personnes. Néanmoins, la migration internationale prend de plus en plus d’importance dans la dynamique des populations, notamment lorsque la fécondité est faible ou très faible, dans un contexte de vieillissement de la population engendrant au final une diminution de cette population. De plus, la migration internationale joue également un rôle politique majeur. Quelles seront, selon les WPP, les futures tendances migratoires ? On ne s’étonnera pas que les hypothèses relatives à la migration future reflètent toujours une cruelle absence de données, de théories et même de tendances claires. Pour cette raison, les hypothèses relatives à la migration ont été assez simples. La révision de 2019 a modifié l’hypothèse d’une tendance à la baisse sur le long terme en supposant un niveau constant de migration nette pendant la majeure partie de la période de projection. La figure IV donne les niveaux globaux et la figure V les taux de migration nette des six régions géographiques du monde. Elles illustrent une certaine stagnation, sans aucune variation temporelle. Le gain découlant de la migration nette (tableau 10) est le plus important enAmérique du Nord (105 millions) et en Europe (64 millions), tandis que l’Asie enregistre la plus forte baisse due à cette migration (133 millions). En termes relatifs, par exemple en exprimant la migration nette pour 1 000 personnes, les figures illustrent les changements dus à la dynamique des populations : intensité croissante pour les populations en baisse et décroissante pour les populations en hausse. 2. Population C’est ici que toutes les pièces s’assemblent. En combinant les hypothèses relatives aux futurs niveaux de fécondité, de mortalité et de migration avec la population de base, au moyen de la méthode de projection par cohorte et composantes15, on obtient une image cohérente et détaillée de l’avenir démographique de 15. Les WPP ont utilisé la méthode par cohorte et composantes dans la plupart des révisions, mais utilisaient des méthodes plus simples avant 1963. Pour des informations plus détaillées sur les méthodes et les hypo‑ thèses, voir la frise chronologique dans l’Annexe en ligne C2. Figure IV – Projections de migration nette par grande région, 2015‑2100 -10 -8 -6 -4 -2 0 2 4 6 8 2015- 2020 2020- 2025 2025- 2030 2030- 2035 2035- 2040 2040- 2045 2045- 2050 2050- 2055 2055- 2060 2060- 2065 2065- 2070 2070- 2075 2075- 2080 2080- 2085 2085- 2090 2090- 2095 2095- 2100 Migration nette Millions Afrique Asie Europe Amérique latine et Caraïbes Amérique du Nord Océanie Monde Source : WPP 2019. Tableau 10 – Projections de migration nette par grande région, 2020‑2100 Migration nette (millions) 2020‑2050 2050‑2100 2020‑2100 Monde 0.0 0.0 0.0 Afrique ‑12.7 ‑19.8 ‑32.5 Asie ‑48.5 ‑84.4 ‑132.9 Europe 24.2 39.8 64.0 Amérique latine ‑5.8 ‑9.8 ‑15.6 Amérique du Nord 38.3 66.7 105.0 Océanie 4.4 7.5 11.9 Source : WPP 2019. 20 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 chaque pays16. Dans la mesure où la composante « migration » en tant que migration nette ignore les paramètres géographiques, le niveau global n’est pas automatiquement cohérent. En conséquence, une fois les populations de tous les pays du monde projetées, une deuxième étape, celle de la consolidation, est souvent requise pour assurer un solde migratoire nul au niveau mondial17. Les estimations de population passées font partie intégrante des 26 révisions des WPP, mais à différents degrés d’exhaustivité, de détail et de cohérence. Dans de nombreuses révisions, les estimations de population passées se limitaient à un petit nombre d’indicateurs : population par âge et par sexe à des dates quinquennales, ainsi que certains indicateurs des composantes de changement démographiques sur des périodes quinquennales. Il n’y avait aucune cohérence interne, car elle ne pouvait être obtenue que par un traitement global au moyen d’une approche par cohorte et composantes. Pas à pas, les démographes ont ramené l’année de base des estimations et des projections à 1950, afin d’assurer la cohérence entre les composantes et les chiffres de la population, et ce pour chaque tranche d’âge et sexe. Ce processus a été achevé lors de la révision de 2012, permettant de produire l’historique complet des tendances démographiques passées. Aujourd’hui, les projections et les estimations passées ne présentent qu’une seule différence : il n’y a pas de variante pour les estimations, tandis que les projections en ont plusieurs. Le processus permettant de retracer le passé et d’établir les meilleures estimations possibles pour la population de base est souvent considéré comme l’étape la plus laborieuse et longue de l’ensemble de l’exercice18. La riche histoire des estimations de population passées, entre 1950 et 2020, n’est pas du ressort de cet article. Nous nous concentrons plutôt sur la lente itération qui a conduit, dans le cadre de révisions antérieures, aux chiffres les plus récents de la population mondiale passée. Nous avons calculé la différence relative entre les estimations et projections de certaines années civiles (1950, 1980, 2000 et 2020) dans toutes les révisions passées et les chiffres publiés dans la révision de 2019. Par exemple, la révision de 1951 estime une population de 2.406 milliards de personnes en 1950 tandis que la dernière estimation établie pour 1950 dans la révision de 2019 est de 2.536 milliards de personnes. Cela représente une sous‑estimation de 5.1 % dans l’estimation 16. Rappelons que, techniquement, les projections commencent en 1950 et non pas en 2020. En d’autres termes, des projections sont utilisées dans la reconstruction démographique de la période passée 1950‑2020 mais sont appelées « estimations passées » et le terme « projection » est conservé pour la véritable période de projection, ici 2020‑2100 (qui se caractérise par des variantes de projection différentes et, dans certains cas, par des intervalles de prédiction). 17. Cette nécessité reflète en partie les flux de travail habituels de la Division de la population : les pays sont tout d’abord traités individuelle‑ ment par différents démographes, puis rassemblés au niveau global. 18. Il est raisonnable de supposer qu’entre 50 % et 80 % des travaux consacrés à chaque révision concernent l’analyse, la définition et la révi‑ sion des estimations passées, y compris la population de base de la pro‑ jection actuelle. Figure V – Taux de migration nette par grande région, 2015‑2100 2015- 2020 2020- 2025 2025- 2030 2030- 2035 2035- 2040 2040- 2045 2045- 2050 2050- 2055 2055- 2060 2060- 2065 2065- 2070 2070- 2075 2075- 2080 2080- 2085 2085- 2090 2090- 2095 2095- 2100 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Migration nette pour 1 000 personnes Afrique Asie Europe Amérique latine et Caraïbes Amérique du Nord Océanie Monde Source : WPP 2019 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 21 Perspectives de population mondiale – Une vision sur le long terme initiale par rapport à l’estimation actuelle. Les ajustements ex post effectués dans certains pays sont beaucoup plus importants (mais ne sont pas illustrés). Les ajustements relatifs apportés à la population mondiale pour les années civiles 1950, 1980, 2000 et 2015 sont indiqués à la figure VI. S’agissant de l’année civile 1950, toutes les données sont les estimations passées (révisées) de toutes les révisions, tandis que, dans le graphique montrant les données de l’an 2020, tous les points de données sont les projections des révisions passées (dont la révision de 2019). S’agissant des années 1980 et 2000, les données sont soit des projections (pour Figure VI – Atteindre les objectifs : population mondiale en 1950, 1980, 2000 et 2020, par révision Écart par rapport à la révision de 2019 1951 1954 1958 1963 1968 1973 1978 1980 1982 1984 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2015 2017 2019 -10% -5% 0% 5% 10% Révision Projections et estimations pour 1980 Écart par rapport à la révision de 2019 1951 1954 1958 1963 1968 1973 1978 1980 1982 1984 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2015 2017 2019 -30% -20% -10% 0% 10% Révision Projections et estimations pour 2000 Écart par rapport à la révision de 2019 1958 1963 1968 1973 1978 1980 1982 1984 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2015 2017 2019 -10% -5% 0% 5% 10% Révision Écart par rapport à la révision de 2019 Objectif (révision de 2019) Projections Estimations Estimations pour 1950 1973 1978 1980 1982 1984 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2015 2017 2019 Projection pour 2020 -10% -5% 0% 5% 10% Révision Source : WPP, plusieurs révisions. 22 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 les révisions effectuées avant cette année) soit des estimations (pour les révisions effectuées après cette année). À noter que toutes les révisions ont initialement sous‑prédit les années civiles 1950 et 1980, avant de converger vers les chiffres de référence de la révision de 2019. La convergence vers les chiffres de référence de la révision de 2019 pour les années civiles 2000 et 2020 présente moins de variations mais comporte des écarts positifs et négatifs. Les WPP passées ont engendré des erreurs beaucoup plus importantes dans certains pays en raison de statistiques sur la population manquantes, inexactes ou manipulées. Citons par exemple le Bhoutan, un pays de taille moyenne, et le Nigéria, un pays d’Afrique où la population est dense. Les deux pays ont dû faire l’objet de corrections importantes lors des révisions passées (figure VII). La population du Bhoutan a été largement revue à la baisse lors de la révision de 2006. Cela remonte au début des années 1970, lorsque le pays a intégré les Nations Unies et déclaré une population d’environ 1 million d’habitants, en s’appuyant sur son recensement de 1969. Les autorités n’ayant pas fait de nouveaux recensements par la suite, ce premier chiffre de 1 million a été rétropolé jusqu’en 1950 puis projeté selon des taux de croissance raisonnables. Ce n’est que durant la préparation de la révision de 2006 que de nouvelles informations, tirées du recensement de 2005, ont suggéré une surestimation importante de la population passée du Bhoutan. Le chiffre initial de 1 millions d’habitants en 1970 (selon la révision de 1973) a été corrigé à 297 000 habitants pour cette année‑là, soit moins d’un tiers. Cela a affecté la population de base des révisions suivantes. Dans la révision de 2019, le chiffre de 2020 est passé d’environ 2.1 millions d’habitants avant la révision de 2006 à 591 000 habitants (soit moins d’un quart). Les différentes révisions illustrent également une controverse de longue date quant à la « véritable » population du Nigéria. Les recensements de 1963, 1991 et 2006 ont fait l’objet d’ajustements significatifs jugés nécessaires en raison d’un sous‑dénombrement. Les grandes fluctuations des chiffres de la population estimée du Bhoutan et du Nigéria sont exceptionnelles, mais il n’en reste pas moins que des erreurs de plus petite envergure sont courantes. S’agissant de la population mondiale, de nombreuses variations s’équilibrent mutuellement. Il est toujours difficile d’établir les véritables estimations de population des différents pays. Pour projeter la population par tranche d’âge et par sexe, il faut faire des hypothèses sur l’évolution future de la fécondité, de la mortalité et de la migration19. Ces trois composantes doivent être travaillées pour toutes les tranches d’âge concernées et par sexe. Pour préparer ces composantes de la future évolution de la population, il est nécessaire de développer et d’utiliser des modèles mathématiques pour les tendances, dont celles par âge. Parallèlement, 19. Bien sûr, c’est également vrai pour les estimations passées qui sont elles‑mêmes des projections. Figure VII – Atteindre les objectifs : population totale du Bhoutan et du Nigéria en 2020, par révision Bhoutan 2020 Nigéria 2020 Écart à la révision de 2019 1998 2000 2002 2004 2006 2008 2010 2012 2015 2017 2019 -50 0 50 100 150 200 250 300 350 400 Année de révision 1988 1990 1996 1998 2000 2002 2004 2006 2008 2010 2012 2015 2017 2019 -20 -10 0 10 20 30 40 Année de révision Objectif (révision de 2019) Projections % % Source : WPP, plusieurs révisions. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 23 Perspectives de population mondiale – Une vision sur le long terme la production de projections de population est en partie influencée par des opinions d’experts, soit internes à la Division de la population, soit externes (groupes de travail, etc.). La Division de la population a également suivi les avancées technologiques – avec parfois un peu de retard – en matière de moyens de calcul (d’une unité centrale à des postes de travail en passant par des parcs de serveurs de bases de données) et de logiciels variés, souvent développés en interne. Si ces progrès technologiques ont joué un rôle important dans l’amélioration et l’expansion du champ d’application des WPP, ils ont également représenté un défi de taille pour le personnel et en termes budgétaires. Le changement a été permanent à tous les niveaux. Soulignons que c’est la population future qui suscitera le plus grand intérêt lors de la publication d’une nouvelle révision. Tant que la transition démographique ne sera pas achevée et que la dynamique démographique de nombreux pays en développement persistera, il sera facile de communiquer, tout au moins pour le moment, sur la croissance continue de la population au niveau mondial et dans certaines régions. Mais les intervalles de prédiction dorénavant attachés aux projections ordinaires des WPP suggèrent que les résultats seront moins certains qu’on ne l’escomptait précédemment. Certains arguent, en se basant sur les projections des Nations Unies, que la population mondiale continuera de croître jusqu’à la fin du siècle (Gerland et al., 2014). D’autres disent le contraire (Lutz & KC, 2010; Lutz et al., 2001). Une certain degré d’incertitude dans les projections est manifeste, et justifié. Certes, la Division de la population des Nations Unies a pendant longtemps maintenu la fécondité de remplacement (environ 2.1 enfants par femme) comme limite ultime. La vision d’une stabilisation de la population semblait être un résultat non seulement plausible et réaliste mais aussi neutre. D’autres résultats tablaient sur une croissance de la population non viable ou sur un déclin continu. Il se pourrait également que différents pays, à différentes étapes de transition démographique, acceptent plus facilement une vision de stabilisation de la population. Les projections établies par les Nations Unies pour la croissance future de la population mondiale se sont‑elles révélées exactes ? En nous concentrant sur les projections allant jusqu’aux années 2050 et 2100, nous comparons dans un premier temps les résultats des révisions passées avec ceux de la révision actuelle de 2019. Cela suppose implicitement que cette dernière projection est plus plausible que celles qui l’ont précédée, ce que l’on peut questionner, mais, compte tenu des données accumulées (auxquelles la dernière révision avait accès) et des améliorations méthodologiques, l’hypothèse est acceptable. La figure VIII présente la population mondiale totale pour les années 2050 et 2100, telle que produite dans plusieurs révisions passées. Des projections précoces à long terme (représentées par des points de données) et des projections ordinaires (représentées en trait plein) sont incluses à côté de l’année de révision comme référence. Pour cette raison, l’axe des abscisses ne montre pas les années civiles mais les années de révision. Les résultats des projections établies Figure VIII – À l’approche du futur : population mondiale en 2050 et 2100, par révision Projections pour 2050 Projections pour 2100 Écart à la révision de 2019 1973 1978 1990 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2015 2017 2019 -20 -15 -10 -5 0 5 10 15 20 Année de révision 1978 1990 1996 1998 2002 2008 2010 2012 2015 2017 2019 -20 -15 -10 -5 0 5 10 15 20 Année de révision Objectif (révision de 2019) Projections à long terme Projections % % Source : WPP de 1998 à 2019. 24 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 pour 2050 et 2100 sont comparés aux chiffres projetés de la dernière révision, en pourcentage. La figure VIII montre, pour l’année 2050, que même les projections relativement précoces (projections à long terme fondées sur la révision de 1978) étaient remarquablement proches des chiffres établis par la révision de 2019. Mais elle montre également qu’une tentative précédente, fondée sur les projections à long terme de la révision de 1973, s’était magistralement trompée, à hauteur de 15 % (soit 1.5 milliard de personnes). Les révisions ordinaires, dont la période de projection va jusqu’à 2050 ou au‑delà, tendent à sous‑projeter la population mondiale de 2050, parfois jusqu’à 8 % (révisions de 1998 et de 2002). Les trois dernières révisions (2015, 2017 et 2019) ont toutes produit des résultats semblables avec environ 9.7 milliards d’êtres humains en 2050. Une comparaison des résultats des différentes projections jusqu’en 2100 fait ressortir de plus grandes variations, dues en partie à une période de projection plus longue. La plupart des projections à long terme20 ont produit des résultats largement inférieurs aux résultats de référence de la révision de 2019. Les projections ordinaires établies jusqu’en 2100, à commencer par celles de la révision de 2010, présentent des variations relativement faibles de moins de 5 %. La figure IX montre une autre façon d’évaluer la pertinence des révisions passées par rapport aux variantes haute/basse et aux intervalles de prédiction de la révision de 2019. Les chiffres mondiaux établis pour la période 2020‑2100, par variante haute/basse et par intervalles de prédiction, illustrent l’incertitude croissante de cette projection. L’inclusion de projections à long terme (de 1978 jusqu’à la révision de 2008) et de projections ordinaires (de 2010 jusqu’à la révision de 2017) montre que, dans la plupart des projections précédemment établies pour 2100, la variante médiane est comprise dans les intervalles de prédiction de 80 % de la révision de 2019. Avant l’adoption de projections probabilistes, les Nations Unies utilisaient un outil très simple pour illustrer l’incertitude inhérente à leurs projections. La plupart de leurs révisions définissaient une variante haute et une variante basse qui, après une courte période de transition à la suite de l’année de base, ajoutait ou soustrayait 0.5 enfant à la variante de fécondité moyenne21. En d’autres termes, une fourchette d’un enfant afin de tenir compte de l’incertitude. Cette 20. Les résultats des projections à long terme des années 2050 et 2100, sont représentés par des points de données afin de les démarquer de ceux des projections ordinaires. 21. La trajectoire supposée de la mortalité future ne présente aucune variation. Figure IX – Comparaison des futurs : population mondiale jusqu’en 2100, par révision et intervalle de prédiction 1978 1990 1996 1998 2002 2008 2010 2012 2015 2017 6 7 8 9 10 11 12 13 14 15 16 2000 2025 2050 2075 2100 Population Milliards Variante haute/basse Bornes sup./inf. IP 95 % Bornes sup./inf. IP 80 % IP médian Révisions passées Source : WPP de 1998 à 2019. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 25 Perspectives de population mondiale – Une vision sur le long terme hypothèse uniforme, qui suppose une limite fixe, ignore de nombreux facteurs alimentant l’incertitude inhérente à la fécondité future. Mais sa communication et sa compréhension sont simples. Quelle comparaison peut‑on établir entre les fourchettes passées des variantes haute/ basse et les intervalles de prédiction bayésiens pour les chiffres de la population ? La réponse est mitigée. Il semble que l’intervalle de prédiction de 95 % et les variantes haute/basse traditionnelles soient semblables dans les pays où la fécondité se situe aujourd’hui à (environ) deux à trois enfants par femme. Dans les pays où la fécondité est plus élevée, les variantes haute/basse traditionnelles sous‑estiment la fourchette des résultats possibles. En revanche, dans les pays où la fécondité est inférieure au niveau de remplacement, les variantes haute/ basse surestiment l’incertitude – les intervalles de prédiction sont beaucoup plus étroits. Ces résultats sont plausibles : les pays à faible fécondité en fin de période de transition sont plus susceptibles d’afficher des variations faibles des niveaux de fécondité. Dans les pays où la transition d’une fécondité élevée à une fécondité faible se poursuit en revanche, la fourchette des variations possibles est plus large. Le tableau 11 établit une comparaison simple entre l’approche classique et l’approche probabiliste. Pour 43 pays en 2050 et 49 pays en 2100, la variante haute et la variante basse indiquent une fourchette d’incertitude dépassant l’intervalle de prédiction de 95 %. Pour un petit nombre de pays, les variantes haute/basse classiques sous‑estiment les intervalles de prédiction de 95 %. * * * Et pour la suite ? Maintenant que l’évolution de la population mondiale a été reconstruite sur les 70 dernières années (de 1950 à 2020) et que, depuis la révision de 2010, des projections de population ordinaires ont été produites jusqu’à la fin du siècle actuel, que pourrions‑nous améliorer, ajouter ou modifier ? Penchons‑nous d’abord sur ce qui devrait être conservé. La reconstruction du parcours démographique du monde (estimations passées) de 1950 à 2020 est un atout. Couvrant aujourd’hui 70 années civiles, elle constitue une base de données exhaustive, cohérente sur le plan interne et accessible, fournissant de nombreux indicateurs démographiques pour tous les pays, par âge et par sexe. Cette base de données est le fruit de plusieurs décennies d’analyses, de corrections et de mises à jour des sources empiriques existantes, ainsi que de travaux visant à combler les éventuelles lacunes dans les données. Elle devrait être non seulement maintenue mais aussi étendue. Une base de données qui remonterait jusqu’au début du 20e siècle serait une excellente nouvelle pour les historiens, les épidémiologistes, les économistes et de nombreux autres spécialistes. La Division de la population pourrait tirer parti de son expertise et des bases de données existantes (bien qu’elles soient toujours fragmentées). Il y a une tension naturelle entre les statistiques officielles et les estimations produites par des acteurs non étatiques. Les statistiques officielles, produites par des autorités gouvernementales, sont une présentation politique de la situation d’un pays. Les estimations statistiques des organisations internationales, par exemple, sont produites demanière indépendante en utilisant des sources de données supplémentaires et, parfois, des méthodologies et méthodes alternatives. Des tensions surviennent entre les statistiques officielles et les estimations indépendantes lorsque les premières sont incomplètes22 ou lorsqu’elles utilisent des concepts et des définitions qui ne 22. Les sources de désaccord entre certaines statistiques publiques et les estimations établies par la Division de la population des Nations Unies sont le traitement du sous‑dénombrement (mesuré ou déduit) des recen‑ sements, surtout parmi les enfants et parfois parmi les femmes, et la cor‑ rection rétroactive des estimations passées à la suite d’un recensement. Tableau 11 – Comparaison des variantes haute/basse de la projection de population avec des intervalles de prédiction de 95 % Nombre de pays % de la population mondiale 2050 2100 2050 2100 Les variantes haute et basse sont hors des limites de l’intervalle de 95 % 43 49 29 22 La variante haute ou la variante basse est hors des limites de l’intervalle de 95 % 51 71 13 16 Les variantes haute et basse sont dans les limites de l’intervalle de 95 % 107 81 58 62 Total 201 201 100 100 Source : WPP 2019 et calculs de l’auteur. 26 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 sont pas comparables au niveau international. Pour cette raison, la Division de la population révise fréquemment les statistiques officielles, en termes de concepts, de comparabilité et de cohérence. Dans la mesure où les estimations passées sont produites à l’aide de projections par cohorte et composantes à partir de 1950, elles garantissent une cohérence interne dans les dimensions du temps, de l’âge et du sexe. Comme nous l’avons montré, cette cohérence interne – qui est remarquable – est également constamment révisée. Ainsi, les estimations produites par la Division de la population enrichissent le système statistique international mais ne remplacent pas les statistiques officielles. Trygve Lie, premier Secrétaire général des Nations Unies, exprimait dès 1947 le besoin d’établir des estimations de population cohérentes et comparables pour les organismes des Nations Unies : « Selon nous, l’organisation centrale a une obligation spéciale. Si des estimations de population légèrement différentes étaient utilisées par différentes organisations, cela pourrait porter à confusion. Je suggère donc que, dans la mesure du possible, les Nations Unies devraient être appelées à fournir les estimations de population actuellement utilisées par toutes les organisations […]. De façon plus générale, la Division de statistique des Nations Unies sera spécifiquement responsable des flux de données de base depuis et vers les gouvernements en matière de démographie et dans d’autres domaines. La Division de statistique a également des obligations spéciales s’agissant des normes et des méthodes statistiques. La Division de la population, en revanche, est principalement responsable des enquêtes et analyses. Il y a un grand pas entre ces deux domaines, mais nous avons décidé de ne pas définir leurs frontières de façon plus précise pour l’instant. » (traduit de : United Nations, 1995, p. 870). Les statistiques officielles et les estimations produites par la Division de la population ne devraient pas être considérées comme concurrentes mais comme présentant le monde en fonction d’objectifs différents. Les WPP (surtout leurs estimations) devraient garder leur indépendance par rapport aux statistiques officielles. Que pourrions‑nous ajouter ou améliorer ? La migration a toujours été l’élément le plus problématique des projections de la population mondiale. Grâce à de récentes avancées méthodologiques (Abel, 2013, 2016; Abel & Sander, 2014; Azose & Raftery, 2019; Buettner & Muenz, 2018a, 2018b), ainsi qu’aux initiatives déployées depuis une dizaine d’années pour collecter, réviser et corriger les données de stock relatives aux migrants (à partir des recensements) et les flux migratoires (de certains pays), il est aujourd’hui possible d’inclure la migration de façon beaucoup plus transparente et pertinente en termes politiques, en tant que flux entre différents pays23. Il s’agirait là d’un projet ambitieux et exigeant en termes de ressources, et probablement d’une entreprise à long terme. La Division de la population pourrait suivre son propre exemple en recueillant patiemment et systématiquement les données, en coopération avec d’autres agences et organisations ainsi qu’avec la communauté universitaire. L’intégration des flux migratoires dans les WPP constituerait une amélioration majeure. Les projections démographiques sont nécessairement incertaines. Bien que cela soit accepté depuis le début des WPP, différentes mesures ont été prises pour tenter de tenir compte de cette incertitude. La plupart des WPP incluaient une certaine mesure de l’incertitude en calculant une variante hausse et une variante basse autour d’une variante centrale ou moyenne, et ce presque exclusivement pour les niveaux de fécondité. Cette approche très naïve reflétait l’absence de données détaillées (pour une seule année civile, par exemple) et la faible puissance de calcul de l’époque. La récente adoption d’un modèle de projection probabiliste complexe etsophistiqué24, fondé sur les modèles hiérarchiques bayésiens, constitue un progrès significatif en la matière. Mais elle a largement compliqué l’interprétation et la communication des résultats. Keyfitz avait émis des réserves quant à une mauvaise utilisation des variantes de projection, qui semblent également valides pour les projections probabilistes : « Si [...], comme c’est souvent le cas, l’utilisateur examine les résultats et choisit l’une des trois projections (faible, moyenne ou élevée) qui lui semble la plus probable, alors le démographe ne lui aura été d’aucune utilité. Autant choisir parmi une série de chiffres aléatoires » (traduit de : Keyfitz, 1981, p. 591). Mais alors comment communiquer sur cette incertitude ? Faut‑il privilégier les résultats moyens ou les marges de confiance ? La révision de 2019 a fait la tentative suivante : « Bien que 23. Lutz et al. (2014) avaient tenté pour la première fois d’inclure ces flux dans les projections de la population mondiale. 24. De nombreux démographes suggèrent depuis longtemps qu’il faut inclure des mesures de l’incertitude probabilistes et explicites dans les projections de population (Ahlburg et al., 1998; Keilman et al., 2002; Lutz & KC, 2010). ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 27 Perspectives de population mondiale – Une vision sur le long terme le scénario le plus probable soit une croissance continue de la population mondiale jusqu’à la fin du siècle actuel, on estime une probabilité de 27 % qu’elle se stabilise ou même qu’elle commence à diminuer avant 2100 ». Pour que les résultats des projections probabilistes soient plus accessibles, les démographes suggèrent que « en vue d’un changement de paradigme dans les applications pratiques des prévisions de population probabilistes, la priorité ne devrait pas être accordée aux méthodes mais à l’impact et aux conséquences possibles des décisions » (traduit de : Bijak et al., 2015, p. 542). Le traitement et la communication de l’incertitude font l’objet de travaux en cours qui demandent à être développés davantage. Les réalisations des WPP actuelles sont impressionnantes : volumes clés avec les principaux résultats, tableaux exhaustifs, profils démographiques et méthodologies, brochures de données, posters, articles techniques connexes, faits sur la population, communication en ligne de tous les résultats, base de données interactive, documentation en ligne des sources de données, graphiques interactifs, cartes thématiques et fichiers de données dans différents formats, pour l’utilisateur occasionnel ou averti. Tout cela est impressionnant, certes, mais également intensif en ressources25. La question d’un calendrier optimal pour la publication d’estimations et projections nouvelles/révisées a déjà été abordée par le passé (United Nations, 1984, p. 4). Il pourrait être utile de relancer le débat sur la manière de réagir aux nouvelles données et à des méthodologies nouvelles ou améliorées, tout en optimisant le volume et la profondeur des résultats, sous toutes leurs formes. Un lecteur attentif reconnaîtra parfois des paragraphes d’une nouvelle révision copiés verbatim d’une précédente. Il semble pertinent de recommander de limiter certaines mises à jour aux médias électroniques et de mettre à jour les versions imprimées à intervalles moins fréquents, afin d’alléger les contraintes qui pèsent sur les démographes pour produire de longs documents contenant de nombreuses répétitions. Outre le volume des résultats publiés, la fréquence des mises à jour semble également poser des problèmes à certains utilisateurs et pourrait même avoir un impact négatif sur les systèmes de collecte des données (Boerma et al., 2018). Par ailleurs, la réestimation des estimations existantes n’est pas toujours la bienvenue (Rigby et al., 2019). Les démographes des Nations Unies auront toujours du mal à trouver un bon équilibre entre l’exhaustivité, le caractère opportun et la faisabilité. En conclusion, si l’on considère un impressionnant parcours de 70 ans, qui fournit une représentation fiable de la démographie mondiale depuis 1950, ainsi que des projections de plus en plus informatives, il nous semble que les Perspectives de population mondiale de la Division de la population sont toujours un projet important et précieux qui évoluera et s’améliorera encore au fil du temps. Parce que le monde n’est pas le paradis imaginé par Pangloss. Il faut cultiver notre jardin. 25. Étonnamment, les employés qui produisent les estimations et projec‑ tions de la Division de la population sont très peu nombreux. Lien vers les Annexes en ligne : https://insee.fr/fr/statistiques/fichier/4997841/ES-520-521_ Buettner_Annexes_en_ligne.pdf BIBLIOGRAPHIE Abel, G. J. (2013). Estimating global migration flow tables using place of birth data. Demographic Research, 28(March), 505–546. https://doi.org/10.4054/DemRes.2013.28.18 Abel, G. J. (2018). Estimates of Global Bilateral Migration Flows by Gender between 1960 and 2015. International Migration Review, 52(3), 809–852. https://doi.org/10.1111/imre.12327 Abel, G. J. & Sander, N. (2014). Quantifying Global International Migration Flows. Science, 343(6178), 1520–1522. https://doi.org/10.1126/science.1248676 AbouZahr, C., Cleland, J., Coullare, F., Macfarlane, S. B., Notzon, F. C., Setel, P., … & Zhang, S. (2007). The way forward. The Lancet, 370(9601), 1791–1799. https://doi.org/10.1016/S0140-6736(07)61310-5 28 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 AbouZahr, C., de Savigny, D., Mikkelsen, L., Setel, P. W., Lozano, R. & Lopez, A. D. (2015). Towards universal civil registration and vital statistics systems: the time is now. The Lancet, 6736(15), 1407–1418. https://doi.org/10.1016/S0140-6736(15)60170-2 Ahlburg, D. A., Lutz, W. & Vaupel, J. W. (1998). Ways to Improve Population Forecasting: What Should Be Done Differently in the Future? In: D. A. Ahlburg, W. Lutz & J. W. Vaupel (Eds.), Frontiers of population forecasting, pp. 191–199. http://www.jstor.org/stable/2808056 Azose, J. J. & Raftery, A. (2019). Estimation of emigration, return migration, and transit migration between all pairs of countries. Proceedings of the National Academy of Sciences, 116(1), 116–122. https://doi.org/10.1073/pnas.1722334116 Bijak, J., Alberts, I., Alho, J. M., Bryant, J., Buettner, T., Falkingham, J., … & Smith, P. W. F. (2015). Probabilistic Population Forecasts for Informed Decision Making. Letter to the Editor. Journal of Official Statistics, 31(4), 537–544. https://doi.org/10.1515/jos-2015-0033 Biraben, J.-N. (1979). Essai sur l’évolution du nombre des hommes. Population (French Edition), 34(1), 13–25. https://doi.org/10.2307/1531855 Biraben, J.-N. (2006). The History of the Human Population from the First Beginnings to the Present Day. In: Demography: Analysis and synthesis. A treatise in demography, Vol. III, pp. 5–17. Boerma, J. T., Victora, C. & Abouzahr, C. (2018). Monitoring country progress and achievements by making global predictions: is the tail wagging the dog? The Lancet, 392(10147), 607–609. https://doi.org/10.1016/S0140-6736(18)30586-5 Buettner, T. & Muenz, R. (2018a). International Migration Projections: Methodology Brief. KNOMAD Working Paper N° 30 – Annex. Washington, D.C. Buettner, T. & Muenz, R. (2018b). Modeling Alternative Projections of International Migration. KNOMAD Working Paper N° 30. Washington, DC. https://www.knomad.org/publication/modeling-alternative-projections-international-migration Caswell, H. (2001). Matrix Population Models: Construction, Analysis, and Interpretation (Second Ed.). Sunderland, Mass.: Sinauer Associates. Davis, K. (1945). The World Demographic Transition. The Annals of the American Academy of Political and Social Science, 237(1), 1–11. https://doi.org/10.1177/000271624523700102 Durand, J. D. (1974). Historical Estimates of World Population: An Evaluation, (10). https://repository.upenn.edu/psc_penn_papers/9/ Gerland, P., Raftery, A., Sevcikova, H., Li, N., Gu, D., Spoorenberg, T., … & Wilmoth, J. R. (2014). World population stabilization unlikely this century. Science, 346(6206), 234–237. https://doi.org/10.1126/science.1257469 Keilman, N., Quang Pham, D. & Hetland, A. (2002). Why population forecasts should be probabilistic – illustrated by the case of Norway. Demographic Research, 6, 409–154. https://doi.org/10.4054/DemRes.2002.6.15 Keyfitz, N. (1972). On Future Population. Journal of the American Statistical Association, 67(338), 347–363. https://doi.org/10.1080/01621459.1972.10482386 Keyfitz, N. (1981). The Limits of Population Forecasting. Population and Development Review, 7(4), 579–593. https://doi.org/10.2307/1972799 Landry, A. (2020). La révolution démographique. Études et essais sur les problèmes de la population. Paris: Éditions de l’Ined - Collection Classiques de l’économie et de la population. Lutz, W., Butz, W. P. & KC, S. (Eds.) (2014). World population and human capital in the twenty-first century. Oxford: Oxford University Press. Lutz, W. & KC, S. (2010). Dimensions of global population projections: what do we know about future population trends and structures? Philosophical Transactions of the Royal Society B, 365, 2779–2791. https://doi.org/10.1098/rstb.2010.0133 Lutz, W., Sanderson, W. C. & Scherbov, S. (2001). The end of world population growth. Nature, 412, 543–545. https://doi.org/10.1038/35087589 Mikkelsen, L., Phillips, D. E., AbouZahr, C., Setel, P. W., de Savigny, D., Lozano, R. & Lopez, A. D. (2015). A global assessment of civil registration and vital statistics systems: monitoring data quality and progress. The Lancet, 6736(15), 1395–1406. https://doi.org/10.1016/S0140-6736(15)60171-4 Notestein, F. W. (1945). Population – The Long View. In: T. W. Schultz (Ed.), Food for the World, pp. 36–57. Chicago: University of Chicago Press. Population Commission. (1947). Report to the Economic and Social Council on the First Session of the Commission Held at Lake Success. New York, 6 to 19 February 1947. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 29 Perspectives de population mondiale – Une vision sur le long terme Rigby, M., Deshpande, S. & Blair, M. (2019). Credibility in published data sources. The Lancet, 393(10168), 225–226. https://doi.org/10.1016/S0140-6736(18)32844-7 Setel, P. W., Macfarlane, S. B., Szreter, S., Mikkelsen, L., Jha, P., Stout, S. & AbouZahr, C. (2007). A scandal of invisibility: making everyone count by counting everyone. The Lancet, 370(9598), 1569–1577. https://doi.org/10.1016/S0140-6736(07)61307-5 United Nations (1948). Yearbook of the United Nations 1947-48. Lake Success, New York: UN. https://doi.org/10.18356/72ee6d65-en United Nations (1949). World population trends, 1920-1947. New York: Department of Economic and Social Affairs, Population Division. United Nations (1951). The Past and Future Growth of World Population - A Long Range View. Population Bulletin, N°1. New York: Department of Economic and Social Affairs, Population Division. United Nations (1984). Population Projections: Methodology of the United Nations. Population Studies No. 83. New York: Department of Economic and Social Affairs. United Nations (1995). Trygve Lie on Population in the United Nations’Agenda. Population and Development Review, 21(4), 867–873. https://doi.org/10.2307/2137778 United Nations (2019a). How certain are the United Nations global population projections? Population Facts. New York: Department of Economic and Social Affairs, Population Division. https://doi.org/10.1073/pnas.1713628115 United Nations (2019b). World Population Prospects 2019: Methodology of the United Nations population estimates and projections (ST/ESA/SER.A/425). Vallin, J. & Caselli, G. (2006). The United Nations’ World Population Prospects. In: Demography: Analysis and synthesis. A treatise in demography, Vol. III, pp. 197–233. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 31 Projections probabilistes bayésiennes de population pour la France Bayesian Probabilistic Population Projections for France Vianney Costemalle* Résumé – Les projections de population sont un exercice régulier des instituts nationaux de statistique. En France, les dernières ont été produites en 2016 par l’Insee en utilisant une approche déterministe basée sur 27 scénarios différents. Dans cet article nous proposons une nouvelle approche en projetant de façon probabiliste la population et en utilisant de plus le paradigme bayésien, afin de quantifier l’incertitude sur le niveau des populations futures sans recourir à des scénarios. Selon la méthode des composantes, on projette de manière indépendante et par sexe et âge le taux de mortalité, le taux de fécondité et le solde migratoire. Ces trois composantes sont modélisées en tenant compte des données d’état civil (nombre de naissances et de décès) et des séries du solde migratoire. Les résultats montrent que la population de la France métropolitaine continuera de croître pour atteindre un niveau compris entre 66.1 millions et 77.2 millions d’habitants en 2070 avec une probabilité de 95 %. Abstract – Population projections are performed regularly by national statistics institutes. In France, the most recent projections were produced by Insee in 2016 using a deterministic approach based on 27 different scenarios. In this article, we propose a new approach which combines probabilistic population projections and a greater use of the Bayesian paradigm in order to quantify the uncertainty of future population levels without resorting to scenarios. Using the components method, the mortality rate, fertility rate and net migration are projected independently by sex and age. These three components are modelled, taking account of registry data (number of births and deaths) and net migration data series. The results reveal that the population of metropolitan France will continue to grow, reaching a level of between 66.1 million and 77.2 million inhabitants in 2070, with a probability of 95%. Codes JEL / JEL Classification : C11, C53, J11, J13, F22 Mots clés : projections probabilistes, inférence bayésienne, séries temporelles, population, mortalité, fécondité, migrations Keywords: probabilistic projections, Bayesian inference, time series, population, mortality, fertility, migration * Insee au moment de la rédaction de cet article (vianney.costemalle@sante.gouv.fr) Remerciements – L’auteur tient à remercier Julian Arbel, Junni Zhang, John Bryant, Marie Reynaud, Isabelle Robert-Bobée, Nathalie Blanpain, Guillemette Buisson, Vanessa Bellami, Catherine Beaumel ainsi que deux rapporteurs anonymes. Reçu en novembre 2017, accepté en juillet 2018. Citation: Costemalle, V. (2020). Bayesian Probabilistic Population Projections for France. Economie et Statistique / Economics and Statistics, 520‑521, 29–47.https://doi.org/ 10.24187/ecostat.2020.520d.2031 Rappel ‑ Les jugements et opinions exprimés par les auteurs n’engagent qu’eux mêmes, et non les institutions auxquelles ils appartiennent, ni a fortiori l’Insee. 32 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Les projections de population sont un exercice régulier des instituts de statistique à travers le monde ainsi que de certaines organisations internationales comme l’Organisation des Nations Unies (ONU) qui tous les deux ou trois ans depuis 1951 publie les World Population Prospects (ONU, 2017). L’intérêt des projections de population est multiple et ses utilisateurs sont nombreux. Elles servent avant tout à prévoir, sous certaines hypothèses, ce que pourrait être la population d’une région, d’un pays ou du monde entier, en nombre d’habitants ainsi qu’en structure. À court ou moyen terme, ces projections sont à la base de la planification économique et sociale comme par exemple le financement des retraites (COR, 2017) ou la construction d’infrastructures publiques. Elles sont aussi un élément essentiel dans certains autres exercices comme les projections économiques, climatiques ou environnementales. En ce qui concerne la France, les dernières projections officielles datent de 2016 (Blanpain & Buisson, 2016a et 2016b). Elles indiquent quelle sera la population en 2070 si les tendances passées se poursuivent, avec différentes variantes sur ces hypothèses (voir Blanpain dans ce numéro). Le détail des projections par régions, et notamment celles portant sur le France métropolitaine, n’est disponible que pour la période 2013‑2050. L’objectif de cet article est d’explorer une nouvelle méthode pour projeter la population de la France : les projections probabilistes. L’approche proposée est dite probabiliste car elle permet de quantifier l’incertitude sur le niveau de la population future ; elle se distingue en cela de l’approche traditionnelle qui est un ensemble de projections déterministes basées sur différents scénarios. La différence fondamentale entre ces deux approches ne tient pas tellement aux résultats euxmêmes mais plutôt à la façon dont ils sont interprétés et utilisés. Les projections probabilistes reposent sur des modèles statistiques, la plupart du temps paramétriques. L’incertitude sur certaines composantes de la population peut être captée par des termes d’erreurs, comme dans le cas des séries temporelles, mais elle peut aussi provenir d’une inférence bayésienne des paramètres du modèle. Tout l’objectif est de quantifier l’incertitude sur la population future. Pour cela, on peut utiliser l’approche stochastique, l’approche bayésienne, ou même une combinaison des deux. Dans cet article, nous utilisons des modèles stochastiques avec inférence bayésienne des paramètres. Dans une tribune libre du Journal of Official Statistics, un ensemble de démographes et d’universitaires de différents pays mentionnent les apports et les défis des projections probabilistes en démographie et appellent à plus de recherche et de pratique dans ce domaine de la part des instituts de statistique (Bijak et al., 2015). Ils soulignent le fait que les projections probabilistes ont déjà été développées et utilisées avec succès dans d’autres disciplines comme la météorologie, la climatologie ou l’aviation. Les statistiques bayésiennes mettent également du temps à pénétrer le champ de la démographie. Bien que le théorème de Bayes ait été établi il y a plus de 250 ans, ce n’est que récemment, avec l’apparition des algorithmes MCMC (Markov Chains MonteCarlo) à partir des années 1980 et avec l’explosion de la puissance de calcul des ordinateurs, que l’inférence bayésienne est mise en œuvre (Bijak & Bryant, 2016). Certains instituts de statistique ont déjà adopté la démarche visant à produire des projections démographiques probabilistes pour leurs statistiques officielles. C’est le cas en particulier des Pays‑Bas et de la Nouvelle‑Zélande. Les Pays‑Bas ont commencé à produire des projections probabilistes basées sur des méthodes stochastiques dès 1998. La Nouvelle‑Zélande communique également depuis 2012 des résultats probabilistes de projections de population (MacPherson, 2016 ; Dunstan & Ball, 2016). Enfin l’ONU, qui réalise des projections pour l’ensemble des pays, est passée d’une méthode déterministe à une méthode probabiliste en 2014 (Costemalle, 2015). De plus certaines composantes de ces projections sont basées sur l’inférence bayésienne. La très grande majorité des projections de population repose sur la méthode des composantes, qui consiste à projeter séparément les trois composantes essentielles de la dynamique des populations à savoir la fécondité, la mortalité et les migrations. La population à une période donnée est décomposée par sexe et catégories d’âge et elle est égale à la population de la période précédente à laquelle on ajoute les naissances et les immigrants et de laquelle on retire les décès et les émigrants. De cette façon on peut faire évoluer, période par période, la population et sa structure par sexe et catégories d’âge. Pour cela, il faut à chaque période, déterminer le nombre de naissances par sexe ainsi que le nombre de décès et le solde migratoire par sexe et catégorie d’âge. En ce qui concerne les naissances et les décès, les méthodes les plus répandues reposent sur la projection des taux de fécondité et des taux de mortalité. Mais les projections probabilistes de population restent un domaine de recherche actif : il n’existe pas de méthode unique, il y a ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 33 Projections probabilistes bayésiennes de population pour la France au contraire presque autant d’approches que de données qui diffèrent d’un pays à un autre. Dans cet article, nous soulignons dans une première section les différences essentielles entre les projections déterministes et les projections probabilistes, puis nous présentons quelquesunes des différentes approches qui ont été développées en démographie en ce qui concerne les projections probabilistes de population. La deuxième section est consacrée à la description des données françaises de mortalité, de fécondité et de solde migratoire, la troisième à la présentation et à la validation des modélisations retenues pour chacune des trois composantes. Enfin nous présentons les résultats des projections probabilistes ainsi obtenues pour la France, avant de discuter les hypothèses des modèles. 1. Projections déterministes, projections probabilistes et développements en démographie Prévoir l’avenir est un exercice difficile et de nombreuses méthodes se sont développées au cours des années. Les méthodes les plus récentes et sophistiquées se basent sur des modèles mathématiques qui tentent de détecter certains motifs ou invariants dans les données et de prolonger les tendances observées, tout en respectant certaines contraintes que l’on peut s’imposer. Les projections déterministes et probabilistes font toutes deux appel à un certain degré de modélisation des données observées, elles ne diffèrent que sur la nature des prévisions. 1.1. Approches déterministe et probabiliste : différentes façons d’aborder l’avenir Dans le premier cas, ce que l’on cherche à projeter dépend de façon déterministe de certains paramètres. Le choix de ces paramètres constitue une hypothèse que l’on nomme aussi scénario. On se donne alors un scénario d’évolution de ces paramètres, que l’on juge le plus probable au vu des connaissances accumulées, des avis des experts et de l’intuition. Un scénario donné correspond à une et une seule projection possible, et le rapport entre les deux est déterministe. Dans le cas où le scénario se réaliserait, la projection serait certaine. Les projections déterministes répondent donc à la question : « Que se passeraittil dans l’avenir dans le cas de l’avènement d’un tel scénario ? ». On peut ainsi formuler des scénarios extrêmes pour voir comment se comporterait alors le futur dans le cas de leur réalisation. Les projections déterministes sont donc un formidable outil pour explorer l’avenir à partir de scénarios préétablis. Toute l’incertitude de la projection repose alors sur la réalisation du scénario. On formule des scénarios possibles, mais on n’est pas en mesure de savoir avec quel degré de probabilité ils pourront se réaliser. On peut même affirmer que la probabilité de leur réalisation est nulle (si les grandeurs sont continues) ou très faible (si les grandeurs sont discrètes). Le degré de probabilité est estimé de façon intuitive et se reflète dans les termes utilisés pour décrire ces scénarios : on parle de scénario « central », pour le scénario considéré comme le plus plausible compte tenu des connaissances actuelles, et de scénarios « extrêmes ». Au contraire, les projections probabilistes sont basées sur des modèles qui essayent de tenir compte de l’incertitude résultant de l’ignorance de certains aspects des projections. Ces modèles reposent sur des hypothèses qui sont le fruit de jugements d’experts et des intuitions. Les hypothèses sousjacentes des modèles dans les projections probabilistes sont l’équivalent des scénarios dans les projections déterministes. L’avantage des projections probabilistes est de quantifier l’incertitude à partir des évolutions observées par le passé et de la propager dans le futur afin d’avoir des intervalles de confiance des projections. Ainsi l’interprétation et l’utilisation des projections probabilistes diffèrent de celles des projections déterministes. Les prévisions météorologiques utilisent par exemple depuis longtemps des projections probabilistes : on ne nous dit pas seulement s’il va pleuvoir ou non le lendemain, mais avec quelle probabilité il risque de pleuvoir (Raftery, 2014). Les événements futurs étant par nature incertains, indiquer la probabilité de leur réalisation, étant donné les connaissances actuelles, donne ainsi plus d’information qu’une projection déterministe basée sur un scénario. Les séries temporelles sont, en sciences économiques en particulier, un moyen de produire des projections probabilistes : dans le cas d’une marche aléatoire simple par exemple on sait que la variance augmente avec la racine carrée du temps. En ajoutant des termes d’erreurs dans les modèles, on peut donc créer des projections probabilistes stochastiques. Une autre manière de quantifier l’incertitude est de s’appuyer sur le paradigme bayésien. Dans ce dernier, les paramètres des modèles sont considérés comme des variables aléatoires, au même titre que les termes d’erreurs dans les modèles stochastiques. L’inférence bayésienne consiste alors à estimer la distribution a posteriori de ces paramètres, 34 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 c’estàdire après l’observation des données. Cette distribution donne des valeurs possibles des paramètres et leur degré de probabilité. Elle diffère de la distribution a priori qui est la distribution donnée par le modélisateur et qui est censée refléter la connaissance du problème avant toute observation des données. 1.2. Les projections probabilistes en démographie : des modélisations en pratique très variées On peut classer les techniques de projections de population en trois catégories (Booth, 2006). La première regroupe les méthodes basées sur l’extrapolation des tendances, qui cherchent à prolonger, de façon linéaire le plus souvent, les tendances détectées dans le passé. Elles se basent uniquement sur les données passées et ne cherchent pas à expliquer les mécanismes sousjacents d’évolution. Elles se révèlent souvent efficaces. La deuxième façon de projeter la population est de se fixer des tendances de long terme. Ces méthodes sont basées sur le fait que l’on s’attend à ce que l’avenir se déroule d’une certaine manière. Cela peut être justifié par des avis d’experts, qui évaluent ce que l’on pourrait attendre pour le futur compte tenu de leurs connaissances actuelles, ou par des intentions de personnes, comme celles mesurées par les enquêtes d’intentions de fécondité (Régnier‑Loilier & Vignoli, 2011). Enfin, la dernière catégorie de projection comprend les modèles structurels, qui essayent d’expliquer les mécanismes d’évolution avec des variables exogènes. Il faut alors projeter ces variables exogènes selon l’une des trois catégories de projection. Souvent, les approches proposées mêlent plusieurs de ces techniques et les techniques utilisées diffèrent selon les composantes (mortalité, fécondité et migration) que l’on souhaite projeter. Une méthode classique de projection de la mortalité a été développée par Lee & Carter (1992) et consiste à décomposer l’évolution du logarithme des taux de mortalité en un effet de l’âge et un effet du temps, spécifique à chaque âge. L’effet temporel est ensuite considéré comme une série temporelle dont on estime les paramètres. Par calculs ou par la simulation, un très grand nombre de fois, des valeurs futures de cet effet temporel en faisant appel à la modélisation retenue, il est possible d’avoir une projection probabiliste. L’idée essentielle de cette approche est de capter dans les données les évolutions régulières et d’extrapoler ces régularités. La méthode de LeeCarter a depuis été utilisée très fréquemment pour projeter la mortalité, mais aussi pour projeter la fécondité et les migrations. Wiśniowski et al. (2015) en proposent une version plus étendue, en ajoutant un effet de génération, que l’on peut appliquer aux trois composantes des variations de la population. Ces auteurs proposent de plus de réaliser ces projections dans un cadre entièrement bayésien. Le modèle de LeeCarter a également été généralisé par Hyndman & Ullah (2007) qui décomposent le logarithme des taux de mortalité, ou de fécondité, en composantes principales et qui prolongent les coefficients de chacune de ces composantes à l’aide de séries temporelles. Hyndman & Booth (2006) suggèrent de plus de réaliser une transformation de Box et Jenkins sur les taux étudiés afin de généraliser la transformation logarithmique. Cette approche est entièrement stochastique. Tout l’intérêt des projections probabilistes est de pouvoir quantifier le degré de probabilité des projections futures. C’est ainsi qu’en 2001, Lutz et al. (2001) annoncent qu’il est probable que la population mondiale cesse de croître d’ici la fin du siècle. Plus précisément, leurs modèles stochastiques et leurs calculs prévoient que la population mondiale pourrait commencer à décroître d’ici la fin du siècle avec une probabilité de 85 %. L’ONU, qui publie régulièrement des projections de population, a commencé à utiliser une méthode probabiliste et bayésienne à partir de 2014. Les résultats donnent un aperçu différent de l’évolution de la population à long terme. Ils montrent en effet que la fin de la croissance mondiale de population est improbable d’ici à 2100 (Gerland et al., 2014). La méthodologie est différente de celle de Lutz et al. (2001) : les grandeurs agrégées que sont l’espérance de vie à la naissance et l’indicateur conjoncturel de fécondité (ICF) sont projetées directement dans un premier temps, avant de décomposer ces indicateurs en taux de mortalité par sexe et âge et en taux de fécondité par âge. Pour projeter l’espérance de vie, le gain d’espérance de vie tous les cinq ans est modélisé par une double fonction logit, dépendant de l’espérance de vie actuelle et de nombreux paramètres. Ces paramètres sont estimés par inférence bayésienne, ce qui conduit à avoir une distribution a posteriori des gains d’espérance de vie, et donc une distribution a posteriori de l’espérance de vie elle‑même à l’horizon 2100 (Raftery et al., 2013). Ceci est l’exemple d’une projection probabiliste ne faisant pas intervenir de termes stochastiques, mais étant uniquement basée sur une modélisation paramétrique et une inférence bayésienne. L’ICF est quant à lui modélisé selon un processus d’évolution en trois phases : phase ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 35 Projections probabilistes bayésiennes de population pour la France de haute fécondité, phase de déclin rapide de la fécondité jusqu’en dessous du seuil de renouvellement des générations, et phase de stagnation de la fécondité avec une convergence à long terme vers un niveau à 2.1 enfants par femme (Alkema et al., 2010). Il apparaît donc que de nombreux modèles existent pour projeter chacune des trois composantes. Partant du principe qu’aucun modèle ne peut à lui seul rendre compte de l’ensemble des hypothèses possibles sur l’évolution de la mortalité, surtout lorsque ces hypothèses ne sont pas cohérentes entre elles, Kontis et al. (2017) se sont servi de 21 modèles différents de projections probabilistes, dont les résultats ont ensuite été pondérés selon la performance de chacun des modèles, pour au final déboucher sur une seule distribution de probabilité pour les indicateurs souhaités. 2. Les données pour la France Afin de disposer de séries longues, on se restreint au champ de la France métropolitaine. On dispose ainsi pour les années 1962 à 2013, de façon détaillée par sexe et âge, du total de la population au 1er janvier de chaque année, du solde migratoire annuel, du nombre de décès et du nombre de naissances selon l’âge de la mère1 . Nous choisissons le même horizon de projection que celui qui a été retenu pour les dernières projections officielles de la France (Blanpain & Buisson, 2016b). L’objectif est donc de projeter la population de 2014 à 2070. De 1962 jusqu’à 1998, les données ne sont pas détaillées par âge audelà de 100 ans. À partir de 1999 elles sont ventilées en détail jusqu’à l’âge de 110 ans. Nous retenons des tranches d’âge d’un an, car les données sont disponibles, et créons une tranche d’âge supérieure, correspondant aux personnes de 100 ans et plus. Dans la suite de cette section, nous décrivons les données du solde migratoire, de la mortalité et de la fécondité, pour en dégager les invariants, les tendances, et aussi les irrégularités. Le solde migratoire est, pour une année donnée, le nombre de personnes vivant hors de la France métropolitaine, quelle que soit leur nationalité, venant habiter en France, moins le nombre de personnes vivant en France métropolitaine et allant vivre en dehors du territoire. C’est sans doute la composante la plus difficile à mesurer, car bien que l’on puisse estimer les entrées à l’aide du recensement de la population (Brutel, 2014), on ne connaît pas les sorties. Le solde migratoire peut alors se déduire comme la différence entre l’évolution de la population et le solde naturel. Contrairement à beaucoup d’autres pays européens, la France ne dispose pas de registre de la population et doit donc s’appuyer sur le recensement de la population pour estimer les flux migratoires. Jusqu’en 1999, le recensement n’ayant lieu que tous les 78 ans environ, l’évolution de la population entre deux années consécutives ne pouvait se calculer directement. En 1962, en raison du retour des français d’Algérie, le solde migratoire a été exceptionnellement très important, de l’ordre de 860 000 personnes ; depuis 1963 le solde migratoire atteint des niveaux toujours positifs, mais bien plus faibles : il vaut en moyenne 64 000 sur la période 1963‑2013. Le solde reste stable en moyenne à partir des années 1990, même si de fortes fluctuations apparaissent (figure I), notamment dues aux différentes politiques menées, mais aussi au contexte économique et international. En moyenne sur la période 1990‑2013, le solde migratoire est de 72 000 et de 79 000 sur les dix dernières années disponibles (2004‑2013). Pour décrire la mortalité, il faut rapporter le nombre de décès à la population à risque correspondante. Cette population se compte en personnesannées et prend en compte la durée totale de résidence de l’ensemble des personnes résidant en France. On l’estime en ajoutant à la population présente au 1er janvier la moitié du solde migratoire. En rapportant le nombre de 1. 2013 est la dernière année pour laquelle toutes ces données étaient définitives lorsque les projections présentées dans cet article ont été réalisées en 2017. En particulier, le solde migratoire n'était à ce moment pas encore disponible pour l'année 2014. Nous n'avons pas utilisé les données provisoires, alors disponibles jusqu'en 2016 : révisées d'une année à l'autre avant de devenir définitives, elles sont en effet de nature différente des données définitives. Figure I – Solde migratoire de 1963 à 2013 1963 1968 1973 1978 1983 1988 1993 1998 2003 2008 2013 0 20 40 60 80 100 120 140 160 180 200 220 240 Milliers Source et champ : Insee, estimations de population et statistiques de l’état civil ; France métropolitaine. 36 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 décès à cette population, on obtient les taux de mortalité, que l’on peut détailler par sexe, âge et année. Les taux de mortalité évoluent de manière quasiexponentielle à partir de l’âge de 25 ans (figure II). Avant 25 ans, le profil est différent en raison de la mortalité infantile, plus élevée pour les nouveaunés. Les taux de mortalité diminuent de la naissance jusqu’à l’âge de 10 ans environ, avant d’augmenter régulièrement. Vers 18 ans, la mortalité des hommes devient nettement plus élevée que celle des femmes, et l’écart persiste tout au long de la vie, avec une ampleur plus ou moins marquée selon l’âge. Le logarithme des taux de mortalité, à âge et sexe fixés, diminue de façon quasi‑linéaire avec le temps (figure III). Si c’est particulièrement vrai pour les âges élevés, ça l’est moins pour les âges plus jeunes. Le logarithme du quotient de mortalité à 10 ans diminue de plus en plus vite par exemple. Au contraire, à 30 ans, le logarithme du quotient de mortalité a ralenti sa décroissance, jusqu’à stagner pour les hommes, du début des années 1980 au milieu des années 1990, date à laquelle la mortalité a brusquement diminué pour cet âge, et continue depuis lors à diminuer régulièrement et apparemment linéairement. Cette stagnation de la mortalité chez les jeunes adultes des années 1980 et 1990, alors que la tendance générale était à une diminution constante de la mortalité, est à relier à l’épidémie de Sida qui a touché la France au début des années 1980. De façon générale, les taux de mortalité baissant régulièrement, l’espérance de vie à la naissance augmente chaque année, et ce plus rapidement pour les hommes que pour les femmes (Blanpain, 2016), même s’il arrive parfois que l’espérance de vie baisse d’une année sur l’autre comme c’était le cas en 2015 pour des raisons conjoncturelles (Bellamy & Beaumel, 2016). Depuis le début des années 1970, l’ICF2 a fortement diminué : il est passé de 2.9 enfants par femme en 1964 à 1.8 enfant par femme en 1976 (figure IV). Depuis lors il s’est stabilisé autour d’une valeur moyenne de 1.85 enfant par femme. On observe toutefois une tendance à l’augmentation de l’ICF depuis le milieu des années 1990. 2. L’indice conjoncturel de fécondité (ICF) se calcule comme la somme des taux de fécondité par âge. Il correspond au nombre moyen d’enfants qu’aurait une femme au cours de sa vie si la probabilité de donner naissance à un âge donné correspond au taux de fécondité de cet âge. Figure II – Logarithme des taux de mortalité en 2013 selon le sexe et l'âge 0 6 12 18 24 30 36 42 48 54 60 66 72 78 84 90 96 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 Logarithme Femmes Hommes âge Source et champ : Insee, estimations de population et statistiques de l’état civil ; France métropolitaine. Figure III – Évolution des logarithmes des taux de mortalité à différents âges de 1962 à 2013 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 2010 2013 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 2010 2013 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 10 ans 30 ans 60 ans 90 ans A – Femmes B – Hommes Logarithme Logarithme Source et champ : Insee, estimations de population et statistiques de l’état civil ; France métropolitaine. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 37 Projections probabilistes bayésiennes de population pour la France Le taux de fécondité à un âge donné est défini comme le rapport entre le nombre d’enfants nés des femmes de cet âge et le nombre de femmes du même âge sur l’année considérée. Ce nombre de femmes correspond au nombre de femmes au 1er janvier de l’année auquel on ajoute la moitié correspondante du solde migratoire et dont on soustrait la moitié correspondante des décès enregistrés dans l’année. Le profil des taux de fécondité par âge suit une courbe en cloche : la probabilité d’avoir un enfant dans l’année augmente avec l’âge à partir de 15 ans jusqu’à atteindre un pic, puis diminue continûment jusqu’à devenir nulle ou presque aux alentours de 50 ans. Avec le temps, cette distribution par âge à tendance à se décaler vers la droite : l’âge auquel le maximum de fécondité est atteint augmente (figure V). En 1970, le taux de fécondité était maximal à 24 ans alors qu’en 2013, ce maximum est atteint à l’âge de 30 ans. Le niveau du maximum de fécondité atteint dans l’année n’évolue quant à lui guère depuis le milieu des années 1970 : il fluctue autour de 0.15. Le pic de fécondité se déplaçant vers la droite, la distribution des taux par âge devient de plus en plus symétrique, comme en témoigne la mesure d’asymétrie qui diminue rapidement vers 0 (figure VI). Figure IV – Évolution de l'indice conjoncturel de fécondité de 1962 à 2013 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 2010 2013 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Source et champ : Insee, estimations de population et statistiques de l’état civil ; France métropolitaine. Figure V – Taux de fécondité par âge en 1962 et en 2013 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 0.00 0.05 0.10 0.15 0.20 0.25 1962 2013 15 âge Source et champ : Insee, estimations de population et statistiques de l’état civil ; France métropolitaine. Figure VI – Évolution du maximum de fécondité, de l’âge auquel le maximum de fécondité est atteint et de l’asymétrie de la distribution des taux de fécondité par âge, de 1962 à 2013 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 2010 2013 0.00 0.05 0.10 0.15 0.20 0.25 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 2010 2013 23 24 25 26 27 28 29 30 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 2010 2013 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 A – Maximum du quotient de fécondité atteint dans l’année B – Âge minimum auquel ce maximum est atteint C – Mesure d’asymétrie de la répartition des taux selon l’âge Source et champ : Insee, estimations de population et statistiques de l’état civil ; France métropolitaine. 38 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Contrairement aux taux de mortalité, les taux de fécondité n’évoluent pas de façon régulière avec le temps. Par exemple, le taux de fécondité à 30 ans a diminué entre le début des années 1960 et le milieu des années 1970, et il augmente depuis lors avec un ralentissement à partir des années 2000. Le taux de fécondité à 20 ans diminue depuis les années 1970, mais à la fin des années 1990 il a connu un léger regain pendant quelques années, avant de diminuer à nouveau à un rythme beaucoup plus lent que lors des décennies précédentes. L’évolution n’est ni monotone ni linéaire, ce qui indique la difficulté à prolonger ces courbes dans le futur. Pour résumer, le solde migratoire de France métropolitaine apparaît stable sur longue période, avec d’importantes fluctuations qui semblent difficiles à prévoir. La mortalité évolue depuis plusieurs décennies dans le même sens, avec une diminution quasi linéaire du logarithme des taux de mortalité à tous les âges et une diminution de l’écart d’espérance de vie entre les femmes et les hommes. L’évolution récente de la fécondité est plus complexe à cerner, mais il se dégage que l’ICF est stabilisé à un niveau moyen légèrement inférieur à 2 enfants par femme et que la distribution de la fécondité par âge se modifie continûment avec un déplacement du pic de fécondité vers des âges plus élevés et une distribution de plus en plus symétrique (figure VII). Dans la partie suivante, on propose une modélisation pour chacune des trois composantes de l’évolution de la population prenant en compte ces observations et s’inspirant de modèles déjà développés à l’international et qui y sont succinctement décris. 3. Méthodes et modélisations Dans la suite de l’article, on utilisera les notations suivantes : P(a,n,s) : nombre de personnes au 1er janvier de l’année n, de sexe s nées l’année n‑a ; D(a,n,s) : nombre de décès durant l’année n, de personnes de sexe s nées l’année n‑a ; N(a,n,s) : nombre d’enfants de sexe s nés vivants durant l’année n et dont la mère est née l’année n‑a ; M(a,n,s) : nombre d’entrées en France métropolitaine moins nombre de sorties, durant l’année n, de personnes de sexe s et nées l’année n-a. Cela correspond au solde migratoire de l’année n, pour les personnes de sexe s nées l’année n‑a. Pour faciliter les notations ensuite, on définit P(0,n,s) comme le nombre de naissances vivantes d’enfants de sexe s l’année n. D(0,n,s) et M(0,n,s) correspondent respectivement, pour chaque année n et sexe s, au nombre de décès de bébés nés durant l’année n et au nombre de nouveaunés entrés moins le nombre de nouveaunés sortis du territoire. On supposera que les âges des femmes à l’accouchement se situent entre 15 et 55 ans inclus, et de ce fait on considérera que N(a,n,s)=0 pour a≤14 et a≥56. On définit de plus les populations à risque, pour les décès et les naissances. Les populations à risque sont comptées en personnesannées et dépendent du nombre de personnes observées mais également de la période de temps sur laquelle ces personnes sont présentes. Pour les décès, cela correspond à la population au 1er janvier de l’année à laquelle on ajoute la moitié du solde migratoire (si l’on considère que les flux d’entrées et de sorties sont répartis uniformément tout au long de l’année) : R ans P ans M ans D ( ) , , = ( ) , , + 0 5. , ( ) , , si a ≥1 R n s P n s M n s D ( ) 0 0 , , = . , 5 0( ) , . + 0 5 ( ) 0, , , pour a = 0. Pour les naissances, le nombre de personnesannées à risque est le nombre moyen de femmes sur l’année, en supposant le flux des migrations et des décès uniformes : RN (a, n) = P (a, n, femmes) + 0.5 M (a, n, femmes) – 0.5 D (a, n, femmes). On note de plus M n M ans a s ( ) = ∏ ( ) , , , , N a( ) , , n N = ( ) a n, , filles N+ ( ) a n, garçons et N a n N ans a ( ) , , = ∏ ( ) , . Lorsqu’on notera des lois normales, on indiquera la moyenne et l’écart type (et non la variance). Figure VII – Évolution des taux de fécondité à différents âges, de 1962 à 2013 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 2010 2013 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 20 ans 30 ans 40 ans Source et champ : Insee, estimations de population et statistiques de l’état civil ; France métropolitaine. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 39 Projections probabilistes bayésiennes de population pour la France 3.1. Migrations On projette directement le solde migratoire total à l’aide d’un modèle autorégressif d’ordre 1, où Mlt représente le solde migratoire de long terme et εM un bruit blanc : M n M M n M n ( ) = +lt ρ ε M l ( ) ( ) −1 − t M + ( ) ε σ M i i d M ( ) n N ~ , ( ) . . . 0 Afin d’avoir un processus stationnaire, on impose la contrainte | ρM | ≤ 1. Cette modélisation reflète le fait que l’on estime que le solde migratoire va continuer à être stable en moyenne et va osciller autour d’une tendance de long terme. L’amplitude des oscillations possibles pour l’avenir est déterminée par les amplitudes passées. De plus, on fixe un a priori très informatif sur la tendance de long terme en supposant, comme c’est le cas dans les travaux de Blanpain & Buisson (2016a), que ce niveau peut être estimé à partir du solde migratoire moyen sur la période récente, à savoir 80 000 personnes. La loi a priori pour la tendance de long terme est alors Mlt ~ N (80 000, 10 000). Les paramètres Mlt, εM, ρM et σM sont estimés par inférence bayésienne à partir des données du solde migratoire sur la période 1995‑2013. Pour projeter le solde migratoire total, on tire aléatoirement 1 000 fois les paramètres du modèle selon leur distribution a posteriori et pour chaque jeu de paramètres on simule l’évolution du solde migratoire selon le processus autorégressif d’ordre 1. Une fois projeté le solde migratoire, on décompose ce dernier par sexe et âge selon des taux fixes calculés à partir de la répartition du solde migratoire par sexe et âge sur la période récente, et lissés, comme dans Blanpain & Buisson (2016a). 3.2. Mortalité Comme on l’a vu, les logarithmes des taux de mortalité par âge semblent évoluer linéairement avec le temps. Néanmoins, l’évolution des taux de mortalité dans le temps se fait à un rythme différent pour chaque âge. On modélise directement le nombre de décès observés par une loi de Poisson, qui dépend du taux de mortalité et de la population à risque. Cette dernière correspond au nombre de personnesannées présentes en France métropolitaine l’année considérée. La loi de Poisson est couramment utilisée pour modéliser un nombre d’événements arrivant sur une période de temps donné. Elle est souvent retenue pour modéliser le nombre de décès dans les travaux de démographie. On retient la modélisation suivante, développée par Bryant & Zhang (2014), où μD (a,n,s) correspond au taux de mortalité de l’année n, des personnes de sexe s et d’âge a : D ans Poisson ans R ans D D ( ) , , ~ , ( ) µ ( ) , , ( ) , log , , , , : , : µ β D a β β β ε , âge a s âge sexe a n âge année D ( ) ( ) ans = + + + + a n 0 1 ( ) ,s log , , , , : , : µ β D a β β β ε , âge a s âge sexe a n âge année D ( ) ( ) ans = + + + + a n 0 1 ( ) ,s Les εD,1 sont des termes d’erreur indépendants et identiquement distribués selon une loi normale centrée et d’écarttype σD,1. Le paramètre β0 est une constante, le paramètre βâge donne la répartition moyenne selon l’âge du logarithme des taux de mortalité. Enfin, il y a deux termes croisant deux dimensions : βâge:sexe qui permet d’estimer un effet du sexe spécifique à chaque âge et un paramètre βâge:année qui est un effet du temps spécifique à chaque âge. On notera donc que l’évolution temporelle du logarithme des taux de mortalité par âge est la même pour les femmes et les hommes puisqu’on n’a pas spécifié de terme croisant l’année et le sexe. On a ce faisant voulu limiter le nombre de paramètres à estimer. L’introduction d’un terme supplémentaire croisant année et sexe conduit à une mauvaise estimation des distributions a posteriori, en raison d’une nonconvergence des chaînes de Markov. À un troisième niveau, on modélise certains des paramètres par des modèles linéaires dynamiques. On peut ainsi décomposer l’évolution temporelle du paramètre βâge:année, par âge, en un niveau (θâge :année) et une tendance (δâge:année) : β θ a n η âge année a n âge année a n , : , : = + ( ) , θ θ a n δ υ âge année a n âge année a n âge année a n , : , : , : = + + ( ) , −1 δ δ a n ω âge année a n âge année a n , : , : = + ( ) , −1 Les termes η, ν et ω sont des termes d’erreurs indépendants, suivant une loi normale centrée. Pour projeter dans le futur les taux de mortalité par âge, il suffit donc, une fois estimée la distribution a posteriori de l’ensemble des paramètres du modèle, de générer des nouveaux termes de tendance, puis des nouveaux termes de niveaux et enfin des nouveaux paramètres βâge:année, jusqu’à l’horizon souhaité. 3.3. Fécondité Pour la fécondité, on procède en trois étapes. On projette en premier lieu l’ICF selon un modèle autorégressif d’ordre 1. L’ONU utilise la même méthode pour sa troisième phase d’évolution de la fécondité, en supposant que l’ICF tend vers 2.1 pour tous les pays (Alkema et al., 2010). Par rapport à la méthode de l’ONU, on choisit de plus d’estimer les paramètres du modèle par 40 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 inférence bayésienne, et non par maximum de vraisemblance. On reste ainsi dans un cadre entièrement bayésien, pour l’ensemble de nos estimations et de nos projections. Le modèle est le suivant : ICF n ICF ICF n ICF n lt F lt F ( ) = + ρ ε ( ) ( ) −1 − + ( ) où ICF n N a n filles N a n R a n çons a F ( ) = ( ) + ( ) = ( ) ∏15 55 , , , , , gar est l’indicateur conjoncturel de fécondité de l’année n. Comme pour le solde migratoire, on simule, après estimation par inférence bayésienne, 1 000 trajectoires possibles d’évolution de cet indicateur jusqu’à l’horizon souhaité. La deuxième étape consiste à projeter, indépendamment de la projection de l’ICF, les taux de fécondité par âge μF. Ceux‑ci sont définis, comme dans le cas de la mortalité, via la modélisation des naissances par un processus de Poisson : N a n Poisson a n R a n F F ( ) , ~ ( ) µ ( ) , , ( ) où l’on rappelle que N(a,n) correspond au nombre de naissances l’année n données par des mères nées l’année n‑a. Suivant la méthode proposée par Bijak et al. (2015) inspirée de la méthode de LeeCarter, on modélise ensuite le logarithme du taux de fécondité comme la somme d’un effet fixe de l’âge, d’un effet du temps dont l’intensité et la direction sont différentes pour chaque âge et d’un effet de génération : log , , µ α β κ , γ ε F a a n n a F ( ) ( ) a n = + + + ( ) a n − 1 L’effet temporel κ et l’effet de génération γ évoluent selon des processus autorégressifs d’ordre 1 : κ ϕ ϕ κ ξ n n = + + ( ) n 0 1 −1 γ γ ζ n a n a n − − = + Ψ Ψ − + ( ) 011 où les termes d’erreurs ξ et ζ suivent des lois normales d’espérance nulle. Cette fois encore, tous les paramètres sont estimés par inférence bayésienne, pour ensuite produire 1 000 simulations des taux de fécondité, pour chaque âge et chaque année future. Ces taux projetés prolongent des tendances linéaires, même si les paramètres φ1 et ψ1 peuvent, s’ils sont de norme strictement plus petite que 1, amener à annuler l’effet temporel ou l’effet de génération à long terme. Les estimations donnent une distribution a posteriori de φ1 et ψ1 qui sont très proches de 1. Il en résulte qu’à moyen terme, les taux de fécondité deviennent anormalement élevés pour certains âges, ce qui conduit à des ICF bien plus élevés que ceux projetés dans la première étape. La troisième étape consiste alors à corriger les taux de fécondité par âge. Ils sont calés, chaque année, sur l’ICF projeté. Pour cela on multiplie simplement l’ensemble des taux, une année donnée, par une constante. Notons qu’aucune contrainte n’a été ajoutée sur l’âge moyen à la maternité, alors que les projections de l’Insee retiennent un plafond à 32 ans issu des consultations d’experts (voir Blanpain, ce numéro). La descendance finale est basée sur les taux de fécondité d’une génération donnée de femmes. Comme l’ICF, l’indicateur est une synthèse de taux de fécondité à différents âges. En revanche, contrairement à l’ICF qui est un indicateur transversal, la descendance finale est un indicateur longitudinal qui nécessite d’observer la vie féconde d’une génération entière avant de le calculer. Or nous ne disposons que d’un nombre limité de points d’observations dans le passé. C’est pourquoi nous avons décidé, à l’instar de nombreux auteurs, de modéliser et de projeter l’ICF. Notons que l’espérance de vie est également un indicateur transversal. 3.4. Projections par la méthode des composantes La méthode des composantes permet de faire évoluer la population d’une année sur l’autre en remarquant que la population au 1er janvier d’une année donnée est égale à la population au 1er janvier de l’année précédente, à laquelle on ajoute le nombre de naissances moins le nombre de décès ayant eu lieu l’année précédente, et le solde migratoire, ce que retracent les équations suivantes : P( ) ans , , = − P( ) ans 1 1 , , − − − D( ) ans 1 1 , , − + − M ( ) ans 1 1 , , − P( ) ans , , = − P( ) ans 1 1 , , − − − D( ) ans 1 1 , , − + − M ( ) ans 1 1 , , − pour a≥1 et P n ( ) 0, , , s N = ( ) n s . Les nombres de décès et de naissances sont obtenus chaque année par tirage aléatoire selon une loi de Poisson (voir les modélisations). Pour cela, il faut déterminer les personnes à risque pour les décès et les femmes à risque pour les naissances. On commence par calculer les décès pour chaque âge, excepté pour les décès des nouveaunés. On en déduit ensuite les femmes à risque à chaque âge entre 15 ans et 55 ans (on doit en effet pour cela connaitre le solde migratoire et le nombre de décès). Enfin, on calcule le nombre de décès des nouveaunés. La répartition du nombre de naissances une année donnée, entre naissances de garçons et naissances de filles est déterminée par le sex‑ratio que l’on fixe à 1.05, conformément aux constats passés. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 41 Projections probabilistes bayésiennes de population pour la France 3.5. Validations des modèles Une manière de tester les modèles utilisés est de séparer les données portant sur le passé en deux catégories : une partie, environ deux tiers, est utilisée pour estimer les modèles et la partie restante, environ un tiers, est utilisée pour confronter les estimations du modèle à la réalité. Pour la mortalité, on choisit d’estimer le modèle sur la période 19621995 et de comparer les résultats sur la période 1996‑2013. Pour la fécondité on estime les modèles sur la période 19752000 et on compare les résultats sur la période 2001‑2013. On constate que le logarithme des taux de mortalité est correctement projeté aux grands âges (à partir de 35‑40 ans environ), mais que la modélisation retenue donne des diminutions moins rapides de ces taux que ce qui est observé en réalité. Cela est dû au fait que pour les très jeunes âges, le logarithme du taux de mortalité est légèrement concave et non linéaire. De plus, pour les jeunes adultes, les taux de mortalité ont plus ou moins stagné dans les années 1980 et 1990 avant de baisser fortement. Le modèle n’a pas pu anticiper cette baisse soudaine. En ce qui concerne la fécondité, l’intervalle de confiance à 95 % des projections probabilistes de l’ICF contient bien l’ICF observé. Mais lorsque l’on regarde la distribution des taux de fécondité par âge, on se rend compte que la méthode utilisée conduit à une distribution plus resserrée que ce qui est réellement observé (figure VIII). La déformation de la distribution des taux de fécondité par âge est donc un peu trop forte dans nos projections. 4. Résultats des projections probabilistes bayésiennes pour la France jusqu’en 2070 Les paramètres des modèles pour le solde migratoire, la mortalité et la fécondité ont été estimés par inférence bayésienne à l’aide du logiciel libre Stan et du package R demest publié par l’Institut statistique de Nouvelle Zélande3 . Pour chacun des paramètres on a simulé 1 000 valeurs selon leur loi a posteriori. On a ensuite généré 1 000 trajectoires d’évolution possible pour le solde migratoire, les taux de mortalité par sexe et âge et les taux de fécondité par âge. Au final on peut obtenir 1 000 estimations de n’importe quel indicateur démographique dérivé de ces trois composantes, dont notamment la taille de la population totale. On en déduit alors des intervalles de confiance à 95 % ou à 80 % qui contiennent respectivement 95 % ou 80 % des estimations. 4.1. Projections des migrations : une incertitude forte et constante Le solde migratoire projeté suit une évolution stable car cela a été spécifié ainsi dans le modèle. La médiane des 1 000 trajectoires possibles diminue dans les premières années de projections puis se stabilise rapidement à 79 000 (figure IX). L’intervalle de confiance lui aussi reste constant au cours du temps : avec une probabilité de 95 % le solde migratoire se maintiendra entre 29 000 et 129 000 chaque année. Cette amplitude est due aux larges fluctuations observées dans le passé, elle dépasse 3. https://github.com/StatisticsNZ/demest Figure VIII – ICF et taux de fécondité par âge, observés (1962-2013) et projetés (2001-2013) 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 2007 2010 2013 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 15 18 21 24 27 30 33 36 39 42 45 48 51 54 0.00 0.05 0.10 0.15 0.20 0.25 A – Indicateur conjoncturel de fécondité (ICF) B – Distribution des taux de fécondité par âge en 2013 Note : en pointillés sont indiqués les quantiles d’ordre 2.5 % et 97.5 % des projections probabilistes et en trait plein l’ICF et les taux de fécondité réels (de 1962 à 2013). Source et champ : Insee, estimations de population et statistiques de l’état civil (taux de fécondité), calculs de l’auteur (projections probabilistes) ; France métropolitaine. 42 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 légèrement les minimum et maximum observés respectivement en 1996 et 2006. 4.2. Projections de la mortalité : peu d’incertitude compte tenu des évolutions passées Le modèle pour la mortalité prévoit que les taux de mortalité par âge continueront à diminuer linéairement, selon la même tendance pour les hommes et pour les femmes (figure X). L’incertitude sur les taux de mortalité projetés n’augmente presque pas avec le temps. Cela provient de ce que les variances des erreurs de niveau et de tendance ν et ω sont très faibles comparées à la variance du terme d’erreur η. Les erreurs ne s’accumulent donc pas avec le temps. Cela est dû au fait que les tendances observées sont très linéaires. Du fait de la diminution constante des taux de mortalité, l’espérance de vie continuera à croître dans les décennies qui viennent, pour les hommes comme pour les femmes. Les résultats du modèle indiquent que l’espérance de vie à la naissance des femmes sera, avec une probabilité de 95 %, comprise entre 91.2 ans et 92.8 ans en 2070 et celle des hommes entre 87.4 ans et 89.4 ans (figure XI). L’écart d’espérance de vie entre les femmes et les hommes va probablement continuer Figure IX – Solde migratoire passé et projeté 0 20 40 60 80 100 120 140 160 180 200 220 240 1963 1969 1975 1981 1987 1993 1999 2005 2011 2017 2023 2029 2035 2041 2047 2053 2059 2065 2070 Milliers Note : en pointillés sont indiqués les quantiles d’ordre 2.5 % et 97.5 % et en trait plein la médiane des distributions a posteriori. La courbe en gris clair représente une des 1 000 simulations. Source et champ : Insee, estimations de population et statistiques de l’état civil (1962‑2013), calculs de l’auteur (2013‑2070) ; France métropolitaine. Figure X – Évolution du logarithme des taux de mortalité par âge, estimés et projetés 1962 1968 1974 1980 1986 1992 1998 2004 2010 2016 2022 2028 2034 2040 2046 2052 2058 2064 2070 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1962 1968 1974 1980 1986 1992 1998 2004 2010 2016 2022 2028 2034 2040 2046 2052 2058 2064 2070 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 A – Femmes B – Hommes 90 ans 60 ans 30 ans 90 ans 60 ans 30 ans Note : en pointillés sont indiqués les quantiles d’ordre 2.5 % et 97.5 % et en trait plein la médiane des distributions a posteriori. Source et champ : Insee, calculs de l’auteur, France métropolitaine. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 43 Projections probabilistes bayésiennes de population pour la France à se résorber pour atteindre 3.6 ans en 2070 (entre 3.3 ans et 3.9 ans avec une probabilité de 95 %). 4.3. Projections de la fécondité : des maternités plus tardives et réparties de façon plus symétrique autour de l’âge modal La médiane de l’ICF de long terme est de 1.93, légèrement endessous de la moyenne de la loi a priori fixée à 1.95 (figure XII). Selon la modélisation retenue, l’ICF sera compris avec une probabilité de 95 % entre 1.63 et 2.26 enfants par femme en 2070. Contrairement aux projections du solde migratoire et des taux de mortalité, l’intervalle de confiance à 95 % devient de plus en plus large avec le temps. L’incertitude sur la fécondité future devient donc de plus en plus grande malgré le fait d’avoir fixé un ICF de long terme dans la modélisation. Les taux de fécondité par âge commencent à se stabiliser à partir de 2050 (figure XIII). L’âge moyen à la maternité augmente plutôt rapidement jusqu’en 2040 environ, puis l’augmentation se poursuit mais à un rythme de moins en moins rapide, pour atteindre une valeur comprise entre 32.2 et 35.9 ans en 2070 (intervalle de confiance à 95 %). La distribution des taux de fécondité par âge se décale alors de plus en plus vers la droite et devient de plus en plus symétrique, comme le montre l’évolution de l’indicateur d’asymétrie dont la médiane tend vers 0 (figure XIV). Figure XI – Évolution de l’espérance de vie estimée et projetée et de l’écart d’espérance de vie entre les femmes et les hommes 1962 1968 1974 1980 1986 1992 1998 2004 2010 2016 2022 2028 2034 2040 2046 2052 2058 2064 2070 60 65 70 75 80 85 90 95 1962 1968 1974 1980 1986 1992 1998 2004 2010 2016 2022 2028 2034 2040 2046 2052 2058 2064 2070 0 1 2 3 4 5 6 7 8 9 A – Espérance de vie à la naissance B – Écart entre les femmes et les hommes Femmes Hommes Note : en pointillés sont indiqués les quantiles d’ordre 2.5 % et 97.5 % et en trait plein la médiane des distributions a posteriori. Source et champ : Insee, estimations de population et statistiques de l’état civil (1962‑2013), calculs de l’auteur (2013‑2070) ; France métropolitaine. Figure XII – Évolution de l’indice conjoncturel de fécondité, estimé et projeté 1975 1980 1985 1990 1995 2000 2005 2010 2015 2020 2025 2030 2035 2040 2045 2050 2055 2060 2065 2070 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0 Note : en pointillés sont indiqués les quantile d’ordre 2.5 % et 97.5 % et en trait plein la médiane des distributions a posteriori. Source et champ : Insee, estimations de population et statistiques de l’état civil (1962‑2013), calculs de l’auteur (2013‑2070) ; France métropolitaine. 44 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 4.4. Projections de la population totale : une croissance vraisemblablement forte d’ici à 2040, et beaucoup plus faible ensuite La population totale de la France métropolitaine va continuer à augmenter pour atteindre en 2070 un niveau compris entre 66.1 millions et 77.2 millions avec une probabilité de 95 % et entre 68.1 millions et 75.0 millions avec une probabilité de 80 % (figure XV). La projection médiane correspond à un niveau de 71.0 millions d’habitants en 2070. La population de France métropolitaine pourrait donc augmenter continûment tout au long des cinquante prochaines années ou bien augmenter et commencer à décliner vers 2050. Il y a, selon la modélisation retenue ici, une probabilité de 1 % pour que la population commence à baisser dès 2040 (c’estàdire que la population atteigne son maximum en 2040) et une probabilité de 19 % pour 2050. L’incertitude sur la taille de la population d’après la modélisation retenue est assez faible jusque vers 20402050, puis augmente plus fortement avec les années suivantes. La structure de la population va également être modifiée, comme en témoigne la pyramide des Figure XIII – Évolution des taux de fécondité estimés et projetés 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 0.00 0.05 0.10 0.15 0.20 0.25 1975 1980 1985 1990 1995 2000 2005 2010 2015 2020 2025 2030 2035 2040 2045 2050 2055 2060 2065 2070 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20 A – Taux de fécondité à 20 ans et à 35 ans B – Taux de fécondité en 2070, pour tous les âges à 20 ans à 35 ans Note : en pointillés sont indiqués les quantiles d’ordre 2.5 % et 97.5 % et en trait plein la médiane des distributions a posteriori. Source : Insee, calculs de l’auteur ; France métropolitaine. Figure XIV – Évolution de l’âge moyen à la maternité et de l’asymétrie de la distribution des taux de fécondité par âge 1962 1968 1974 1980 1986 1992 1998 2004 2010 2016 2022 2028 2034 2040 2046 2052 2058 2064 2070 25 27 29 31 33 35 37 39 1962 1968 1974 1980 1986 1992 1998 2004 2010 2016 2022 2028 2034 2040 2046 2052 2058 2064 2070 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 A – Âge moyen à la maternité B – Indicateur d’asymétrie Note : en pointillés sont indiqués les quantile d’ordre 2.5 % et 97.5 % et en trait plein la médiane des distributions a posteriori. Source et champ : Insee, estimations de population et statistiques de l’état civil (1962‑2013), calculs de l’auteur (2013‑2070) ; France métropolitaine. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 45 Projections probabilistes bayésiennes de population pour la France âges en 2070 dont la base est bien plus droite et fine que la pyramide des âges actuelle. Certains groupes d’âges vont ainsi baisser en proportion, notamment les plus jeunes (figure XVI) : la part des 019 ans va continuer à diminuer lentement pour atteindre en 2070 un niveau médian de 19 %, celles des 20‑64 ans suit le même profil, avec en 2070 un niveau médian de 50 %. Au contraire, la part des 65 ans et plus dans la population va probablement continuer d’augmenter pour être en 2070 plus importante que la part des moins de 20 ans. Elle est passée de 13 % en 1962 à 19 % en 2013 et pourrait atteindre, avec une probabilité de 95 %, entre 28 % et 33 % de la population en 2070. La population va donc continuer à vieillir. L’âge médian de la population, qui est en 2013 de 41 ans, pourrait être, avec une probabilité de 95 %, compris entre 44 et 50 ans en 2070. En conséquence, le ratio entre les personnes de 65 ans et plus et les personnes de 20 à 64 ans risque d’augmenter fortement dans les années à venir. L’augmentation rapide et linéaire de ce ratio entre aujourd’hui et le début des années 2040 est principalement due au vieillissement Figure XV – Évolution passée et projetée de la taille totale de la population et de la croissance annuelle de la population -500 -300 -100 100 300 500 700 900 1 100 1 300 1962 1968 1974 1980 1986 1992 1998 2004 2010 2016 2022 2028 2034 2040 2046 2052 2058 2064 2070 40 45 50 55 60 65 70 75 80 1962 1968 1974 1980 1986 1992 1998 2004 2010 2016 2022 2028 2034 2040 2046 2052 2058 2064 2070 A – Taille de la population (millions) B – Croissance annuelle de la population (milliers) Note : en pointillés sont indiqués les quantiles d’ordre 2.5 % et 97.5 %, en tirets ceux d’ordre 10 % et 90 % et en trait plein la médiane des distri‑ butions a posteriori. Source et champ : Insee, estimations de population et statistiques de l’état civil (1962‑2013), calculs de l’auteur (2013‑2070) ; France métropolitaine. Figure XVI – Pyramide des âges en 2070 et évolution de la proportion de certains groupes d’âge 1962 1968 1974 1980 1986 1992 1998 2004 2010 2016 2022 2028 2034 2040 2046 2052 2058 2064 2070 0 10 20 30 40 50 60 70 -600 -400 -200 0 200 400 600 1 11 21 31 41 51 61 71 81 91 A – Pyramide des âges B – Proportion (en %) de certains groupes d’âge Femmes Hommes 20-64 ans 0-19 ans 65 ans et + âge Milliers Note : en pointillés sont indiqués les quantile d’ordre 2.5 % et 97.5 % et en trait plein la médiane des distributions a posteriori. Source et champ : Insee, estimations de population et statistiques de l’état civil (1962‑2013), calculs de l’auteur (2013‑2070) ; France métropolitaine. 46 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 des générations nombreuses nées pendant le babyboom. En effet, les personnes nées en 1946, début du babyboom, ont eu 65 ans en 2011 et celles nées à la fin du baby‑boom en 1975 auront 65 ans en 2040. Le ratio entre les 65 ans ou plus et les 20‑64 ans, aujourd’hui de 0.33, atteindrait selon les modèles utilisés, une valeur comprise entre 0.56 et 0.67 avec une probabilité de 95 % en 2070 (figure XVII). On peut comparer ces projections probabilistes aux projections déterministes réalisées par l’Insee. Les projections déterministes concernant la France métropolitaine ne concernent que la période 2013‑20504 . Le scénario central retenu conduit à une population légèrement plus élevée que la médiane de nos projections probabilistes : en 2050 la population de France métropolitaine atteindrait 71.7 millions d’habitants selon la première projection et 70.5 millions selon la deuxième. Par ailleurs, l’intervalle de confiance estimé par les projections probabilistes est bien plus faible que l’intervalle entre le scénario de population haute et le scénario de population basse, qui sont les scénarios extrêmes des projections déterministes. L’écart entre les deux scénarios déterministes extrêmes est de 11.1 millions d’habitants en 2050, alors que l’intervalle de confiance des projections déterministes cette même année est de 5.7 millions pour l’intervalle de confiance à 95 % et de 3.6 millions pour celui à 80 %. 4.5. Discussion D’après les modélisations décrites dans cet article et les simulations effectuées, la population de France métropolitaine devrait continuer à augmenter dans les décennies à venir. Elle pourrait pourtant commencer à décroître avant 2070, avec une probabilité non négligeable, même si cette évolution est moins probable qu’une hausse ou une stabilisation. La structure de cette population sera également probablement modifiée : on s’attend à un vieillissement général de la population dû à l’augmentation de l’espérance de vie, à la stagnation de l’ICF et à l’arrivée continue des babyboomers aux âges de la retraite. Le modèle utilisé pour projeter le solde migratoire est le plus simple des trois modélisations utilisées. L’absence de données détaillée par sexe et âge sur les entrées et les sorties empêchent d’utiliser une modélisation de Poisson faisant apparaître des taux, comme on l’a fait pour le nombre de décès et le nombre de naissances. De manière générale, les modèles de projection du solde migratoire sont moins sophistiqués et ont fait l’objet de moins d’effort de recherche que ceux concernant la mortalité et la fécondité, les données disponibles étant moins riches. On peut noter toutefois que certains pays disposant de registres, notamment la Nouvelle Zélande, ayant des données détaillées d’entrées et de sorties, commencent à proposer des modélisations avancées des phénomènes migratoires, prenant en compte de nombreux paramètres, comme par exemple le niveau d’éducation de la population (Bryant & Zhang, 2014). Notre modélisation étant assez simple, il en résulte que la plupart des évolutions passées du solde migratoire sont considérées comme du bruit. Ce bruit étant ensuite propagé dans le futur, les intervalles de confiance du solde migratoire projeté sont très larges et reflètent de ce fait notre 4. voir https://www.insee.fr/fr/statistiques/2859843 Figure XVII – Évolution de l’âge médian de la population et du ratio des personnes de 65 ans et plus sur les personnes de 20‑64 ans 1962 1968 1974 1980 1986 1992 1998 2004 2010 2016 2022 2028 2034 2040 2046 2052 2058 2064 2070 30 35 40 45 50 55 1962 1968 1974 1980 1986 1992 1998 2004 2010 2016 2022 2028 2034 2040 2046 2052 2058 2064 2070 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 A – Âge médian (en années) B – Personnes de 65+ / personnes de 20-64 ans Note : en pointillés sont indiqués les quantiles d’ordre 2.5 % et 97.5 % et en trait plein la médiane des distributions a posteriori. Source et champ : Insee, estimations de population et statistiques de l’état civil (1962‑2013), calculs de l’auteur (2013‑2070) ; France métropolitaine. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 47 Projections probabilistes bayésiennes de population pour la France niveau d’incertitude sur l’évolution à venir des migrations. C’est pour cette raison que nous avons restreint l’estimation des paramètres du modèle (et donc en particulier de la variance du terme d’erreur) à la période 1995‑2013, afin de ne pas prendre en compte les larges fluctuations du solde migratoire, trop anciennes. Estimer le modèle sur une plus longue période aurait conduit à une incertitude encore plus grande sur l’évolution future du solde migratoire. Au contraire du solde migratoire, les évolutions de la mortalité sont très stables, et le modèle utilisé peut rendre compte de ces évolutions sans les considérer comme étant majoritairement du bruit. Il en résulte que les intervalles de confiances des taux de mortalité projetés et de l’espérance de vie projetée sont très étroits. Ceci peut être trompeur, car on pourrait croire que l’on est presque certain de ce qui va arriver. En réalité, il ne faut pas oublier que ces intervalles de confiance sur les niveaux futurs de la mortalité sont déterminés conditionnellement au fait que le modèle offre une bonne approche du réel. C’est bien en supposant que les tendances observées vont se poursuivre que l’on peut arriver à de tels niveaux de confiance concernant l’avenir de la mortalité. Malgré cela, le modèle utilisé ne prend pas en compte certaines spécificités de la mortalité en France. En premier lieu, il ne permet pas de projeter des évolutions du logarithme du quotient de mortalité à un âge donné différentes selon le sexe. De plus, il apparaît que les générations nées après la seconde guerre mondiale ont très peu de gain au niveau de la mortalité à âge donné par rapport aux générations précédentes, et ce quel que soit l’âge (Blanpain & Buisson, 2016a). La modélisation retenue ne permet pas de prendre en compte de tels effets de générations : les écarts à la tendance générale sont alors traités comme du bruit, mis dans les termes d’erreur, plutôt que comme un effet bien identifié. Les espérances de vie projetées auxquelles on a abouti sont donc un peu plus faibles que celles obtenues avec les projections de Blanpain & Buisson (2016a). La modélisation de la fécondité est différente de celle du solde migratoire et de la mortalité. En effet, contrairement aux taux de mortalité, les taux de fécondité n’ont pas une évolution régulière au cours du temps. Ils peuvent augmenter puis diminuer, ou faire l’inverse et de ce fait se croiser. Prolonger les taux de fécondité selon des tendances linéaires amène ainsi à des situations qui apparaissent invraisemblables au vu d’autres indicateurs de la fécondité, comme l’ICF ou le maximum de fécondité atteint dans l’année, qui sont plus ou moins stables depuis 1975. L’idée a alors été de prolonger dans un premier temps l’ICF, qui est un indicateur qui reflète le niveau de la fécondité, selon une méthode identique à celle utilisée pour projeter le solde migratoire. On a ensuite prolongé les taux de fécondité par âge selon la méthode de Wiśniowski et al. (2015), et on a modifié ces taux pour retrouver l’ICF projeté. On dispose ainsi d’une évolution assez réaliste des taux de fécondité par âge, dont la distribution se décale vers les âges plus élevés tout en devenant plus symétrique. Cette façon de procéder (projection d’un indicateur agrégé, puis ventilation par catégories détaillées) n’est pas nouvelle en soi et c’est aussi le schéma retenu par l’ONU. L’inconvénient est qu’il faut ici fixer un ICF de long terme et le niveau choisi joue bien évidemment sur les résultats. * * * Les projections de population probabilistes offrent un nouvel éclairage sur l’évolution possible de la population. Elles permettent, sous certaines hypothèses de modélisation, de quantifier l’incertitude sur l’évolution à venir des indicateurs démographiques, et notamment sur l’évolution de la taille totale de la population. Elles présentent donc un avantage certain sur les projections déterministes basées sur des scénarios dont la probabilité d’occurrence n’est pas quantifiée. N’importe quel indicateur démographique, comme l’espérance de vie, l’âge moyen à la maternité ou la part des 65 ans et plus, peut être déterminé avec un certain degré de probabilité. Une des difficultés potentielles de l’interprétation des résultats provient du fait qu’il ne faut pas penser en termes ponctuels, mais plutôt en termes de distribution de probabilité, tout comme un dé, même pipé, ne peut se résumer à une seule de ces six faces. C’est plutôt en donnant la probabilité d’apparition de chaque face que l’on aura une bonne description du dé et de ce que l’on peut en attendre lorsqu’il sera lancé. Une fois cette difficulté surmontée, l’interprétation et l’utilisation de projections de population probabilistes offrent une grande liberté et une grande souplesse. A contrario, les résultats des projections déterministes deviennent compliqués à utiliser et leur communication difficile quand le nombre de scénarios envisagés est multiplié sous l’effet du croisement de plusieurs hypothèses. Afin d’améliorer les méthodes utilisées dans cet article et par conséquent les résultats, plusieurs pistes sont envisageables. Il s’agit en premier 48 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 lieu de mieux comprendre les phénomènes migratoires et pour cela d’analyser les entrées de façon détaillée. Il serait aussi intéressant de se pencher sur des estimations des flux de sorties actuels et passés, ce qui est un travail assez récent en France, compte tenu des données disponibles. Pour la projection de la mortalité il serait utile d’intégrer un effet de génération et d’autoriser une évolution différente des taux de mortalité pour les femmes et les hommes. Plusieurs modèles sont pour cela envisageables mais s’il y a trop de paramètres, le risque de non identification du modèle ou de mauvaise convergence des chaînes de Markov servant à estimer les distributions a posteriori est important. Pour améliorer la projection des taux de fécondité par âge, on pourrait, comme cela a déjà été fait dans plusieurs travaux, trouver une modélisation paramétrique de la distribution des taux selon l’âge. Il suffirait alors, et ce n’est pas forcément une chose facile, de prolonger ces paramètres comme dans le cas de la modélisation de LeeCarter, en détectant les régularités et les tendances dans l’évolution de ces paramètres. La distribution de la loi Bêta est une modélisation possible, mais sa forme arrondie ne représenterait pas bien les données. La loi Gamma à l’intérêt de mieux refléter la distribution des taux de fécondité, mais elle est définie sur un support ouvert à droite. Il faudrait alors la tronquer pour ne pas avoir de résultats irréalistes. La fonction de Hadwiger est une troisième piste, car elle semble mieux adaptée pour modéliser la distribution de la fécondité. L’inconvénient est qu’estimer ses paramètres peut prendre du temps et que leur interprétation n’est pas forcément évidente. Enfin, pourquoi ne pas proposer une fonction ad hoc, qui reflète fidèlement les données observées ? On peut alors être tenté d’estimer de façon non paramétrique la distribution des taux de fécondité, c’estàdire en réalité en utilisant un très grand nombre de paramètres. La difficulté réside alors en la projection de ces très nombreux paramètres. On peut aussi penser, pour les trois composantes d’évolution de la population, à développer des modèles structurels, permettant d’expliquer l’évolution passée selon des mécanismes plus détaillés et reposant sur des variables externes, mais cela impose également d’avoir suffisamment d’éléments pour ensuite projeter l’évolution de ces variables. Par ailleurs, il serait très instructif de mener des études de sensibilité, qui permettraient de tester comment varie les résultats lorsque l’on modifie légèrement certaines hypothèses des modèles. Cela aiderait à mieux comprendre et quantifier le rôle précis de chaque composante dans l’évolution de la population. On le voit, de nombreuses améliorations sont sans doute possibles. Elles demandent des investissements importants de recherche dans la compréhension et la modélisation des migrations, de la mortalité et de la fécondité, ce qui ne pourra qu’être bénéfique aux projections probabilistes de population, dont le degré d’incertitude dépend avant tout de nos connaissances (ou de nos ignorances) sur ces sujets. Enfin, il ne faudrait pas opposer les projections probabilistes de la population aux projections déterministes de la population. Ces dernières restent très utiles et permettent de tester ce qui se passerait à l’avenir, dans tel ou tel scénario. Les conclusions générales auxquelles on aboutit sont d’ailleurs très cohérentes avec celles des projections déterministes quant à l’évolution de la taille de la population et de sa structure par âge. Mais c’est avant tout aux utilisateurs des projections de population de choisir l’approche qui leur convient le mieux, selon leurs usages. Les projections probabilistes et déterministes sont deux manières différentes d’aborder l’incertain et d’essayer d’éclairer l’avenir. BIBLIOGRAPHIE Alkema, L., Raftery, A. E., Gerland, P., Clark, S. J., Pelletier, F. & Buettner, T. (2010). Probabilistic projections of the total fertility rate for all countries. Center for statistics and the social sciences, University of Washington. Working paper N° 97. https://doi.org/10.1007/s13524-011-0040-5 Bellamy, V. & Beaumel, C. (2016). Bilan démographique 2015, le nombre de décès au plus haut depuis l’aprèsguerre. Insee Première N° 1581. https://www.insee.fr/fr/statistiques/fichier/version-html/1908103/ip1581.pdf Bijak, J., Alberts, I., Alho, J., Bryant, J., Buettner, T., Falkingham, J., Forster, J. J., Gerland, G., King, T., Onorante, L., Keilman, N., O’Hagan, A., Owens, D., Raftery, A. & Ševčíková, H. (2015). Probabilistic population forecasts for informed decision‑making. Journal of Official Statistics, 31(4), 537–544. https://doi.org/10.1515/jos-2015-0033 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 49 Projections probabilistes bayésiennes de population pour la France Bijak, J. & Bryant, J. (2016). Bayesian demography 250 years after Bayes. Population Studies, 70(1), 1–19. https://doi.org/10.1080/00324728.2015.1122826 Blanpain, N. (2016). Les hommes cadres vivent toujours 6 ans de plus que les hommes ouvriers. Insee Première N° 1584. https://www.insee.fr/fr/statistiques/fichier/version-html/1908110/ip1584.pdf Blanpain, N. (2020). Is the Ageing of the French Population Unavoidable? Economie et Statistique / Economics and Statistic, ce numéro. Blanpain, N. & Buisson, G. (2016a). Projections de population 2013‑2070 pour la France : méthode et principaux résultats. Insee, Document de travail N° F1606. https://www.insee.fr/fr/statistiques/fichier/2400057/F1606_version_revue_septembre2018.pdf Blanpain, N. & Buisson, G. (2016b). Projections de population à l’horizon 2070. Insee Première N° 1619. https://www.insee.fr/fr/statistiques/fichier/version-html/2496228/ip1619.pdf Booth, H. (2006). Demographic forecasting: 1980 to 2005 in review. Australian National University, Working Papers in Demography N° 100. https://demography.cass.anu.edu.au/sites/default/files/sod/publications/working-papers/100.pdf Brutel, C. (2014). Estimer les flux d’entrées sur le territoire à partir des enquêtes annuelles de recensement. Insee, Document de travail N° F1403. https://www.insee.fr/fr/statistiques/fichier/1381143/F1403.pdf Bryant, J. & Zhang, J. L. (2014). Bayesian forecasting of demographics rates for small areas: emigration rates by age, sex and region in New Zeland. Statistica Sinica Preprint N° SS‑14‑200tR3. https://www.jstor.org/stable/44114337 Conseil d’orientation des retraites (2017). Évolutions et perspectives des retraites en France. Rapport annuel du COR. https://www.cor-retraites.fr/sites/default/files/2019-06/doc-4055.pdf Costemalle, V. (2015). Projections de populations : l’ONU adopte une méthode bayésienne. Statistique et Société, 3(3), 9–14. http://statistique-et-societe.fr/article/view/500/474 Dunstan, K. & Ball, C. (2016). Demographic projections: user and producer experiences of adopting a stochastic approach. Journal of Officials Statistics, 32(4), 947–962. https://doi.org/10.1515/jos-2016-0050 Gerland, P., Raftery, A. E., Ševčíková, H., Li, N., Gu, D., Spoorenberg, T., Alkema, L., Fosdick, B. K., Chunn, J., Lalic, N., Bay, G., Buettner, T., Heilig, G. K. & Wilmoth, J. (2014). World population stabilization unlikely this century. Science, 346(6206), 234–237. https://doi.org/10.1126/science.1257469 Hyndman, R. J. & Booth, H. (2006). Stochastic population forecasts using functional data models for mortality, fertility and migration. Australian National University, Working Papers in Demography N° 99. https://demography.cass.anu.edu.au/sites/default/files/sod/publications/working-papers/99.pdf Hyndman, R. J. & Ullah, S. (2007). Robust forecasting of mortality and fertility rates: a functional data approach. Computational Statistics & Data Analysis, 51(10), 4942–4956. https://doi.org/10.1016/j.csda.2006.07.028 Kontis, V., Bennett, J. E., Mathers, C. D., Li, G., Foreman, K. & Ezzati, M. (2017). Future life expectancy in 35 industrialised countries: projections with a Bayesian model ensemble. The Lancet, 389(10076), 1323–1335. https://doi.org/10.1016/S0140-6736(16)32381-9 Lee, R. D. & Carter, L. R. (1992). Modeling and forecasting U.S. mortality. Journal of the American Statistical Association, 87(419), 659–671. https://doi.org/10.2307/2290201 Lutz, W., Sanderson, W. & Scherbov, S. (2001). The end of world population growth. Nature, 412, 543–545. https://doi.org/10.1038/35087589 MacPherson, L. (2016). National population projections : 2016(base)‑2068. Statistics New Zeland. https://www.stats.govt.nz/information-releases/national-population-projections-2016base2068 Organisation des Nations Unies, Département des affaires économiques et sociales, Division Population (2017). World Population Prospects: The 2017 Revision, key findings and advance tables. Working Paper N° ESA/P/WP/248. Raftery, A. E., Chunn, J. L., Gerland, P. & Ševčíková, H. (2013). Bayesian probabilistic projections of life expectancy for all countries. Demography, 50, 777–801. https://doi.org/10.1007/s13524-012-0193-x Raftery, A. E. (2014). Use and communication of probabilistic forecasts. University of Washington. arXiv:1408.4812v1. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5403155/ Régnier‑Loilier, A. & Vignoli, D. (2011). Intentions de fécondité et obstables à leur réalisation en France et en Italie. Population‑F, 66(2), 401–432. https://doi.org/10.3917/popu.1102.0401 Wiśniowski, A., Smith, P. W. F., Bijak, J., Raymer, J. & Forster, J. J. (2015). Bayesian population forecasting: extending the LeeCarter method. Demography, 52, 1035–1059. https://doi.org/10.1007/s13524-015-0389-y ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 51 Évaluer les prévisions probabilistes de population Evaluating Probabilistic Population Forecasts Nico Keilman* Résumé – Les statisticiens ont développé des règles de notation pour évaluer les prévisions probabilistes par rapport aux observations. Toutefois, on en trouve peu d’applications dans la littérature sur les prévisions de population. Une règle de notation mesure la distance entre la distribution prédictive et le résultat. Nous passons en revue les règles de notation qui privilégient l’exactitude (le résultat est proche de l’espérance de la distribution) et la précision (la distribu‑ tion présente une faible variance, de sorte qu’il est difficile d’atteindre l’objectif). Nous évaluons les prévisions de population probabilistes établies pour la France, les Pays‑Bas et la Norvège. Les prévisions de la taille de la population totale des Pays‑Bas et de la Norvège ont obtenu de bons scores. L’erreur sur la population de base a engendré un mauvais score pour la prévision française. Nous évaluons aussi la prévision de la composition par âge et par sexe pour 2010. Les prédictions relatives aux Pays‑Bas ont reçu les meilleurs scores, excepté celles concernant les personnes très âgées. Pour la Norvège, le score de la structure par âge reflète la sous‑prédiction de l’immigration après l’élargissement de l’Union européenne en 2005. Abstract – Statisticians have developed scoring rules for evaluating probabilistic forecasts against observations. However, there are very few applications in the literature on population forecasting. A scoring rule measures the distance between the predictive distribution and its outcome. We review scoring rules that reward accuracy (the outcome is close to the expectation of the distribution) and sharpness (the distribution has low variance, which makes it difficult to hit the target). We evaluate probabilistic population forecasts for France, the Netherlands, and Norway. Forecasts for total population size for the Netherlands and for Norway performed quite well. The error in the jump‑off population caused a bad score for the French forecast. We evaluate the age and sex composition predicted for the year 2010. The predictions for the Netherlands received the best scores, except for the oldest old. The age pattern for the Norwegian score reflects the under‑prediction of immigration after the enlargement of the European Union in 2005. Codes JEL / JEL classification : C15, C44, J11 Mots‑clés : prévisions de population probabilistes, règle de notation, modèle par cohorte et composante Keywords: probabilistic population forecast, scoring rule, cohort component model * Département d’économie de l’Université d’Oslo, Norvège (nico.keilman@econ.uio.no) Remerciements – L’auteur exprime sa reconnaissance à Laurent Toulemon et à trois rapporteurs anonymes pour leurs excellents commentaires. Reçu en mars 2019, accepté en février 2020. Traduit de la version originale anglaise Citation: Keilman, N. (2020). Evaluating Probabilistic Population Forecasts. Economie et Statistique / Economics and Statistics, 520‑521, 49–64. https://doi.org/10.24187/ ecostat.2020.520d.2033 Rappel ‑ Les jugements et opinions exprimés par les auteurs n’engagent qu’eux mêmes, et non les institutions auxquelles ils appartiennent, ni a fortiori l’Insee. 52 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 La plupart des instituts de statistique qui effectuent des prévisions de population recourent à une approche déterministe (NRC, 2000). Ils analysent les tendances historiques en matière de fécondité, de mortalité et de migration, puis extrapolent ces tendances pour le futur, en mobilisant des avis d’experts et des techniques statistiques. Ces extrapolations reflètent leurs meilleures anticipations. En plus de calculer l’évolution probable de la taille et de la structure de la population, de nombreux instituts calculent également une variante haute et une variante basse de sa future crois‑ sance, afin d’attirer l’attention des utilisateurs sur l’incertitude qui entoure les prévisions démographiques. Par exemple, les précédentes projections de population officielles en France tablaient sur 76.5 millions d’habitants en 2070 si les tendances à l’œuvre se poursuivent (Blanpain & Buisson, 2016). Toutefois, la crois‑ sance effective jusqu’en 2070 pourrait être plus faible ou plus forte que les tendances actuelles ne le suggèrent, débouchant sur une population comprise entre 66.1 millions et 87.6 millions de personnes selon des hypothèses de trajec‑ toires hautes et basses pour la fécondité (1.8 ou 2.1 enfants par femme en moyenne après 2020), pour l’espérance de vie des hommes (entre 87.1 et 93.1 ans en 2070) et celle des femmes (entre 90 et 96 ans) et pour la migration internationale (excédent de migration compris entre 20 000 et 120 000 personnes par an). L’un des inconvénients majeurs de cette approche déterministe est de ne pas quantifier l’incertitude. La probabilité de recenser entre 66.1 et 87.6 millions d’habitants en France en 2070 est‑elle de 30 %, de 60 % ou de 90 % ? Pourtant, à des fins de planification, les utili‑ sateurs ont fréquemment besoin de connaître le degré de confiance qu’ils peuvent accorder aux chiffres prédits. Quelle devrait être la robustesse du système de retraite face à une augmentation rapide ou lente de l’espérance de vie ? Devons‑nous prévoir des capacités supplé‑ mentaires dans les écoles primaires, au cas où les naissances seraient beaucoup plus nombreuses que prévu ? Comme Keyfitz (1981) l’écrivait il y a près de quarante ans : « Les démographes ne peuvent pas plus être tenus responsables de l’inexactitude des prévisions de population sur un horizon de vingt ans que les géologues, les météorologues et les économistes qui ne savent pas prédire les tremblements de terre, la rigueur des hivers ou les dépressions vingt ans à l’avance. Ce que nous devons faire, c’est nous avertir les uns les autres, ainsi que le public, quant à la probabilité d’erreur inhérente à nos estimations ». Pour cette raison, certains instituts de statistique ont commencé à publier leurs prévisions sous forme de distributions de probabilités, suivant des pratiques courantes dans les domaines de la météorologie et de l’économie, entre autres. Le Centraal Bureau voor de Statistiek (CBS, l’ins‑ titut de statistique des Pays‑Bas) est pionnier en la matière (voir Alders & De Beer, 1998). Statistics New Zealand (2011) en Nouvelle‑Zélande et l’Istituto Nazionale di Statistica (ISTAT, 2018) en Italie les publient également. À cet égard, il convient de citer la Division de la population des Nations Unies, qui est chargée de la mise à jour à intervalles réguliers des prévisions de population de l’ensemble des pays. En 2014, la Division a publié la première série officielle de prévisions de population probabilistes pour tous les pays, à l’aide de la méthodologie développée par Raftery et al. (2012)1 . L’objectif d’une prévision probabiliste n’est pas d’estimer des tendances futures qui soient plus exactes que les prévisions déterministes, mais de fournir à l’utilisateur une image plus complète de l’incer‑ titude des prévisions. Les instituts de statistique pourraient mettre en œuvre des nouvelles méthodes et des travaux développés par les démographes et les statisticiens depuis les années 1980. Deux développements méritent d’être mentionnés. Le premier, l’approche par simulation. L’approche analytique s’appuie sur un modèle stochastique par cohorte et composante, dans lequel les distri‑ butions statistiques relatives à la fécondité, à la mortalité et à la migration sont transformées en distributions statistiques relatives à la taille de la population et à sa structure par âge et par sexe, ce qui nécessite des hypothèses solides, sans quoi les expressions du moment de second ordre de la distribution par âge et par sexe restent approxi‑ matives. Aujourd’hui, l’approche par simulation, répandue, évite les hypothèses simplificatrices et les approximations propres à l’approche analy‑ tique. L’idée est de calculer plusieurs centaines ou milliers de variantes de prévision (« parcours d’échantillonnage ») en fonction d’une sélection aléatoire des valeurs des paramètres d’entrée pour la fécondité, la mortalité et la migration. Les résultats des simulations sont stockés dans une base de données. Keilman (2009) donne un exemple pour la France. Deuxième change‑ ment méthodologique récent : le passage d’une approche principalement fréquentiste à une vision bayésienne de la probabilité. Dans l’approche fréquentiste, la probabilité d’un événement est 1. Voir également http://esa.un.org/unpd/wpp/Graphs/Probabilistic/POP/ TOT/ ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 53 Évaluer les prévisions probabilistes de population liée à la fréquence relative à laquelle il survient. Dans l’approche bayésienne en revanche, une probabilité est interprétée comme étant l’opinion subjective du statisticien, ce qui est particuliè‑ rement utile lorsque les modèles reposent sur des opinions d’experts et lorsque l’on combine ce type d’informations avec des données. Le passage d’une approche fréquentiste à une approche bayésienne en matière de prévisions de population s’inscrit dans une tendance plus générale vers la « démographie bayésienne », qui a commencé à prendre de l’essor il y a une dizaine d’années (Bijak & Bryant, 2016). Les prévisions probabilistes des Nations Unies, que nous avons citées, sont un bon exemple de l’approche bayésienne. Costemalle (ce numéro) applique la méthode pour la France. L’exactitude d’une prévision probabiliste ne peut être évaluée que dix à vingt ans après sa publication, une fois les données observées ex post facto concernant la taille et la structure par âge de la population disponibles. Mais l’exer‑ cice reste difficile car il nécessite de comparer les probabilités prédites par le prévisionniste avec les probabilités réelles mais inconnues des événements étudiés. Pour cette raison, les statis‑ ticiens ont développé des « règles de notation », également appelées « fonctions de notation ». Une règle de notation mesure la distance entre la distribution prédite d’une variable démogra‑ phique et sa valeur réelle (Gneiting & Raftery, 2007 ; Gneiting & Katzfuss, 2014). Le score obtenu pour une variable donnée n’a pas de signi‑ fication intrinsèque. L’interprétation des scores n’est utile que dans le cadre d’une comparaison, ce qui explique pourquoi les fonctions de nota‑ tion sont fréquemment utilisées pour comparer deux prévisions probabilistes alternatives. Bien que la méthodologie de l’évaluation des prévisions probabilistes et des règles de notation soit connue depuis un moment déjà, elles ont été peu appliquées aux projections de population. Shang et al. (2016) ont évalué l’exactitude des prévisions probabilistes par cohorte et par composantes au Royaume‑Uni et comparé les deux méthodes, en utilisant une règle de notation pour les intervalles de prédiction. Shang (2015) et Shang & Hyndman (2017) ont évalué les prévi‑ sions par intervalles pour les taux de mortalité par âge dans divers pays, puis utilisé des scores d’intervalle pour choisir les meilleures méthodes de prévision de la mortalité. Alexopoulos et al. (2018) ont appliqué des scores d’intervalle aux intervalles de prédiction des taux de mortalité par âge en Angleterre, au Pays de Galles et en Nouvelle‑Zélande, puis évalué la performance prédictive de cinq modèles de prédiction de la mortalité. Ces quatre articles évaluent les prévisions démographiques probabilistes à partir d’échantillons partiels : les paramètres sont estimés à partir des années les plus anciennes, et les prédictions du modèle sont confrontées aux données disponibles les plus récentes. À notre connaissance, une évaluation ex post de prévisions de population probabilistes n’a jamais été tentée par le passé. Cet article vise à montrer comment des méthodes d’évaluation des prévisions probabilistes déve‑ loppées dans d’autres domaines peuvent être appliquées aux prévisions de population. Nous présentons et appliquons des règles de notation aux intervalles de prédiction, ainsi qu’à des échantillons simulés de la taille et de la struc‑ ture par âge de la population projetée. À l’aide de données relatives à la France, aux Pays‑Bas et à la Norvège, nous présentons les règles de notation puis nous comparons les prévisions probabilistes calculées par différents chercheurs, avec trois objectifs. Le premier est d’analyser la rapidité avec laquelle l’exactitude d’une prévi‑ sion probabiliste change en fonction du délai de réalisation, c’est‑à‑dire lorsqu’elle se rapproche de l’horizon de projection. Le deuxième est de comparer la précision de deux prévisions proba‑ bilistes (alternatives) pour un même pays. Le troisième est d’analyser la performance relative des prévisions entre différents pays. La section 1 examine comment les résultats d’une prévision probabiliste sont mis à dispo‑ sition : en tant qu’intervalles de prédiction ou au moyen d’une base de données. La section 2 présente plusieurs règles de notation et leurs caractéristiques. La section 3 donne des exemples empiriques. Avant de conclure, nous évaluons diverses prévisions probabilistes de la taille de la population totale et de la pyramide des âges de la population de trois pays. 1. Publier une prévision de population probabiliste Les méthodes utilisées pour évaluer une prévision probabiliste dépendent fortement de la façon dont les résultats de cette prévision sont mis à disposition. Il y a principalement deux possibilités : l’une consiste à publier des intervalles de prédiction pour les variables de la population, l’autre consiste à fournir aux utilisateurs une base de données contenant les parcours d’échantillonnage. Costemalle (ce numéro) présente des intervalles de prédiction de la population pour la France, calculés selon une approche bayésienne. Par exemple, une probabilité de 80 % pour que 54 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 cette population se situe entre 68.1 millions et 75.0 millions de personnes en 2070 (voir la figure XV de son article). L’auteur présente également des intervalles de prédiction de 95 %, qui couvrent des situations plus extrêmes. D’autres chercheurs (voir les exemples de la section 3) donnent des prévisions probabilistes avec des intervalles de prédiction de 67 %. La figure I montre des intervalles de prédiction de 80 % pour la population de la France, tirés du projet « Uncertain Population of Europe » (UPE). L’année de base de cette prévision probabiliste est l’année 2003. En 2050 (47 ans plus tard), l’intervalle de prédiction de 80 % est de 25.7 millions de personnes (82.2 – 56.5), beaucoup plus large que celui de Costemalle, de 6.9 millions de personnes (75.0 – 68.1, après 46 ans). Différentes perceptions de l’incertitude des prédictions relatives aux futurs taux de fécon‑ dité, de mortalité et de migration internationale engendrent des intervalles de prédiction plus précis (optimisme) ou plus larges (pessimisme). Les auteurs utilisent donc des intervalles de prédiction ayant différentes probabilités de couverture. Une probabilité de 67 % ou de 80 % couvre la plupart des prévisions mais exclut la queue de distribution des erreurs, plus volatile. Les auteurs qui utilisent une probabi‑ lité de couverture de 95 % sont certainement influencés par les sciences sociales où construire des intervalles de confiance à 95 % ou procéder à une vérification des hypothèses avec une probabilité faible (5 %) pour les erreurs de type I (c’est‑à‑dire en rejetant une hypothèse nulle quand bien même elle serait vraie) est courant. En revanche, un intervalle de prédiction assorti d’une probabilité de couverture de 67 % ou de 80 % donne à l’utilisateur une idée de l’écart potentiel à la valeur ponctuelle prédite, ce qui est très différent de la construction d’intervalles de confiance et de la vérification d’hypothèses. Nous utiliserons des intervalles de prédiction de 67 % et de 80 % dans la section 3. Les intervalles de prédiction ne sont qu’un résumé de la distribution de probabilité complète de la variable concernée. Dans certains cas on peut supposer que la distribution sous‑jacente est approximativement normale. Il est alors possible de déduire ses paramètres à partir des bornes supérieure et inférieure de l’intervalle. Toutefois, certaines variables de population se limitent à une partie de la forme réelle, comme la part des personnes âgées dans la population (entre 0 et 1). L’hypothèse de normalité de la distribution n’est alors pas adéquate, et nous perdons un gros volume d’information en ne publiant que des intervalles de prédiction, et pas les distributions sous‑jacentes. La plupart des informations ne sont mises à disposition qu’une fois que toutes les trajec‑ toires simulées sont stockées dans une base de données, que l’utilisateur peut consulter (Alho & Spencer, 2005). Un exemple courant est le jeu de prévisions de population probabilistes établies pour 18 pays européens dans le cadre du projet UPE. Le modèle par cohorte et composantes a été appliqué 3 000 fois pour chaque pays, avec une population de base déterministe (au 1er janvier 2003) et des valeurs spécifiques à l’âge variant de façon probabiliste pour la fécondité, la mortalité et la migration nette. L’horizon des prévisions est l’année 2050. Les prévisions du projet UPE sont intéressantes pour deux raisons. La première, l’un des buts explicites est de quantifier l’incer‑ titude de façon à ce qu’elle reflète la volatilité historique de la fécondité, de la mortalité et de la migration internationale. La deuxième, le projet est le premier à avoir examiné de façon exhaus‑ tive la corrélation empirique des erreurs de prévision en matière de fécondité, de mortalité et de migration dans différents pays. Le site Web du projet2 contient une base de données rassemblant les résultats de simulations (N = 3 000) pour les hommes et les femmes par tranches d’âge de cinq années, pour des intervalles de temps de dix ans (2010(10)2050), et ce pour chaque pays. L’utilisateur peut établir son ou ses propres 2. http://www.stat.fi/tup/euupe/index_en.html. On y trouve aussi plusieurs articles publiés et non publiés. Figure I – Valeurs médianes et intervalles de prédiction de 80 % pour la population totale de la France métropolitaine 50 55 60 65 70 75 80 85 90 2000 2010 2020 2030 2040 2050 millions Note : les valeurs médianes sont représentées par le trait en pointillés et les intervalles de prédiction par les traits pleins. Lecture : la probabilité que la population soit inférieure à 67.7 millions en 2050 se chiffre à 50 % et celle que la population soit supérieure à 67.7 millions est la même. La probabilité que la population totale atteigne entre 56.5 millions et 82.2 millions en 2050 se chiffre à 80 %. Source : Keilman (2009). ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 55 Évaluer les prévisions probabilistes de population histogrammes pour une ou plusieurs variables d’intérêt. Dans la section 3, nous utiliserons les prévisions de pyramides des âges établies pour 2010 en France, aux Pays‑Bas et en Norvège afin d’illustrer les règles de notation examinées à la section 2. 2. Évaluation Soit X la variable pour laquelle nous calculons une prévision, dont la fonction de distribution cumu‑ lative (FDC) est définie comme F(x) = P (X ≤ x). La fonction de densité de probabilité (FDP) de X est f(x) = F(x) x d d . Nous supposons toujours l’existence des intégrales et des différents moments de la distribution de probabilité. Pour une analyse détaillée s’appuyant sur la théorie des probabilités, voir par exemple Gneiting & Katzfuss (2014) et Gneiting & Raftery (2007). Soit y la valeur observée de X. Une fonction de notation S(F(x),y) attribue une valeur numérique (« score ») à la prévision F(x), compte tenu de l’observation y. S(F(x),y) prend les valeurs de la droite réelle  (incluant éventuellement plus et moins l’infini). Le postulat suivant est un bon point de départ pour définir une fonction de notation : une prévision qui prédit le résultat réel avec une forte probabilité doit recevoir un bon score. Il « fonctionne » bien pour les prévisions caté‑ gorielles, lorsque X est une variable aléatoire discrète. Toutefois, s’agissant de prévisions de nombres de personnes (par âge, par sexe et par année de prévision), X s’apparente davantage à une variable aléatoire continue qu’à une variable aléatoire discrète (sauf si la prévision porte sur une population de très petite taille). Dans la suite de l’article, nous supposons que la prévision et la fonction de notation s’appliquent à une variable aléatoire continue. De nombreuses fonctions de notation sont construites à partir des deux prin‑ cipes suivants. Premièrement, une observation proche de la médiane ou de l’espérance de la distribution prédictive engendre un bon score – plus elle est proche et mieux c’est. La règle de notation est alors sensible à la distance (Staël von Holstein, 1970 ; Murphy, 1970). Deuxièmement, compte tenu d’une observation donnée, une distribution prédictive étroite (« précise ») engendre un bon score – plus elle est étroite et mieux c’est. Par exemple, un intervalle de prédiction de 80 % couvrant une observation donnée constitue une meilleure prévision qu’un intervalle de 67 % aussi large couvrant la même observation, car il est relativement difficile d’at‑ teindre l’objectif lorsque la variance de la FDP est faible. Toutefois, les deux principes n’ont pas la même importance. On peut arguer que, si l’observation est « trop loin » de la médiane ou de l’espérance, une FDP étroite ne devrait plus être bien notée. En d’autres termes, si le prévi‑ sionniste « prend un risque » (c’est‑à‑dire prédit une FDP étroite), la prévision devrait obtenir un bon score lorsqu’elle est proche de la médiane ou de l’espérance mais ne devrait pas obtenir un bon score lorsqu’elle en est trop loin. La signi‑ fication de « trop loin » n’est pas claire et varie d’une règle de notation à l’autre. Dans l’exemple ci‑dessus, cela signifie que « l’observation sort de l’intervalle de prédiction ». Ce choix peut être critiqué car il repose sur une nette dichotomie. Dans un très petit intervalle aux alentours de la borne supérieure ou de la borne inférieure de l’intervalle de prédiction, la prévision passe brusquement d’un bon score à une pénalité si elle se situe juste en dehors de l’intervalle. En d’autres termes, compte tenu de la distribution prédictive et de la valeur observée, un inter‑ valle de prédiction dont la borne inférieure est légèrement inférieure à la valeur observée engendre un bon score, tandis qu’un intervalle de prédiction dont la borne inférieure est légè‑ rement supérieure à la valeur observée engendre un mauvais score. Les probabilités de couverture sont arbitraires (on utilise souvent 80 % mais 81 % ou 79 % fonctionnent également très bien). Pour cette raison, nous devons être prudents avec la notion de « trop loin ». Certaines des règles de notation que nous examinons ci‑après reposent sur l’idée que la proximité est plus importante que la précision. Toutefois, comme nous le verrons, le sens que nous donnons à « trop loin » diffère selon les règles de notation. D’autres règles de notation considèrent que les deux principes sont indépen‑ dants. On dira qu’une fonction de notation est orientée négativement lorsqu’un score inférieur implique une meilleure prévision, et qu’elle est orientée positivement dans le cas contraire. En conséquence, une fonction de notation orientée négativement peut être interprétée comme une pénalisation, et une fonction de notation orientée positivement comme une récompense. De nombreuses règles de notation différentes ont été suggérées, en fonction de la nature de la prévision. On trouvera dans Gneiting & Raftery (2007) et Jordan et al. (2019) une vue d’ensemble exhaustive sur la question. Nous nous limiterons aux règles de notation applicables aux variables aléatoires continues. Une catégorie de règles de notation s’applique aux prévisions de densité en fonction d’expressions de forme close de la FDC ou de la FDP. Citons par exemple le score loga‑ rithmique LogS(F(x), y) = – log( f (y)). Une autre 56 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 catégorie de règles de notation, plus adaptée au sujet de cet article, évalue des échantillons simulés. Dans ce cas, la distribution prédictive n’est pas disponible sous forme analytique. Une deuxième différence est celle qui existe entre les prévisions d’une variable et les prévisions de plusieurs variables. Pour ces dernières, tant la variable prédite X que l’observation y se composent d’un vecteur. Jordan et al. (2019) ont développé le package R ‘scoringRules’ qui couvre de nombreuses situations dans le cadre de travaux appliqués. Nous présentons ci‑dessous trois types de règles de notation : celles basées uniquement sur les deux premiers moments de la distribution prédictive (section 2.1), celles découlant de la simulation de la distribution prédictive complète, fournie en tant qu’échantillon (section 2.2) et enfin celles pour lesquelles nous ne disposons que des intervalles de prédiction (section 2.3). 2.1. Fonctions de notation basées sur la variance Supposons une FDP unimodale de la prévision. Lorsque le résultat réel est proche du centre de la densité prédite (caractérisée par la moyenne, la médiane ou le mode), cette prévision est meilleure que celle dont le résultat est loin du centre. En d’autres termes, la prévision obtient un meilleur score lorsque X présente peu de variation autour de y que lorsque la variation est plus marquée. Cela conduit à une fonction de notation basée sur la variance, que nous nommons « VS » (Variance‑based Scoring) dans le reste de cet article et que nous définissons comme suit. Soit VS la variance de X autour de la valeur observée y, où VS = x y f x dx ∫( ) − ( ) 2 (1) Pour y égal à l’espérance de X (que nous écri‑ vons μ), VS réduit la variance de X, que nous écrivons σ2 . L’expression (1) donne VS = σ2 + (μ – y)2 (2) Cela définit une fonction de notation simple basée sur la variance, qui pourrait servir à évaluer la qualité de la FDP prédictive unimodale. Gneiting & Raftery (2007) la citent comme une fonction de notation qui correspond au critère de choix du modèle prédictif (predictive model choice criterion, PMCC). Nous pouvons l’appliquer pour les fonctions de densité analytiques et pour les échantillons simulés. Pour ces derniers, on utilise les valeurs de σ2 et de μ estimées à partir de l’échantillon. Cette fonction de notation est orientée négativement : un score inférieur indique une meilleure prévision. Elle récom‑ pense à la fois l’exactitude (lorsque y coïncide avec μ, la prévision est de qualité optimale) et la précision (une faible variance engendre un bon score, que la prévision soit proche ou non). Pour une prévision déterministe (ponctuelle), σ2 est égal à zéro et la prévision est μ. Dans ce cas, VS diminue jusqu’au niveau de l’erreur quadra‑ tique de la prévision. Les erreurs de ce type sont à la base de l’erreur quadratique moyenne fréquem‑ ment utilisée dans l’évaluation des prévisions de population déterministes (Alho & Spencer, 2005 ; Smith et al., 2001 et Keilman, 1990). Une autre fonction de notation, le score de Dawid‑Sebastiani (DSS), se fonde également sur les deux premiers moments de la distribu‑ tion prédictive (voir par exemple Gneiting & Katzfuss, 2014). DSS = ln(σ2 ) + (μ – y)2 /σ2 (3) Cette fonction de notation est semblable au score VS basé sur la variance de l’expression (2), mais donne un poids différent à la variance de la prévision σ2 . Une faible variance engendre un bon score (bas) tant que dDSS d y σ σ µ σ 2 2 2 4 1 = − 0 ( ) − > , ou σ > |μ – y |. Tandis que le VS récompense toujours les distributions prédictives présentant une faible variance, le DSS ne le fait que si l’observation y s’éloigne de l’espérance de la distribution prédictive de moins d’un écart type. Imaginons un prévisionniste qui sait que sa prévision probabiliste sera, en temps voulu, évaluée au moyen de la règle de notation (2) ou (3). Supposons qu’à un certain stade du processus de production de la prévision, le problème soit d’étalonner le modèle de prévision. Selon la règle de notation (2) ou (3), cet étalonnage devrait s’attacher en priorité à choisir une valeur appropriée pour l'espérance μ de la distribution prédictive – non pas de la médiane ou de tout autre paramètre de position. De fait, il existe une corrélation étroite entre l’étalonnage du modèle et l’évaluation de la prévision. Si la situation est claire lorsqu’il n’y a qu’un seul utilisateur, elle est plus complexe lorsque les utilisateurs sont nombreux et lorsque leurs règles de notation sont différentes (ou inconnues). 2.2. Le score de probabilité CRPS Le CRPS (continuous ranked probability score) peut servir de score standardisé pour évaluer la prévision probabiliste de variables à valeur ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 57 Évaluer les prévisions probabilistes de population réelle (Gneiting & Raftery, 2007). Il est défini en fonction de la FDC prédictive F(x) comme CRPS ( ) F y, = ( ) F z( )− ≤ { } y z dz ∫  2 (4) où { } y z ≤ désigne la fonction caractéristique, égale à 1 si y ≤ z et à zéro dans le cas contraire. La forme précise du CRPS vient du score de Brier (1950). Le score de Brier, ou score de probabilité, est l’erreur quadratique moyenne d’une prévision de probabilité catégorielle. Murphy (1970) l’a adapté aux catégories ordonnées pour X, donnant lieu au RPS (ranked probability score). Matheson & Winkler (1976) ont proposé un RPS pour les variables aléatoires continues, le CRPS. Les solutions triviales à l’équation (4) sont rares. Jordan et al. (2019) dressent la liste des cas recensés. Par exemple, lorsque F(z) est la distribution normale standardisée Φ(.) avec une densité φ(.), le CRPS(Φ,y) est égal à y(2Φ(y) – 1) + 2φ(y) – 1/√π. La distribution normale, avec une espérance μ et un écart type σ, donne σCRPS(Φ,(y – μ)/σ). Quelques exemples concrets permettent d’illustrer le CRPS. Prenons une distribution normale et supposons, sans perte de généra‑ lité, que μ est égal à zéro. La figure II trace le CRPS en fonction de y, c’est‑à‑dire qu’elle représente sa sensibilité à la distance. Nous présentons trois cas, à savoir des écarts type de ½, de 1 et de 2. Par construction, μ étant égal à 0, les courbes sont symétriques aux alentours de zéro. Comme attendu, le meilleur score est obtenu lorsque y est égal à zéro. Le score se dégrade lorsque la valeur absolue de y augmente, c’est‑à‑dire lorsque y est loin de μ. La précision de la FDP prédictive (écart type faible) n’est récompensée qu’au sein d’un certain intervalle y aux alentours de zéro. Par exemple, une prévision parfaite (y égal à zéro) obtient un meilleur score pour σ = ½ (CRPS = 0.1168) que pour σ = 2 (CRPS = 0.4674). Toutefois, la FDP contenant σ = 2 obtient un meilleur score que celle contenant σ = ½ pour les observations y dont la valeur absolue est supérieure à environ 0.9. L’intervalle dans lequel la précision est récompensée est plus court pour les valeurs σ faibles que pour les valeurs élevées. Les prévisions de population probabilistes sont habituellement calculées en tant que distributions simulées et l’on ne peut pas calculer l’intégrale de l’expression (4). Dans ce cas, il est utile de partir du principe selon lequel (4) peut s’écrire ainsi : CRPS ( ) F y, = − E E F F X y 1 1 − − ½ ,F X X2 (5) où X1 et X2 sont des variables aléatoires indé‑ pendantes avec une distribution F (Gneiting & Raftery, 2007). Le CRPS mesure la proximité de l’observation y à laquelle on peut s’attendre par rapport à la variable prédite X, corrigée de la distance attendue entre toutes les paires de valeurs possibles de X. Cette distance prédite est faible lorsque l’écart type de F est faible. Toutes choses égales par ailleurs, une augmentation de l’écart type engendre un meilleur score. Toutefois, lorsque l’écart type change, la première espé‑ rance EF|X1 – y| change également. Cette règle de notation récompense‑t‑elle toujours la précision, ou seulement dans un certain intervalle ? Cela reste une question empirique. Le CRPS réduit l’erreur absolue lorsque F est une prévision déterministe. Supposons une prévision disponible en termes de distribution simulée. Dans le cas, la FDC est F x m m X x i m i  ( )= ≤ { } = ∑ 1 1  où m est la taille de l’échantillon, et (5) devient CRPS F y m X y m m i X X i m i j j m i  m ( ) , = − − − ∑ ∑ = = ∑ = 1 1 2 1 2 1 1 . La mise en œuvre de cette expression est inef‑ ficiente car son ordre computationnel est o(m2 ). Une représentation plus efficiente, et algébrique‑ ment équivalente, est (Jordan et al., 2019, p. 6) CRPS F y m m X y m y X i i i m i  ( ) , ( = − ) { ( ) < −} + ∑ = ( ) ( ) 2 2 1  ½ CRPS F y m m X y m y X i i i m i  ( ) , ( = − ) { ( ) < −} + ∑ = ( ) ( ) 2 2 1  ½ (6) où X(1), X(2), X(3), …, X(m), est l’échantillon simulé ordonné. Le CRPS est défini dans l’expres‑ sion (6) comme étant toujours positif, car chaque terme de la somme est positif. Figure II – CRPS pour une distribution normale, avec une espérance μ égale à zéro et des observations y allant de ‑3 à +3 0.0 0.5 1.0 1.5 2.0 2.5 3.0 -3 -2 -1 0 1 2 3 σ = ½ σ = 1 σ = 2 y Source : calculs de l’auteur. 58 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 2.3. Scores d’intervalle De nombreuses prévisions de population proba‑ bilistes sont présentées en tant que prévisions par intervalles et non pas en tant que distribu‑ tions de probabilité (simulées) – voir section 1. Considérons un intervalle de prédiction central (1–α), avec des extrémités inférieure et supé‑ rieure correspondant aux quantiles prédictifs aux niveaux α/2 et (1–α/2) respectivement3 . Écrivons l et u pour les quantiles inférieur et supérieur. Gneiting & Raftery (2007) définissent la fonction de notation suivante : ( ) u l − + − ( ) l y y l < + ( ) y u − y u >    2 α   { } { } (7) En prenant α, le score d’intervalle de Gneiting‑ Raftery (Gneiting‑Raftery interval score – ci‑après GRIS) récompense les prévisions pour des intervalles de prédiction étroits qui saisissent l’observation y : lorsque deux prévisions contra‑ dictoires présentent des intervalles de prédiction différents pour un α donné, la prévision dont l’intervalle de prédiction est le plus court obtient le meilleur score (le plus bas). En revanche, si la valeur de y est située en dehors de l’intervalle de prédiction, nous obtenons un mauvais score (plus élevé). La pénalité appliquée à la sortie de l’intervalle de prédiction est plus importante pour un α faible que pour un α élevé. Le GRIS peut facilement être appliqué à l’intervalle de prédiction d’une variable avec des délais de réalisation différents : un an à l’avance, deux ans à l’avance, trois ans à l’avance, etc. Le GRIS ne récompense pas toujours la précision, même lorsque l’intervalle saisit correctement la réalisation. Supposons deux prévisions alter‑ natives ayant le même intervalle de prédiction [l,u] mais des probabilités de couverture diffé‑ rentes. Par exemple, une prévision donne une probabilité de 67 % à l’intervalle de prédiction [l,u] tandis que l’autre donne une probabilité de couverture de 80 % à ce même intervalle. La deuxième prévision est plus précise et devrait recevoir un meilleur score lorsque l’observation y reste dans les limites de [l,u]. Mais cela n’est pas le cas, parce que le GRIS est indépendant de α dans cette situation. Pour régler ce problème, nous pouvons utiliser une version légèrement modifiée du GRIS, à savoir GRISmod u = − ( )l l + − ( ) y y < + l y( ) − u y > u    α β   { } { } GRISmod u = − ( )l l + − ( ) y y < + l y( ) − u y > u    α β   { } { } (8) où β > 0 est un paramètre qui détermine la rapi‑ dité avec laquelle le score se détériore lorsque l’observation s’éloigne soit de la borne supérieure soit de la borne inférieure de l’intervalle de prédiction. Une valeur β élevée engendre une pénalité plus importante qu’une valeur faible. Le GRISmod récompense la précision tant pour une valeur α fixe et des intervalles de prédiction différents que pour un intervalle de prédiction fixe et des valeurs α différentes. Lorsque β est égal à deux, le GRISmod est égal à αGRIS. Si la valeur β est égale à la probabilité α, le GRISmod diminue jusqu’au niveau de α(u–y) pour y < l et α(y–l) lorsque y > u. Au lieu d’utiliser des fonctions de notation pour les intervalles de prédiction, nous pourrions vérifier la fréquence à laquelle les données réelles tombent dans les limites des inter‑ valles. Par exemple, Raftery et al. (2012) ont validé leur méthode bayésienne de prévision de la population de 159 pays en estimant le modèle rassemblant les données d’une période de quarante ans (1950‑1990), afin de générer une distribution prédictive pour la totalité de la population par âge et par sexe pour une période de vingt ans (1990‑2010). Ils ont ensuite comparé les distributions des intervalles de prédictions de 80 % et de 95 % qui en résultent avec les observations réelles, puis ont vérifié la proportion de l’échantillon de vérification tombant dans les limites de leurs intervalles. Ces proportions étant proches des valeurs nomi‑ nales de 80 % et de 95 %, les auteurs ont conclu à la validité de leur approche. Cette méthode présente un gros inconvénient : elle compare les données et les intervalles de prédiction de nombreuses variables, comme la taille de la population des 56 pays d’Afrique à un moment donné. Toutefois, les corrélations régionales de la fécondité, la mortalité et/ou la migration suggèrent que les tailles des populations des 56 pays ne sont pas indépendantes. On dispose de moins de données qu’escompté initialement et les proportions observées ne peuvent pas être comparées directement aux valeurs nominales (Alho & Spencer 2005, p. 248). 2.4. Fonctions de notation utilisées dans les applications empiriques Dans la section 3, nous utilisons le CRPS de l’expression (6) pour évaluer des prévisions pour lesquelles nous disposons de résultats de simulation détaillés. Si nous n’avons que des intervalles de prédiction, nous utilisons le score VS basé sur la variance de l’expression (2), le 3. Nous supposons que les deux quantiles sont connus. Si l’on veut évaluer les prévisions par intervalles lorsque le niveau de couverture nominal est précisé mais que les quantiles sur lesquels les intervalles sont fondés ne sont pas précisés, l’approche présentée ici ne peut pas être appliquée (Askanazi et al.,2018). ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 59 Évaluer les prévisions probabilistes de population score de Dawid‑Sebastiani (DSS) de l’expres‑ sion (3) et les scores d’intervalle (GRIS et GRISmod) des expressions (7) et (8). Pour le GRISmod, nous supposons que la valeur du paramètre β est égale à la probabilité α utilisée pour définir l’intervalle. Le VS et le DSS utilisent l’espérance et l’écart type de la distribution prédictive. Dans la mesure où seules les bornes supérieure et inférieure de l’intervalle sont disponibles, nous supposons la normalité et définissons l’espérance comme étant la moyenne des deux bornes. Parallèlement, nous estimons l’écart type comme la moitié de la largeur de l’intervalle pour les intervalles de 67 % et la largeur de l’intervalle divisée par 2.564 pour les intervalles de 80 %. Notons que le score dépend de l’échelle de la variable X pour laquelle nous disposons d’une distribution prédictive (qui correspond à l’échelle de l’observation y). Par conséquent, lorsque nous comparons les scores de deux prévisions pour des pays dont les populations sont de tailles très différentes, la population la plus petite reçoit le meilleur score, quel que soit son exactitude. Pour que la comparaison soit juste, nous devons tenir compte de la taille de la population. Nous avons normalisé le VS, le DSS, le CRPS, le GRIS et le GRISmod comme suit : ‑ le VS est divisé par μ2 , c’est‑à‑dire le carré de l’espérance de la distribution prédictive ; ‑ le DSS est normalisé en soustrayant 2ln(µ) de sa valeur initiale4 ; ‑ le CRPS, le GRIS et le GRISmod sont divisés par μ. 3. Résultats Nous illustrons les règles de notation présentées à la section 2.4 en évaluant les prévisions de popu‑ lation probabilistes de trois pays : la France, les Pays‑Bas et la Norvège. Nous nous concentrons sur la taille de la population totale (section 3.1) et sur la pyramide des âges (section 3.2). Les données proviennent de sources variées : 1. Le site Web du projet UPE (voir section 1) fournit des échantillons (N = 3 000) pour les prévisions de pyramides des âges des trois pays pour les années 2010, 2020, …, 2050. Nous utilisons les résultats de 2010. 2. Alho & Nikander (2004) présentent des inter‑ valles de prédiction de 80 % et des médianes de la taille de la population totale, entre autres, pour chaque année de la période 2004‑2050 pour tous les pays du projet UPE. Nous utilisons les résultats de 2004‑2019. 3. Pour les Pays‑Bas, nous avons des informations sur les prévisions de population probabilistes officielles, en prenant l’année 2000 comme année de base (voir CBS, 2001). Les données contiennent des intervalles de prédiction de 67 % et des espérances de population totale, pour chaque année de la période 2000‑2050, ainsi que pour les hommes et les femmes répartis entre différentes tranches d’âge de cinq années, pour des intervalles de cinq ans. 4. Pour la Norvège, nous utilisons les résultats du projet de projections stochastiques « StocProj » (Keilman et al., 2002) dont le but était de calculer une prévision de population probabiliste en prenant l’année 1996 comme année de base. Comme nous ne disposons pas des résultats détaillés de ces simulations, nous utilisons à la place des intervalles de prédiction de 80 % pour la taille de la population totale pour les années 1997‑2019. 3.1. Taille de la population La figure III illustre nos résultats pour la Norvège. Nous présentons quatre graphiques : deux pour le projet StocProj (gauche) et deux pour les prévisions du projet UPE (droite). Les deux graphiques du haut donnent des intervalles de prédiction de 80 % et des valeurs observées pour la taille de la population totale, tandis que les deux graphiques du bas présentent les scores des deux prévisions. Les deux prévisions sous‑estiment la population totale à partir d’environ 2005. Cela vient prin‑ cipalement du fait que, après l’élargissement de l’Union européenne, les travailleurs migrant des pays baltes et d’Europe de l’Est vers la Norvège ont été beaucoup plus nombreux que prévu. À noter que, pour chaque délai de réalisation prévu, les intervalles de prédiction du projet StocProj sont plus larges que ceux du projet UPE. Le score d’intervalle modifié GRISmod récom‑ pense la précision et est donc inférieur – et par conséquent meilleur – pour le projet UPE que pour le projet StocProj, même si la différence est minime (cf. lignes en pointillé). Le score d’inter‑ valle modifié GRISmod et le score basé sur la variance VS affichent la même tendance : les deux prévisions se détériorent progressivement à mesure que le délai de réalisation augmente. Les courbes en tirets correspondent au score de Dawid‑Sebastiani DSS divisé par dix, afin 4. L’intérêt réside dans la valeur du DSS pour une variable aléatoire à l’échelle X/N avec une valeur à l’échelle y/N de y (N non aléatoire et positif), que nous écrivons DSS(y/N). Alors DSS(y/N) = 2ln(σ/N) + [(µ/N – y/N)/ (σ/N)]2 = DSS(y) – 2ln(N). Pour N, nous avons choisi l’espérance de taille de la population µ. 60 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 qu’il puisse être tracé sur le même graphique que les trois autres scores. Le DSS commence par des valeurs négatives dans les deux cas, car l’écart type σ des deux prévisions de taille de la population est faible (mesuré en millions) durant les premières années. Par exemple, σ = 0.0039 dans le projet StocProj pour 1997, ce qui donne ln(σ2 ) = – 11.1162. Puisque ((µ‑y)/σ)2 = 0.0309, le DSS est égal à – 11.0853 et tracé à hauteur de – 1.1085 dans la figure III. Le DSS augmente fortement dans le projet UPE car il ne récom‑ pense plus la précision dès lors que la valeur observée s’écarte de plus d’un écart type de l’espérance (|μ – y| > σ, voir section 3.1). C’est le cas pour chaque année pour laquelle nous avons les données du projet UPE, c’est‑à‑dire à partir de 2004. Pour le projet StocProj, le cas d’un écart type trop faible pour récompenser la précision ne survient pas avant 2008, soit douze ans dans le futur. En revanche, les fonctions de notation GRISmod et VS ne péna‑ lisent pas les prévisions « trop optimistes » (c’est‑à‑dire celles pour lesquelles la variance de la distribution prédictive est trop petite). À noter que, pour le projet StocProj, le DSS se stabilise à partir d’environ 2016, soit vingt ans dans le futur. Pour les prédictions de la taille de la population totale des Pays‑Bas, les intervalles de prédiction de 80 % du projet UPE reflètent une prévision plus précise que les intervalles de 67 % de la prévision de CBS (figure IV). Dans les deux cas, la taille observée de la population sort des inter‑ valles pendant plusieurs années jusqu’en 2011. Ensuite, les observations reviennent dans les limites des intervalles. Le score d’intervalle modifié de la prévision du projet UPE est bien meilleur que celui de la prévision de CBS. Les scores d’intervalle ignorent le fait que les valeurs observées se rapprochent du centre des inter‑ valles, dans la mesure où ces scores excluent les informations relatives à la moyenne, à la médiane ou au mode de la distribution prédic‑ tive. À l’aune des scores de Dawid‑Sebastiani, les deux prévisions sont de même qualité. Dans les deux cas, le DSS se stabilise à partir de 2010. Cela vient du fait que l’erreur de prévision |μ – y| Figure III – Taille de la population totale de la Norvège Intervalles de prédiction, valeurs observées et scores 4.0 4.5 5.0 5.5 6.0 1995 2000 2005 2010 2015 2020 4.0 4.5 5.0 5.5 6.0 1995 2000 2005 2010 2015 2020 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 1995 2000 2005 2010 2015 2020 1995 2000 2005 2010 2015 2020 millions Intervalle 80 % inf./sup. Observé millions GRIS 80 % DSS/10 GRISmod 80 % VS A – Prévisions du projet StocProj 1997-2019 millions millions B – Prévisions du projet UPE 2004-2019 Note : les intervalles de prédiction et les valeurs observées sont présentés dans la partie supérieure, tandis que les scores d’intervalle (GRIS et GRISmod), le score de Dawid‑Sebastiani (DSS) et le score basé sur la variance (VS) sont présentés dans la partie inférieure. Les intervalles de prédiction, les valeurs observées et les scores GRIS, GRISmod et VS sont exprimés en millions. Le score de Dawid‑Sebastiani est divisé par dix. Source : voir premiers paragraphes de la section 3. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 61 Évaluer les prévisions probabilistes de population diminue lentement au fil du temps, parce que la taille observée de la population se rapproche de l’espérance de taille de la population, ce qui compense l’augmentation de l’écart type de la taille de la population prédite dans les deux prévisions – voir l’expression (3). En termes qualitatifs, le GRIS affiche la même tendance, plutôt irrégulière, que le DSS. C’est particulièrement net pour les Pays‑Bas, avec les observations qui sortent d’abord des intervalles mais y reviennent par la suite (figure IV). On constate des irrégularités semblables (mais d’une ampleur beaucoup moins importante) pour la Norvège (cf. figure III). De plus, le GRISmod et le VS évoluent de façon homogène aux Pays‑Bas, comme nous l’avons vu pour la Norvège. La figure V montre les scores du projet UPE pour la taille de la population totale de la France métropolitaine. Caractéristique frappante : la prévision de population de base, en 2003, est inférieure de près de 500 000 personnes à l’estimation actuelle de la taille de la population pour cette même année. Des données fournies par Eurostat, mises à disposition en 2004, sont à la base des simulations du projet UPE. Les valeurs observées de la figure V proviennent de l’Insee (voir https://www.insee.fr/en/statistiques/ serie/000067670). Il va de soi que les chiffres de la population de 2003 fournis par Eurostat en 2004 ont été révisés par la suite. L’erreur sur la population de base entraîne de très mauvaises valeurs pour les fonctions de notation Gneiting‑Raftery (non modifiée) et Dawid‑Sebastiani. Quels auraient été ces scores si les prévisions du projet UPE avaient démarré avec l’estimation révisée de la taille de la population totale pour 2003 (60.102 millions) plutôt qu’au niveau effectivement utilisé (59.635 millions) ? Nous pouvons donner une réponse approximative5 en augmentant de 467 000 personnes l’intervalle de prédiction de 80 %. La figure VI montre les résultats, selon les mêmes échelles verticales que celles de la figure V. Le DSS s’améliore considérablement, passant à 5.2 en 2005 et à 5.6 en 2006 (contre 5. Approximative parce que nous ne tenons pas compte des conséquences d’une population de base plus importante en termes de fécondité et de mortalité. Figure IV – Taille de la population totale des Pays‑Bas. Intervalles de prédiction, valeurs observées et scores 14 15 16 17 18 2000 2005 2010 2015 2020 14 15 16 17 18 2000 2005 2010 2015 2020 -1.00 -0.75 -0.50 -0.25 0.00 0.25 0.50 0.75 1.00 1.25 2000 2005 2010 2015 2020 -1.00 -0.75 -0.50 -0.25 0.00 0.25 0.50 0.75 1.00 1.25 2000 2005 2010 2015 2020 Intervalle 80 % inf./sup. Observé GRIS 80 % GRISmod 80 % DSS/10 VS GRIS 67 % GRISmod 67 % DSS/10 VS Intervalle 67 % inf./sup. Observé millions millions millions millions A – Prévisions du Centraal Bureau voor de Statistiek 2000-2019 B – Prévisions du projet UPE 2004-2019 Note : les intervalles de prédiction et les valeurs observées sont présentés dans la partie supérieure, tandis que les scores d’intervalle (GRIS et GRISmod), le score de Dawid‑Sebastiani (DSS) et le score basé sur la variance (VS) sont présentés dans la partie inférieure. Les intervalles de prédiction, les valeurs observées et les scores GRIS, GRISmod et VS sont exprimés en millions. Le score de Dawid‑Sebastiani est divisé par dix. Source : voir premiers paragraphes de la section 3. 62 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 respectivement 49.6 et 28.6), puis se stabilise aux environs de 1.6 ou 1.7 après 2015 (au lieu de redescendre doucement vers 2.0 en 2019). Les scores d’intervalle et le score basé sur la variance diminuent légèrement. Ces résultats soulignent combien il est important de choisir la bonne population de base. Les chiffres de la population sont souvent révisés, notamment dans les pays qui ne disposent pas de registre de la population. Dans ce cas, il convient de traiter la population de base comme étant stochastique, en plus des paramètres de fécondité, de mortalité et de migration. Alho & Spencer (2005) donnent un exemple de valeurs de base aléatoires pour une prévision de population probabiliste applicable à la Lituanie. Un constat commun qui ressort à ce stade est que plus nous projetons loin dans le futur, plus le GRISmod et le VS se détériorent parce que les intervalles de prédiction s’élargissent et les variances des distributions prédictives augmentent. Bien sûr, cela reflète le fait que les prévisions de population sont plus difficiles à établir sur le long terme que sur le court terme. Contrairement au GRISmod et au VS, le DSS se stabilise à mesure que les délais de réalisation des prévisions augmentent. L’explication se trouve dans la définition de cette fonction de notation spécifique, qui est la somme des deux termes : un terme augmente tandis que l’autre diminue lorsque la variance de la prédiction augmente – voir l’expression (3). En conséquence, nous pouvons dire que le DSS n’est pas une mesure appropriée pour analyser la rapidité avec laquelle la qualité d’une prévision se détériore lorsque le délai de réalisation augmente. Toutefois, nous pouvons également dire que le DSS permet de Figure V – Taille de la population totale, France métropolitaine. Intervalles de prédiction, valeurs observées et scores 55 60 65 70 2000 2005 2010 2015 2020 0 2 4 6 8 10 12 2000 2005 2010 2015 2020 millions Intervalle 80 % inf./sup. Observé millions GRIS 80 % GRISmod 80 % DSS/10 VS Prévisions du projet UPE 2004-2019 Note : les intervalles de prédiction et les valeurs observées sont présentés dans la partie supérieure, tandis que les scores d’inter‑ valle (GRIS et GRISmod), le score de Dawid‑Sebastiani (DSS) et le score basé sur la variance (VS) sont présentés dans la partie infé‑ rieure. Les intervalles de prédiction, les valeurs observées et les scores GRIS, GRISmod et VS sont exprimés en millions. Le score de Dawid‑Sebastiani est divisé par dix. Source : voir premiers paragraphes de la section 3. Figure VI – Taille de la population totale, France métropolitaine. Intervalles de prédiction, valeurs observées et scores, base 2003 révisée 55 60 65 70 2000 2005 2010 2015 2020 0 2 4 6 8 10 12 2005 2010 2015 2020 Prévisions du projet UPE 2004-2019 Intervalle 80 % inf./sup. Observé 2000 millions millions GRIS 80 % GRISmod 80 % DSS/10 VS Note : les intervalles de prédiction et les valeurs observées sont pré‑ sentés dans la partie supérieure, tandis que les scores d’intervalle (GRIS et GRISmod), le score de Dawid‑Sebastiani (DSS) et le score basé sur la variance (VS) sont présentés dans la partie inférieure. Les intervalles de prédiction des prévisions du projet UPE 2004‑2019 sont corrigés de l’erreur inhérente à la population de base. Les intervalles de prédiction, les valeurs observées et les scores GRIS, GRISmod et VS sont exprimés en millions. Le score de Dawid‑Sebastiani est divisé par dix. Source : voir premiers paragraphes de la section 3. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 63 Évaluer les prévisions probabilistes de population contrôler les effets du délai de réalisation d’une prévision, précisément parce qu’il change très peu au fil du temps. Une autre possibilité consiste à examiner la pente des courbes du GRISmod et du VS, puisque ces deux fonctions de notation augmentent de façon plutôt homogène avec le temps. Des recherches complémentaires à ce sujet, s’appuyant sur les données de nombreuses autres prévisions (et tenant compte de la taille de différentes populations – voir ci‑dessous), sont indispensables. Comme nous l’avons dit, les scores relativement mauvais de la France peuvent s’expliquer par le fait que les fonctions de notation dépendent de la taille de la population. Pour pouvoir comparer les différents pays, nous devons normaliser les scores. Le tableau 1 montre les résultats des cinq prévisions en 2018, ces scores étant normalisés (voir section 2.4.). Les scores de la prévision française et des deux prévisions néerlandaises de l’année 2018 sont alors très semblables – voir la partie supérieure du tableau 1. Dans de nombreux cas, les scores des deux pays sont d’un ordre de grandeur supérieur à ceux de la Norvège. Pendant de nombreuses années, la taille de la population observée en France et aux Pays‑Bas est restée dans les limites des intervalles de prédiction (voir la partie supérieure des figures IV et VI, sachant que les intervalles français sont corrigés de l’erreur sur la population de base), ce qui contribue aux bons scores des deux pays. Les deux prévisions relatives à la Norvège reçoivent un mauvais score en raison de la sous‑prédiction de l’immigration nette, comme nous l’avons indiqué plus haut. Une raison supplémentaire expliquant les scores élevés du projet StocProj en 2018 est que l’année de base de cette prévision est 1996. Le délai de réalisation, pour atteindre 2018, est de 22 ans, donc plus long que celui du projet UPE (15 ans pour atteindre 2018). La partie inférieure du tableau 1 montre les scores normalisés du projet StocProj en 2011, donc après 15 ans. Par rapport aux scores des deux autres pays au bout de 15 ans, la situation s’est fortement améliorée, mais les scores du projet StocProj restent beau‑ coup plus élevés que ceux de CBS et du projet UPE en France et aux Pays‑Bas. L’évaluation finale des prévisions de la taille de la population totale se fait au moyen du CRPS. Nous le calculons à l’aide de 3 000 simulations tirées du projet UPE pour 2010. Le CRPS dépend de la taille de la population – voir l’expres‑ sion (6). Pour optimiser les comparaisons entre les trois pays, le tableau 2 présente les scores normalisés, définis comme étant le CRPS divisé par la moyenne des 3 000 simulations. Les résul‑ tats confirment la bonne qualité des prévisions du projet UPE pour les Pays‑Bas. 3.2. Structures par âge et par sexe Les figures VII à IX donnent les CRPS normalisés des populations simulées, par sexe et par tranches d’âge de cinq années, au 1er janvier 2010, selon les prévisions du projet UPE. Les lignes horizontales en pointillé repré‑ sentent les valeurs du CRPS pour les tailles de la population totale du tableau 2. Les trois graphiques utilisent la même échelle verticale. Les tendances des scores par âge varient forte‑ ment d’un pays à l’autre. Les résultats pour la Norvège à la figure VII sont faciles à interpréter. Les notes élevées, c’est‑à‑dire les prévisions de moindre qualité, concernent les jeunes enfants, les jeunes adultes et les personnes âgées. Les scores sont bien meilleurs dans les tranches 10‑19 ans et 55‑74 ans. Cette tendance par âge Tableau 1 – Scores d'intervalle, score basé sur la variance et score de Dawid‑Sebastiani Norvège Pays‑Bas Francea StocProj UPE CBS UPE UPE Année 2018 GRIS/µ 0.564 0.513 0.062 0.053 0.069 GRISmod/μ 0.038 0.022 0.021 0.011 0.014 VS/μ2 (x 1000) 17.552 6.569 1.108 0.781 1.154 DSS – 2ln(µ) ‑1.525 2.073 ‑6.797 ‑7.149 ‑6.639 15 ans dans le futur GRIS/µ 0.231 0.513 0.049 0.053 0.069 GRISmod/μ 0.021 0.022 0.016 0.011 0.014 VS/μ2 (x 1000) 4.870 6.569 0.906 0.781 1.154 DSS – 2ln(µ) ‑3.752 2.073 ‑6.903 ‑7.149 ‑6.639 (a) Chiffres corrigés de l’erreur sur la population de base. Note : tous les scores sont normalisés. Source : voir premiers paragraphes de la section 3. 64 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 reflète la sous‑prédiction de l’immigration après 2005, comme nous l’avons noté plus haut, mais les erreurs de prédiction relatives aux naissances et aux décès ont pu également jouer un rôle. De fait, la tendance des scores par âge est similaire, en termes qualitatifs, à celle des erreurs absolues des prévisions ponctuelles de la structure par âge et par sexe des pays industrialisés (cf. par exemple Keilman, 2009). Cela vient du fait que les naissances, les flux migratoires et les décès sont difficiles à prédire. Le délai de réalisation des prévisions du projet UPE n’est que de sept ans. Avec un horizon si court, la fécondité n’a pas d’impact sur la tranche d’âge 10‑19 ans. La migration internationale et la mortalité n’in‑ fluencent que très peu ces tranches d’âge. Il en est de même pour la tranche d’âge 55‑74 ans. Il va de soi que, si l’évaluation avait eu lieu après un délai de réalisation de vingt ans ou plus, les valeurs du CRPS normalisé des tranches d’âge 10‑19 ans et 55‑74 ans auraient été bien plus mauvaises. Pour finir, notons que les scores attribués aux hommes dans les tranches d’âge 19‑54 ans et 75 ans et plus sont un peu supé‑ rieurs à ceux attribués aux femmes des mêmes tranches d’âge. En effet, les hommes sont plus susceptibles que les femmes de migrer (entre 19 et 54 ans) ou de mourir (après 75 ans). Alors que le score de la Norvège correspond à ce que l’on pouvait attendre, ceux des deux autres pays sont plus difficiles à interpréter. Les scores normalisés indiquent que la prévision néerlan‑ daise est de meilleure qualité que les deux autres, à l’exception de la tranche des personnes âgées. Les scores français tendent à diminuer à mesure que l’âge augmente. Cette tendance suggère que la fécondité était plus difficile à prédire avec exactitude que la migration internationale ou la mortalité. Nous pourrions également avancer plusieurs autres explications. Tout d’abord, la révision des chiffres de la population pourrait avoir été plus prononcée dans certaines tranches d’âge que dans d’autres. Nous avons constaté (chiffres non fournis ici) que les chiffres révisés des hommes et des femmes, par tranche d’âge de cinq années, sont supérieurs d’environ 1 % à ceux utilisés dans le projet UPE. Soulignons cependant quelques exceptions. Les révisions se chiffrent à moins de 0.5 % dans les tranches d’âge 0‑4 ans et 80 ans et plus, tandis que, pour les hommes de 20‑24 ans, le chiffre révisé est inférieur de 1 % à celui utilisé dans le projet UPE. Cette tendance née des révisions effec‑ tuées entre 2003 et 2010 n’est pas illustrée dans la figure IX. Ensuite, la surestimation ou la sous-estimation des flux migratoires nets vers la France entre 2003 et 2009 peut également varier d’une tranche d’âge à l’autre. Enfin, nos données empiriques sur la distribution par âge et par sexe, à partir de 2010, incluent les effets de corrections administratives, terme qui couvre la correction d’erreurs d’enregistrement et des ajustements statistiques. Ces corrections sont nécessaires au cas où l’enregistrement des nais‑ sances et des décès est incomplet. En Norvège et aux Pays‑Bas (pays disposant d’un registre de la population), les erreurs d’enregistrement de l’immigration et de l’émigration sont également incluses dans les corrections administratives. Les effets de ces corrections sont probablement minimes en Norvège ; ils sont plus marqués pour les Pays‑Bas et la France. Par exemple, les données de CBS et de l’Insee montrent que la migration nette totale de la période 2003‑2009, sans correction, se chiffre à 214 000 personnes aux Pays-Bas et 601 000 en France. Mais avec les données de migration nette d’Eurostat, qui incluent ces corrections, les chiffres sont nette‑ ment différents sur la même période, à savoir respectivement 17 000 et 884 000 personnes6 . Dans la mesure où il est difficile d’obtenir des données fiables dissociant la migration nette et les corrections administratives et ajustements par tranche d’âge aux Pays‑Bas et en France, nous 6. En Norvège, les chiffres sont de 188 300 (sans correction) et de 187 800 (avec corrections). Pour la France, l'Insee fournit des chiffres distincts pour la migration nette et les ajustements. Ce détail n'est pas disponible dans les données d'Eurostat. Figure VII – CRPS normalisés pour la population par âge et sexe, Norvège, prévisions du projet UPE, 2010 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85+ Hommes Femmes Source : voir premiers paragraphes de la section 3. Tableau 2 – CRPS normalisés pour la taille de la population totale, prévisions UPE pour 2010 Norvège Pays‑Bas France 0.0249 0.0075 0.0492 Source : voir premiers paragraphes de la section 3. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 65 Évaluer les prévisions probabilistes de population n’avons pas analysé ce problème de façon plus poussée. Notons également que les prévisions du projet UPE ne contiennent pas de variable séparée qui traite des corrections administra‑ tives (pratique courante pour les prévisions de population). Nous tirons de cette évaluation la conclusion générale suivante : les prévisions du projet UPE concernant la pyramide de la population néerlandaise de 2010, telle que mesurée par le CRPS normalisé, sont de meilleure qualité que les prévisions du projet UPE concernant la Norvège et la France, à l’exception des personnes très âgées. La tendance par âge du CRPS de la Norvège est semblable à celle des erreurs absolues des prévisions ponctuelles. Il est difficile de dire pourquoi les tendances par âge varient grandement entre les trois pays, notam‑ ment en raison de problèmes liés aux données sur la migration internationale. * * * Cet article vise à montrer comment une prévision de population probabiliste peut être évaluée, une fois que les observations relatives aux variables prédites sont disponibles. Les statisticiens ont développé diverses règles de notation à ces fins, mais elles sont très peu appliquées dans la littérature relative aux prévisions de population. Une règle de notation mesure la distance entre la distribution de probabilité de la variable prédite et ses résultats réels. En soi, un score n’a pas de signification intrinsèque – nous ne pouvons l’interpréter qu’en le comparant au score d’une autre prévision. Nous avons utilisé les règles de notation qui récompensent l’exactitude (le résultat est proche de l’espérance de la prédic‑ tion) et la précision (la distribution prédictive présente une faible variance, de sorte qu’il est difficile d’atteindre l’objectif). On peut arguer que l’exactitude est plus importante que la précision : la précision ne devrait être récom‑ pensée que si le résultat n’est pas trop loin de la tendance centrale de la distribution prédictive. Nous avons discuté la notion de « trop loin ». Un prévisionniste peut mettre ses prévisions probabilistes à la disposition des utilisateurs de trois façons différentes. Premièrement, il peut publier un intervalle de prédiction pour la variable d’intérêt. Des probabilités de couver‑ ture de 67 % et de 80 % sont les plus courantes. Certains prévisionnistes traitant de la population présentent des intervalles de prédiction de 95 %. Nous recommandons d’éviter cette pratique, car les intervalles de 95 % sont très larges, dans la mesure où ils tendent vers les quantiles en cas de survenance d’événements extrêmes. Deuxièmement, le prévisionniste peut fournir à l’utilisateur une base de données contenant les parcours d’échantillonnage de l’évolution de la taille de la population, simulée de façon stochas‑ tique, ainsi que des résultats d’autres prévisions. Parfois, seuls le moment de premier ordre (espé‑ rance) et le moment de second ordre (variance) de l’intervalle de prédiction sont disponibles. Nous avons présenté les règles de notation pouvant être utilisées pour l’un ou l’autre des types de résultats de prévisions. Les règles de notation sont orientées négativement : un score inférieur indique une meilleure prévision. Figure VIII – CRPS normalisés pour la population par âge et par sexe, Pays‑Bas, prévisions du projet UPE, 2010 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85+ Hommes Femmes Source : voir premiers paragraphes de la section 3. Figure IX – CRPS normalisés pour la population par âge et par sexe, France métropolitaine, prévisions du projet UPE, 2010 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85+ Hommes Femmes Source : voir premiers paragraphes de la section 3. 66 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Nous avons évalué les prévisions de popula‑ tion probabilistes établies pour la France, les Pays‑Bas et la Norvège. Pour les trois pays, nous avons utilisé les résultats du projet UPE. Puisque de nombreuses règles de notation appliquent la même échelle que pour la taille de la popula‑ tion, nous avons proposé d’utiliser des règles de notation normalisées lorsque l’intérêt réside dans la comparaison des prévisions établies pour différents pays. Nous avons examiné les intervalles de prédiction relatifs à la taille de la population sur la période 2004‑2019, ainsi que 3 000 parcours d’échantillonnage relatifs aux pyramides des âges pour l’année 2010. Aux Pays‑Bas et en Norvège, nous avons comparé les résultats du projet UPE avec les conclusions des prévisions de population probabilistes offi‑ cielles du CBS (2001‑2019) et d’une prévision probabiliste concernant la Norvège (1997‑2019). Toutes les prévisions ont été calculées à l’aide de la méthode par cohorte et composante et selon des paramètres stochastiquement variables pour la fécondité, la mortalité et la migration, ainsi qu’une population de base déterministe. Nos évaluations montrent que les prévisions du projet UPE concernant les Pays‑Bas et la Norvège ont obtenu de meilleurs scores que les autres prévisions pour ces deux pays, parce que les prédictions du projet UPE étaient relative‑ ment précises, avec des intervalles de prédiction étroits. Les prévisions du projet UPE concernant la France sont basées sur la population de base de 2003, estimée à 60.1 millions de personnes au moment où la prévision a été calculée. Ce chiffre dépasse de près de 500 000 personnes l’estimation actuelle de la population de 2003 (59.6 millions). L’erreur sur la population de base a engendré un mauvais score pour la prévision française. Il est courant de réviser les statistiques sur la population des années intercensitaires une fois que les données tirées d’un nouveau recen‑ sement sont disponibles. Si l’on n’est pas certain de la taille et de la structure d’une population durant une période intercensitaire, la bonne approche consiste à traiter la population de base de la prévision comme étant stochastique. Nous avons évalué les 3 000 simulations du projet UPE relatives à la composition par âge et par sexe prédite pour 2010. Une fois normalisées en fonction des chiffres de la population pour chaque tranche d’âge et chaque sexe, les prédic‑ tions relatives aux Pays‑Bas ont reçu les meilleurs scores, à l’exception de la tranche d’âge des personnes très âgées. Pour le score norvégien, la tendance par âge reflète la sous‑prédiction de l’immigration après l’élargissement de l’Union européenne en 2005. Toutefois, les erreurs de prédiction relatives à la fécondité et à la morta‑ lité ont pu elles aussi jouer un rôle. Les scores de la France spécifiques à chaque tranche d’âge sont difficiles à interpréter. Ils ne reflètent pas la tendance par âge de la révision susmen‑ tionnée des données sur la population de 2003. La sur‑prédiction ou la sous‑prédiction de la fécondité, de la mortalité et de la migration ont pu elles aussi jouer un rôle. Dans le modèle par cohortes et composantes, la composition de la population de 2010 par âge et par sexe est une fonction non‑linéaire complexe des paramètres du modèle relatifs à la mortalité, à la fécondité et à la migration avant 2010. Pour cette raison, nous ne pouvons pas identifier l’impact de ces trois composantes de changement sur les scores. En plus du problème de la révision des données, nous avons également été confrontés à celui des « corrections administratives ». Ces corrections sont parfois utilisées par les instituts de statistique en tant que composante distincte de changement de la structure et de la taille de la population. En cas d’erreur dans l’enregistrement des nais‑ sances, des décès et des flux migratoires, il est nécessaire de faire ces corrections administra‑ tives et des ajustements statistiques pour obtenir des statistiques de la population cohérentes en termes comptables. Ces corrections influencent fortement les chiffres empiriques de la population pour les Pays‑Bas et la France. La littérature évaluant les prévisions de proba‑ bilité et examinant de nombreuses règles de notation est abondante. Un grand nombre de ces règles s’appliquent à la distribution prédictive d’une variable aléatoire discrète et présentent peu d’intérêt pour l’évaluation des prévisions démographiques. Si nous nous limitons aux règles de notation applicables aux variables aléatoires continues, la littérature en recense également un grand nombre et nous n’en avons choisi que quelques‑unes. Comme nous l’avons montré aux sections 2 et 3, ces règles de notation sont très différentes, accordant par exemple des poids différents à la distance ou à la précision. Certaines règles attribuent un mauvais score dès que les chiffres observés sortent de l’inter‑ valle de prédiction. D’autres évoluent de façon plus homogène à mesure que l’observation s’éloigne de la tendance centrale et des bornes de l’intervalle. Des travaux supplémentaires sont nécessaires sur les règles de notation applicables aux prévisions démographiques probabilistes, qui, nous l’espérons, permettront de définir des principes directeurs guidant la sélection de ces règles dans diverses situations. Les règles de notation sont utiles dans le cadre de l’évaluation ex‑post facto de deux prévisions ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 67 Évaluer les prévisions probabilistes de population probabilistes ou plus. Après avoir déterminé qu’une prévision est meilleure qu’une autre, sur la base de plusieurs fonctions de notation, nous devons nous demander pourquoi. Pour répondre à cette question, il faut soigneusement analyser les nombreuses étapes du processus de produc‑ tion des deux prévisions probabilistes. Cela constitue un nouveau défi, notamment lorsque des spécialistes appartenant à des institutions différentes ont calculé les deux prévisions. BIBLIOGRAPHIE Alders, M. & De Beer, J. (1998). Kansverdeling van de bevolkingsprognose (“Probability distribution of the population forecast”). Maandstatistiek van de Bevolking, 46, 8–11. Alexopoulos, A., Dellaportas, P. & Forster, J.J. (2018). Bayesian forecasting of mortality rates by using latent Gaussian models. Journal of the Royal Statistical Society: Series A (Statistics in Society), 182(2), 689–711. https://doi.org/10.1111/rssa.12422 Alho, J. & Nikander, T. (2004). Uncertain population of Europe: Summary results from a stochastic forecast. http://www.stat.fi/tup/euupe/del12.pdf Alho, J. & Spencer, B. (2005). Statistical Demography and Forecasting. New York: Springer. Askanazi, R., Diebold, F. X., Schorfheide, F. & Shin, M. (2018). On the comparison of interval forecasts. Journal of Time Series Analysis, 39(6), 953–965. https://doi.org/10.1111/jtsa.12426 Bijak, J. & Bryant, J. (2016). Bayesian demography 250 years after Bayes. Population Studies, 70(1), 1–19. https://doi.org/10.1080/00324728.2015.1122826 Blanpain, N. & Buisson, G. (2016). Projections de population à l’horizon 2070 : Deux fois plus de personnes de 75 ans ou plus qu’en 2013. Insee Première N°1619. https://www.insee.fr/fr/statistiques/fichier/version-html/2496228/ip1619.pdf Brier, G. (1950). Verification of forecasts expressed in terms of probability. Monthly Weather Review, 78(1), 1–3. https://doi.org/10.1175/1520-0493(1950)078%3C0001:VOFEIT%3E2.0.CO;2 CBS (2001). Maandstatistiek van de Bevolking N° 49 (januari), pp. 63–70. Costemalle, V. (2020). Projections probabilistes bayésiennes de population pour la France. Economie et Statistique / Economics and Statistics, ce numéro. Gneiting, T. & Raftery, A. (2007). Strictly proper scoring rules, prediction and estimation. Journal of the American Statistical Association, 102(477), 359–378. https://doi.org/10.1198/016214506000001437 Gneiting, T. & Katzfuss, M. (2014). Probabilistic forecasting. Annual Review of Statistics and Its Applications, 1, 125–151. https://doi.org/10.1146/annurev-statistics-062713-085831 ISTAT – Istituto Nazionale di Statistica (2018). Il futuro demografico del paese: Previsioni regionali della popolazione residente al 2065 (base 1.1.2017). Report Statistische 3 maggio 2018. Roma: ISTAT. Jordan, A., Krüger, F. & Lerch, S. (2019). Evaluating Probabilistic Forecasts with scoringRules. Journal of Statistical Software, 90(12). https://doi.org/10.18637/jss.v090.i12. Keilman, N. (1990). Uncertainty in national population forecasting: Issues, backgrounds, analyses, recom‑ mendations. Amsterdam and Rockland, MA: Swets and Zeitlinger Publishers. Keilman, N. (2009). Erroneous population forecasts. In: P. Festy & J.‑P. Sardon (Eds.) Profession démographe ‑ Hommage à Gérard Calot, pp. 237–254. Paris: INED. Keilman, N., Pham, D. Q. & Hetland, A. (2002). Why population forecasts should be probabilistic ‑ illustra‑ ted by the case of Norway. Demographic Research, 6‑15, 409–454. https://doi.org/10.4054/DemRes.2002.6.15 Keyfitz, N. (1981). The limits of population forecasting. Population and Development Review, 8(44), 579–593. https://doi.org/10.2307/1972799 Matheson, J. E. & Winkler, R. L. (1976). Scoring rules for continuous probability distributions. Management Science, 22, 1087–1096. http://dx.doi.org/10.1287/mnsc.22.10.1087 Murphy, A. (1970). The ranked probability score and the probability score: A comparison. Monthly Weather Review, 98(12), 917–924. https://doi.org/10.1175/1520‑0493(1970)098%3C0917:TRPSAT%3E2.3.CO;2 NRC – National Research Council (2000). Beyond six billion: Forecasting the world’s population. Panel on Population Projections. John Bongaarts and Rudolfo Bulatao (eds). Washington DC: National Academy Press. 68 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Raftery, A., Li, N., Ševčíková, H., Gerland, P. & Heilig, G. (2012). Bayesian probabilistic population pro‑ jections for all countries. PNAS ‑ Proceedings of the National Academy of Sciences, 109(35), 13915–13921. https://doi.org/10.1073/pnas.1211452109 Shang, H. L. (2015). Statistically tested comparisons of the accuracy of forecasting methods for age‑specific and sex‑specific mortality and life expectancy. Population Studies, 69(3), 317–335. https://doi.org/10.1080/00324728.2015.1074268 Shang, H. L., Smith, P., Bijak, J. & Wisniowski, A. (2016). A multilevel functional data method for forecas‑ ting population, with an application to the United Kingdom. International Journal of Forecasting, 32, 629–649. https://doi.org/10.1016/j.ijforecast.2015.10.002 Shang, H. L. & Hyndman, R. (2017). Grouped functional time series forecasting: An application to age‑ specific mortality rates. Journal of Computational and Graphical Statistics, 26(2), 330–343. https://doi.org/10.1080/10618600.2016.1237877 Smith, S., Tayman, J. & Swanson, D. (2001). State and Local Population Projections: Methodology and Analysis. New York: Kluwer Academic/Plenum Publishers. Staël von Holstein, C.‑A. (1970). A family of strictly proper scoring rules which are sensitive to distance. Journal of Applied Meteorology, 9, 360–364. https://www.jstor.org/stable/26174966 Statistics New Zealand (2011). National Population Projections: 2011(base) – 2061. Bulletin published 19 July 2012. http://archive.stats.govt.nz/browse_for_stats/population/estimates_and_projections/NationalPopulationProjections_ HOTP2011.aspx (accessed on 21 March 2019). ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 69 Le vieillissement de la population française est‑il inéluctable ? Is the Ageing of the French Population Unavoidable? Nathalie Blanpain* Résumé – Une projection de population n’est pas une prévision certaine, mais une estimation de ce que pourrait être l’évolution future de la population sous certaines hypothèses d’évolution de la mortalité, de la fécondité et des migrations, autour d’un scénario central qui suppose la poursuite des tendances démographiques récentes. Cet article s’intéresse aux hypothèses des projections de population établies pour la France en 2016. Il revient d’abord sur l’approche rete‑ nue par l’Insee pour les établir, puis examine le caractère plus ou moins certain des principaux résultats. Le vieillissement observé depuis plus d’un siècle devrait se poursuivre ; toutefois en retenant un indicateur basé sur « l’âge prospectif », la population ne vieillirait pas. L’évolution de l’ensemble de la population est, quant à elle, incertaine. En 2070, l’effectif de la population de l’Union européenne à 28 serait proche de celui de 2019. L’amélioration de l’espérance de vie combinée à un solde migratoire positif compenserait un niveau de fécondité ne permettant pas le renouvellement des générations. Abstract – A population projection is not a certain prediction, but rather an estimate of what the future evolution of the population might be under certain assumptions about changes in mortality, fertility and migration, around a central scenario that suggests a continuation of recent demographic trends. This article looks at the assumptions made for the population projections conducted for France in 2016. It first reviews the approach used by Insee to establish them, and then examines the more or less certain nature of the main results. The ageing process observed for more than a century is expected to continue; however, if an indicator based on "prospective age" is used, the population would not age. The evolution of the population as a whole is uncertain. In 2070, the size of the population of the 28-member European Union would be close to that of 2019. The improvement in life expectancy combined with a positive migratory balance would compensate for a fertility level that does not allow for the renewal of generations. Codes JEL / JEL Classification: J11, N34 Mots‑clés : projections de population, vieillissement, fécondité, mortalité, espérance de vie, âge prospectif, solde migratoire, France, Union européenne Keywords: population projections, ageing, fertility, mortality, life expectancy, prospective age, net migration, France, European Union *Insee (nathalie.blanpain@insee.fr) Reçu en octobre 2019, accepté en avril 2020. Citation: Blanpain, N. (2020). Is the Ageing of the French Population Unavoidable? Economie et Statistique / Economics and Statistics, 520‑521, 65–85. https://doi.org/10.24187/ ecostat.2020.520d.2029 Rappel ‑ Les jugements et opinions exprimés par les auteurs n’engagent qu’eux mêmes, et non les institutions auxquelles ils appartiennent, ni a fortiori l’Insee. 70 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Les projections de population permettent d’obtenir des estimations de la popula‑ tion à divers horizons, à partir de différentes hypothèses. Il ne s’agit donc pas de prévisions certaines, et des retournements de situation peuvent entrainer des écarts importants entre les données réelles et celles projetées. Un exemple extrême est celui de la projection réalisée par Alfred Sauvy en 1936, présen‑ tée par Hubert et al. (1937) dans un chapitre intitulé « La dépopulation à craindre et les remèdes à lui opposer ». Si les tendances de l’époque s’étaient poursuivies, la France aurait compté 29.6 millions d’habitants en 1985 (voir annexe). Or il y en a eu 25.6 millions de plus. La projection supposait que la fécondité allait continuer à diminuer au même rythme que sur la période 1930‑19351 et n’a évidemment pas anticipé le baby‑boom de l’après‑guerre. Par ailleurs, elle supposait que la mortalité conti‑ nuerait de baisser au même rythme que sur la période 1925‑1935. Les auteurs pensaient même que cette prolongation de la baisse de la mortalité était optimiste : « le nombre de décès prévu pour 1985 pourrait sembler exagérément faible, car il correspond à une mortalité par âge réduite de 65 % pour les hommes comme pour les femmes de moins de 50 ans » (Hubert et al., 1937, p. 217). Pourtant, la projection s’est révélée pessimiste puisque la mortalité a baissé à un rythme annuel moyen plus important entre 1935 et 1985 que sur la période de référence de 1925 à 1935. Selon la projection de 1937, 556 000 décès auraient eu lieu en 1985, soit un taux de mortalité de 1.9 %, près de deux fois supérieur à celui réellement observé en 1985 (1.0 %). De même, le solde migratoire était supposé nul. Les auteurs indiquaient que « si l’accroissement de la population continue à se ralentir de plus en plus en Europe, la source où nous avons puisé nos migrants se tarira rapide‑ ment ». Finalement, le solde migratoire a été net‑ tement positif chaque année entre 1946 et 1985. Cet exemple historique illustre l’importance des hypothèses élaborées pour réaliser des projec‑ tions de population. L’objectif des projections est d’éclairer les décisions publiques, par exemple s’agissant de l’équilibre du système de retraite, du nombre d’établissements d’enseignement, d’accueil de jeunes enfants, etc. Une projection démographique porte classiquement sur la popu‑ lation ventilée par sexe et âge. Des modélisations complémentaires peuvent enrichir la projection selon d’autres variables d’intérêt, par exemple, la région de résidence (Desrivierre, 2017), l’activité professionnelle (Koubi, 2017), l’état de santé et le niveau de dépendance (Roussel, 2017). Deux grandes approches sont possibles pour estimer la population à venir : déterministe et probabiliste. L’approche déterministe permet d’estimer « ce qui se produirait » sous un jeu d’hypothèses définissant un scénario ; c’est l’approche retenue pour les projections de popu‑ lation publiées par l’Insee en 2016. Plusieurs jeux d’hypothèses permettent d’élaborer plusieurs scénarios. Les résultats les plus robustes sont ceux obtenus dans tous les scénarios et les plus fragiles ceux qui varient fortement selon le scénario. L’élaboration des hypothèses peut s’appuyer sur l’extrapolation des tendances du passé, sur la fixation de tendances de long terme (sur la base, notamment, d’avis d’experts), sur un modèle structurel qui explique l’évolution de la population à l’aide de variables exogènes ou sur la combinaison de ces trois méthodes (Costemalle, ce numéro). Quant aux approches probabilistes, elles permettent de quantifier l’incertitude sur « ce qui se produirait » avec une probabilité donnée. Il s’agit dans ce cas d’établir un grand nombre de projections pour calculer un intervalle de confiance. Les jeux d’hypothèses reposent sur la modélisation de la fécondité, de la mortalité et des migrations. Pour la France, les projections résultant des deux approches sont peu éloignées : ainsi, l’effectif de la population en France métro‑ politaine en 2050 obtenu avec le scénario central de l’approche déterministe ne s’écarte que de 2 % de celui obtenu dans le scénario médian de l’approche probabiliste (Costemalle, ce numéro). Que l’approche soit déterministe ou probabiliste, la méthode des composantes est généralement utilisée. Elle consiste à « faire vieillir », d’année en année, la dernière pyramide des âges connue, en vue d’établir la pyramide des âges dans un certain nombre d’années. Le statisticien suédois Sven Wicksell fut, en 1926, l’un des premiers à s’appuyer sur cette méthode pour estimer l’évolution de la population suédoise (Wicksell, 1926 ; Wattelar, 2004). Seuls quelques événe‑ ments peuvent modifier à la hausse ou à la baisse la population d’un pays : les naissances, les décès, les migrations. Les hypothèses portent donc sur les évolutions à venir de la fécondité, de la mortalité et du solde migratoire. On fait alors évoluer la population par sexe et âge, en ajoutant les naissances par sexe, en soustrayant les décès par sexe et âge et en ajoutant le solde migratoire par sexe et âge. 1. L’indicateur conjoncturel de fécondité était passé de 2.3 à 2.1. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 71 Le vieillissement de la population française est‑il inéluctable ? Cet article s’intéresse principalement aux hypo‑ thèses des projections de population établies pour la France en 2016. La première section revient sur l’approche retenue par l’Insee pour les établir. La deuxième section est consacrée aux principaux résultats, en distinguant ceux qui sont relative‑ ment robustes et ceux qui sont au contraire les plus fragiles. Enfin, la troisième section compare la situation de la France à celle de ses voisins de l’Union européenne (UE) à partir des projections publiées par Eurostat en 2019. 1. Les hypothèses des projections de population de 2016 pour la France Pour élaborer les hypothèses, l’Insee a sollicité des experts nationaux, chercheurs et repré‑ sentants d’institutions variées utilisant les projections ou spécialistes de certains domaines2 , et des experts internationaux, pour la plupart responsables des projections démographiques de leur pays. Vingt‑cinq ont répondu à un question‑ naire sur l’évolution de la mortalité, la fécondité, les migrations, l’horizon de la projection et la méthode à utiliser. Les réponses, dont nous présentons ici une synthèse, sont détaillées dans Blanpain & Buisson (2016a). Les projections de population sont révisées environ tous les 5 ans en France. Une projection jusqu’en 2070 convenait à la plupart des experts qui se sont exprimés. Deux experts auraient préféré un horizon plus lointain et trois un horizon plus restreint. L’horizon de 2070 a été retenu. La plupart des experts s’accordaient sur la complémentarité de la méthode déterministe et de la méthode probabiliste. La méthode déterministe a été choisie, car elle permet une communication plus aisée auprès d’un public non spécialisé. Elle rend aussi plus simple la réalisation de projections dérivées (projection de population active par exemple). Cette projec‑ tion repose sur la méthode des composantes. Elle consiste à estimer la population de l’année suivante (année n+1) à partir de la population de départ (année n), en y ajoutant les naissances et le solde migratoire (entrées – sorties) et en y retranchant les décès, puis à répéter l’opération année après année : Popn + 1 = Popn + Naissancesn – Décèsn + Solde Migratoiren En France, les estimations de population et les statistiques de l’état civil permettent d’estimer les taux de fécondité par âge des années passées et de constituer l’historique des quotients de mortalité, c’est‑à‑dire la probabilité de mourir dans l’année par sexe et âge. Les soldes migra‑ toires par sexe et âge sont établis par différence entre les populations successives et le solde naturel (naissances – décès). Une majorité d’experts a validé le choix d’un nombre impair d’hypothèses qui permet de définir un scénario central. Pour chacune des composantes, mortalité, fécondité, migration, on a déterminé trois hypothèses (centrale, basse et haute). L’hypothèse centrale est généralement celle de la poursuite des tendances récentes. L’hypothèse basse retient une évolution moins rapide que par le passé et l’hypothèse haute plus rapide. Les projections basées sur le prolongement des tendances, comme c’est le cas ici, ne peuvent par définition pas prévoir des retournements de tendance. L’analyse des écarts entre les évolutions observées et les projections antérieures (Blanchet & Le Gallo, 2014) invite à la prudence, ce qui conduit à réaliser plusieurs scénarios pour analyser la sensibilité des résul‑ tats aux différentes hypothèses. Un scénario repose sur une hypothèse pour la fécondité, une pour la mortalité et une pour le solde migratoire. La combinaison de trois hypothèses (centrale, basse, haute) pour chaque composante débouche sur vingt‑sept scénarios, avec un scénario central qui combine les hypo‑ thèses centrales des trois composantes. Six scénarios illustrent ce qui se passerait si une seule des hypothèses était modifiée par rapport au scénario central : le scénario d’espérance de vie basse et haute, de fécondité basse et haute et de migration basse et haute. Par ailleurs, quatre scénarios extrêmes combinent les hypothèses conduisant à une population basse, haute, jeune ou âgée. Par exemple, le scénario de population âgée combine une hypothèse d’espérance de vie haute, de fécondité basse et de migration basse. Enfin, trois autres scénarios ont également été construits permettant d’estimer ce qui se passe‑ rait si l’indicateur conjoncturel de fécondité de la France était celui de l’Europe en 2015, si l’espérance de vie restait à son niveau de 2014 ou si le solde migratoire était nul3 . 1.1. Mortalité L’hypothèse centrale suppose que la mortalité continuera à baisser au même rythme que par le passé jusqu’à l’horizon de la projection. Ceci 2. Entre autres : Conseil d’orientation des retraites (COR), Direction de la recherche, des études, de l’évaluation et des statistiques (Drees), Institut national d’études démographiques (Ined), Institut Paris région, Institut national de la santé et de la recherche médicale (Inserm). 3. Les hypothèses et les résultats de l’ensemble des scénarios ont été publiés (Blanpain & Buisson, 2016b). 72 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 nécessite donc de définir une période de référence pour ce passé. La période de référence retenue ici est 1995‑2014. Elle comprend l’année 2003, période de canicule où la mortalité a particulière‑ ment augmenté aux âges élevés ainsi que l’année suivante 2004, où l’espérance de vie a connu un rebond exceptionnel, +11 mois pour les hommes comme pour les femmes (Papon, 2019). Au final, l’épisode de canicule a eu paradoxalement un effet plutôt positif à long terme sur l’évolution de l’espérance de vie grâce à des mesures de prévention visant notamment les personnes âgées (Pison, 2007). La période de référence est assez longue, vingt années de 1995 à 2014, afin de lisser le choc de 2003‑2004. Toutefois, les tendances plus récentes s’en écartent un peu : en particulier l’espérance de vie stagne ou progresse moins rapidement, dans certains pays européens dont la France. D’après Eurostat, l’espérance de vie dans l’UE à 28 est de 81.0 ans en 2018, soit le même niveau qu’en 2014 (80.9 ans). En France, entre 2014 et 2019, elle n’a augmenté que de 0.2 an pour les femmes et de 0.5 an pour les hommes (Beaumel & Papon, 2020). Certes, trois des cinq années de 2014 à 2018 ont été marquées par une épidémie de grippe relative‑ ment meurtrière (Équipes de surveillance de la grippe, 2018). Mais le ralentissement des progrès de l’espérance de vie est peut‑être également le signe que les retombées de la « révolution cardio‑ vasculaire » sont en voie d’épuisement (Pison, 2019). De plus, chez les femmes, la mortalité par cancer a cessé de baisser ces dernières années notamment en raison de la montée du tabagisme dans les années 1950 à 1980 parmi celles âgées de 50 ans ou plus aujourd’hui (Pison, 2019). La période de référence choisie conduit donc à une projection un peu plus optimiste que si ces dernières données avaient été connues. Au moment de la construction des hypothèses, cette stagnation n’était pas anticipée, ou en tout cas pas comme un phénomène durable à intégrer dans la projection centrale de population de long terme. La question de la durabilité du ralentisse‑ ment des gains d’espérance de vie se posera lors du prochain exercice de projection. Le choix des hypothèses d’une projection s’ex‑ plique aussi en partie par les leçons tirées des projections passées, en particulier des erreurs alors commises. Ainsi, les projections réalisées dans les années 1970 et 1980 en France supposaient que l’espérance de vie atteindrait un plafond à plus ou moins long terme, estimant qu’elle approchait une limite biologique. Or ce niveau s’est avéré très en‑deçà des valeurs observées par la suite (Blanchet & Le Gallo, 2014). Par exemple, la projection de 1979 conduisait à une espérance de vie de 78 ans pour les femmes et de 70 ans pour les hommes en 2015, soit respectivement 7 ans et 9 ans de moins que ce qui a finalement été observé. À partir des années 1990, les projections ont donc pris le parti d’extrapoler les tendances passées de la mortalité sans les plafonner, ce qui a conduit à des résultats beaucoup plus proches des données observées4 . La projection de 2016 se fonde ainsi sur une prolongation des tendances de la mortalité sans plafonnement. Une nouveauté a toutefois été introduite, suivant les recommandations de l’un des experts : la projection des quotients de mortalité selon la tendance passée a été modulée pour prendre en compte un effet de génération. En effet, alors que la mortalité par âge diminue en général de génération en génération, elle stagne à l’âge adulte pour les générations nées à la fin de la seconde guerre mondiale ou juste après, pour les hommes comme pour les femmes. Cette stagnation est par exemple visible à 50 ans pour les femmes (figure I). À cet âge, la probabilité de mourir dans l’année était de 2.5 pour 1 000 pour les femmes nées en 1941, quasiment identique à celle des femmes nées en 1956 (2.4 pour 1 000, soit ‑2 %), alors pour les générations précédentes nées de 1931 à 1941 (‑21 %) et pour les générations suivantes nées de 1956 à 1966 (‑21 %). Ce palier est observable pour la plupart des âges adultes, ce qui atteste d’un effet lié à la génération et non lié à la période. Une manière de synthétiser cet effet de génération consiste à observer la probabilité de mourir entre deux âges donnés (figure II). Par exemple, parmi les femmes qui ont atteint l’âge de 18 ans, la probabilité de mourir entre 18 et 54 ans baisse assez peu entre les générations nées de 1941 à 1956 (‑9 % en 15 ans) et rapidement entre les générations précédentes nées de 1931 à 1941 (‑22 % en 10 ans) et suivantes, nées de 1956 à 1965 (‑18 % en 9 ans). Cette évolution spécifique est prise en compte dans les projections. L’effet de génération visible jusqu’à l’âge de 70 ans5 est ainsi supposé se poursuivre jusqu’à la fin de la vie des géné‑ rations dites « du palier », nées entre 1941 et 1956 pour les femmes et entre 1941 et 1953 pour les hommes. Concrètement, pour l’hypo‑ thèse centrale, on calcule le taux annuel moyen d’évolution de la mortalité à 59 ans6 entre la 4. Ainsi, pour les femmes, les projections de 1995, 2003, 2006 et 2010 amenaient toutes à une espérance de vie proche de 85.5 ans en 2015, soit moins d’un an d’écart avec la situation observée. Pour les hommes, la projection de 1995 était un peu pessimiste (2 ans d’écart) et celles de 2003, 2006 et 2010 sont proches de la réalité observée (moins d’un an d’écart). 5. À cet âge, on observe seulement le début du palier. 6. Âge atteint en 2015 par la génération née en 1956. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 73 Le vieillissement de la population française est‑il inéluctable ? génération 1941 et 1956 pour les femmes (entre 1941 et 1953 pour les hommes), et on applique le même taux aux âges suivants (cf. figure I). Il reste à déterminer le taux annuel d’évolution des quotients de mortalité aux alentours de la cinquantaine pour les générations nées à partir de 1956. En effet, en appliquant les taux d’évo‑ lution des quotients observés durant la période de référence, la baisse serait fortement ralentie. Par exemple, pour calculer l’évolution des quotients de mortalité à 50 ans, que connaîtront les générations nées de 1970 à 2020, la période de référence 1995‑2014 concerne les générations nées de 1945‑1964 qui ont eu 50 ans durant cette période. Cela inclut en grande partie les géné‑ rations « du palier », pour lesquelles la baisse est ralentie, alors que l’on n’a pas de raison de supposer que ce ralentissement concernera les générations ultérieures. L’hypothèse retenue est que la mortalité reprend sa tendance à la baisse pour ces générations. Ainsi, la mortalité à 50 ans baisse à un rythme soutenu, comme c’était déjà le cas avant que les générations du palier atteignent cet âge. Le rythme de la baisse est obtenu par interpolation entre deux âges (figure III). Une hypothèse alternative, prolongeant simplement les tendances passées sans prendre en compte l’effet de génération, a été testée. L’hypothèse retenue et l’hypothèse alternative aboutissent quasiment à la même espérance de vie à la naissance en 2070 (Blanpain & Buisson, 2016a). Prendre en compte l’effet de génération conduit à deux effets qui se compensent : ralen‑ tissement de la baisse de la mortalité pour les générations nées à la fin de la seconde guerre mondiale ou juste après, et accélération de la Figure I – Quotient de mortalité des femmes par âge et année de naissance 4.9 5.4 5.9 6.4 6.9 1920 1925 1930 1935 1940 1945 1950 1955 1960 1965 1970 Palier 75 ans 70 ans 65 ans 50 ans 55 ans 60 ans 45 ans année de naissance échelle logarithmique Lecture : la probabilité de mourir à l’âge de 50 ans des femmes nées en 1966 est 1.9 pour 1 000 (elle s’obtient de la manière suivante : exp (5.3)/100). Source et champ : Insee, de 1965 à 2016, estimations de population et statistiques de l’état civil, à partir de 2017, scénario central des projections de population. France métropolitaine pour les années d’observation jusqu’en 1990, France hors Mayotte de 1991 à 2013, France à partir de 2014. Figure II – Probabilité de mourir des femmes entre 18 et 54 ans par année de naissance % 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 1925 1930 1935 1940 1945 1950 1955 1960 1965 1970 1941 1956 année de naissance Lecture : parmi les femmes nées en 1966 et en vie à 18 ans, la pro‑ babilité de mourir entre 18 et 54 ans est de 3.5 %. Source et champ : Insee, estimations de population et statistiques de l’état civil. Femmes en vie à 18 ans, France métropolitaine pour les années jusqu’en 1990, France hors Mayotte de 1991 à 2013, France à partir de 2014. 74 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 baisse de mortalité aux alentours de 55 ans pour les générations ultérieures. L’évolution de l’espérance de vie à 60 ans est un peu ralentie avec la méthode retenue (en prenant en compte l’effet de génération) par rapport à la méthode alternative, notamment en début de période. Par exemple, en 2037, l’écart est de ‑0.6 an pour les hommes et ‑0.8 an pour les femmes. En résumé, l’hypothèse retenue comme hypo‑ thèse centrale est la suivante : - À chaque âge, la mortalité continue à baisser au même rythme que sur la période 1995‑2014, sauf si ces années incluent les générations 1941‑1956 pour les femmes (1941‑1953 pour les hommes). - Si ces années incluent au moins partielle‑ ment ces générations, la pente est calculée par interpolation. - Pour les générations 1941‑1956 pour les femmes (1941‑1953 pour les hommes), la mortalité est quasiment stable à chaque âge et l’hypothèse centrale suppose qu’elle le restera. L’hypothèse centrale conduit à une espérance de vie à la naissance de 90 ans pour les hommes et 93 ans pour les femmes en 2070, soit une hausse de 10.4 ans pour les hommes et 7.4 ans pour les femmes depuis 2019 (figure IV). À titre de comparaison, entre 1968 et 2019, soit une période de même durée (51 ans), l’espérance de vie des hommes avait augmenté un peu plus rapi‑ dement (11.9 ans) et celle des femmes nettement plus rapidement (10.4 ans). Les écarts d’espé‑ rance de vie entre hommes et femmes se sont réduits depuis le milieu des années 1990. Depuis cette date, la mortalité des hommes a baissé plus rapidement que celle des femmes, en particulier grâce à la diminution des morts violentes et de celles dues au cancer ou au Sida (Meslé, 2006). Selon l’hypothèse centrale, l’espérance de vie des hommes se rapprocherait encore de celle des femmes, l’écart ne serait plus que de 3 ans en 2070, contre 6 ans en 2019. En conséquence, le rééquilibrage entre hommes et femmes aux âges élevés devrait se poursuivre. En 2070, 39 % des personnes de 95 ans seraient des hommes, contre seulement 23 % en 2020. Figure III – Évolution annuelle du logarithme des quotients de mortalité des femmes par âge -0.045 -0.040 -0.035 -0.030 -0.025 -0.020 -0.015 -0.010 -0.005 0.000 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 âge hypothèse alternative - année de référence 1995-2014 hypothèse retenue - avec interpolation Lecture : la pente annuelle du logarithme des quotients de mortalité des femmes à l'âge de 50 ans est en moyenne de -0.011 sur la période 1995-2014. Source et champ : Insee, estimations de population et statistiques de l’état civil. France métropolitaine pour les années jusqu’en 1993, France hors Mayotte de 1994 à 2013, France à partir de 2014. Figure IV – Espérance de vie à la naissance selon différentes hypothèses 40 50 60 70 80 90 100 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050 2060 2070 données observées hypothèse haute hypothèse centrale hypothèse basse Source et champ : Vallin & Meslé, tables de mortalité française jusqu’en 1945 ; Insee, estimations de population et statistiques de l’état civil de 1946 à 2019 ; Insee, projections de population de 2013 à 2070. France métropolitaine jusqu’en 1993, France hors Mayotte de 1994 à 2013, France à partir de 2014. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 75 Le vieillissement de la population française est‑il inéluctable ? Pour chacune des composantes, des hypothèses basse et haute sont envisagées. L’hypothèse basse de mortalité suppose que les quotients de mortalité diminueront à un rythme moins important que par le passé et l’hypothèse haute à un rythme plus important. Les quotients de mortalité par âge sont multipliés par un même coefficient de manière à ce que les hypothèses basse et haute conduisent à une espérance de vie de plus ou moins 3 ans par rapport à l’hypothèse centrale en 2070, soit entre 87 ans et 93 ans pour les hommes et entre 90 ans et 96 ans pour les femmes (figure IV). Une hypothèse d’espérance de vie constante et égale à son niveau de 2014, c’est‑à‑dire 79 ans pour les hommes et 85 ans pour les femmes complète ces trois hypothèses. En 2019, l’espérance de vie des hommes est de 79.7 ans et celle des femmes de 85.6 ans en France, soit le niveau de l’hypothèse basse, étant donné le ralentissement récent des gains d’espérance de vie (Papon & Beaumel, 2020). 1.2. Fécondité Comme pour la mortalité, l’hypothèse centrale suppose que les taux de fécondité par âge évolueront au même rythme que par le passé. Toutefois, en dépit des progrès médicaux régu‑ lièrement enregistrés au cours des dernières décennies, les experts s’accordent pour consi‑ dérer que l’âge moyen à la maternité ne peut augmenter indéfiniment, du fait de la diminution de la fertilité avec l’âge. De ce fait, les tendances ne sont pas prolongées jusqu’à l’horizon de la projection : les taux de fécondité sont stabilisés lorsqu’un âge moyen à la maternité considéré comme plafond est atteint. Les experts ont donc été interrogés à la fois sur le niveau de la fécondité, mesuré par l’indicateur conjonc‑ turel de fécondité (ICF) ou par la descendance finale, ainsi que sur l’évolution de l’âge moyen à la maternité. L’ICF reflète le nombre moyen d’enfants que mettrait au monde une femme si elle connaissait les conditions de fécondité d’une année donnée durant toute sa vie féconde. Il mesure le niveau de fécondité des femmes à un moment donné. La descendance finale est le nombre moyen d’enfants mis au monde par les femmes appartenant à une même généra‑ tion. Elle peut donc se calculer lorsqu’elles parviennent en fin de vie féconde, c’est‑à‑dire à 50 ans. En rupture d’une tendance historique à la baisse, l’ICF a fortement augmenté dès 1941, marquant le début du baby‑boom (figure V). Celui‑ci prend fin dans les années 1970 : en 1976, l’ICF n’est plus que de 1.83 enfant par femme, contre de l’ordre de 2.48 encore en 1970 par exemple. L’ICF est ensuite resté dans une fourchette de 1.8 à 2.0, sauf aux alentours de 1993 où il est bas (1.66) en raison d’un report momentané du calen‑ drier des naissances pour les générations nées au début des années 1970, vraisemblablement lié à la mauvaise conjoncture économique (Pison, 2017). Les projections précédentes ont donc retenu une hypothèse centrale située à l’intérieur de cette fourchette : 1.8 enfant par femme à trois Figure V – Indicateur conjoncturel de fécondité et descendance finale selon différentes hypothèses 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050 2060 2070 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050 2060 2070 données observées hypothèse basse hypothèse centrale hypothèse haute Indicateur conjoncturel de fécondité Descendance finale année d'observation année de naissance Lecture : en France, l’indicateur conjoncturel de fécondité est de 1.87 enfant par femme en 2019. La descendance finale des femmes nées en 1920 est en moyenne de 2.5 enfants. Source et champ : Insee, estimations de population et statistiques de l’état civil de 1920 à 2019 ; Insee, projections de population de 2013 à 2070. France métropolitaine jusqu’en 1993, France hors Mayotte de 1994 à 2013, France à partir de 2014. 76 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 reprises en 1986, 1995 et 2003, puis 1.9 enfant en 2006 et 1.95 en 2010 (Blanchet & Le Gallo, 2014). Les hypothèses à 1.90 et 1.95 enfant par femme des trois dernières projections (2006, 2010 et 2016) entérinent et prolongent la fécondité élevée des années 2004‑2014. Depuis, la fécondité a légèrement diminué mais cette évolution n’est pas (encore) prise en compte dans les projections. La descendance finale a globalement diminué de la génération née en 1930, en âge de procréer pendant toute la période du baby‑boom (2.6 enfants en moyenne) à la génération née en 1970 (2.0 enfants, figure V). Elle devrait augmenter jusqu’à 2.1 enfants pour la génération née en 1979, dont les taux de fécondité sont connus jusqu’à 40 ans. Quant à l’âge moyen à la maternité, il a globalement baissé de 1901 (29.4 ans) à 1977 (26.5 ans). Depuis cette date, il ne cesse de croître et atteint 30.7 ans en 2019. La majorité des experts ont validé un plafond de l’âge moyen à la maternité à 32 ans, un ICF stable à 1.95 et une descendance finale proche de 2 enfants par femme. Un ICF stable à 1.95 avec un plafond à 32 ans pour l’âge moyen à l’accouchement conduit à une descendance finale de 2.06 pour les générations nées entre 1990 et 2005 et 1.95 pour les générations nées à partir de 2020 (figure V). En pratique, les taux de fécondité sont prolongés à chaque âge selon la tendance observée entre 2009 et 2013. Le plafond de l’âge moyen à l’accouchement (32 ans) est atteint en 2040. Un léger coeffi‑ cient correctif est appliqué pour chaque année jusqu’en 2040 afin de caler l’ICF sur 1.95, valeur cible validée par les experts. À partir de 2040, les taux de fécondité par âge sont maintenus constants jusqu’en 2070. Les hypothèses basse et haute diffèrent de l’hypothèse centrale uniquement sur l’intensité de la fécondité et non sur son calendrier. S’il s’est dégagé un large consensus pour avoir des hypothèses basse et haute d’ICF symétriques par rapport à l’hypothèse centrale, la fixation des bornes des variantes a fait débat. On a retenu + ou – 0.15 enfant par rapport à l’hypothèse centrale, ce qui permet de retenir comme valeur haute le seuil de remplacement des générations (2.1), l’hypothèse basse étant un ICF à 1.80 (cf. figure V). Une hypothèse de fécondité au niveau de celle de la moyenne de l’UE, avec un ICF de 1.6 a également été construite. En pratique, dans ces variantes, l’ICF atteint sa valeur cible en 2020 et se stabilise après cette date. En 2019, l’ICF est de 1.87 enfant par femme en France, soit un niveau compris entre les hypothèses basse (1.80) et centrale (1.95). 1.3. Migrations Comme dans les exercices de projections précé‑ dents, les hypothèses de migration portent sur le solde migratoire par sexe et âge. Celui‑ci est mesuré indirectement par différence entre d’une part l’évolution de population entre deux recensements successifs et d’autre part le solde naturel (naissances – décès) issu des données de l’état civil : SoldeMigratoiren=(Popn+1 –Popn)–Solde natureln Jusque dans les années 1980, l’hypothèse centrale des projections reflétait les « choix affichés ou supposés du planificateur ou du politique en matière de migration » : hypothèse calée sur les objectifs des plans de développement écono‑ mique dans les années 60 et 70, puis hypothèse d’un solde migratoire nul dans les projections de 1979 et 1986, en cohérence avec la politique de fermeture des frontières à l’immigration à partir de 1973 (Blanchet & Le Gallo, 2014). Les projections ultérieures s’appuient davantage sur les tendances passées, ce qui permet des résultats plus proches des données observées. L’hypothèse centrale de migration de cet exer‑ cice de projection retient un solde migratoire de 70 000 personnes par an. Ce niveau est assez proche de la moyenne calculée sur différentes périodes passées (figure VI). La structure par sexe et âge est supposée stable et correspond à la moyenne observée sur la période 2006‑2012. Certains experts ont pourtant mis en avant l’in‑ térêt de modifier cette méthode en raisonnant sur les flux d’entrées et de sorties par sexe et âge et non plus sur le solde migratoire. En effet, le solde est la résultante de mouvements de populations très diverses par leurs motivations et leur histoire migratoire, leur âge et leur profil au moment de cette migration. Les personnes qui composent les flux d’entrées sont des immigrés, étrangers à leur arrivée, qui ont des statuts variés (étudiants, réfugiés, conjoints de Français, etc.) mais aussi des Français qui (re)viennent vivre en France qu’ils soient nés à l’étranger ou partis y vivre. Du côté des flux sortants, là encore, les motiva‑ tions et les âges sont divers. Malheureusement, il n’a pas été possible de prendre en compte pleinement cette recommandation. En effet, le flux d’entrées par sexe et âge est connu dans les enquêtes annuelles de recensement grâce à une question sur le lieu de résidence antérieur. En revanche, il n’existe pas de statistique exhaustive permettant de comptabiliser directement le flux de sorties (Brutel, 2015). Les sorties ne peuvent être estimées que par différence entre les entrées et le solde migratoire : Sortiesn = Entréesn – Solde migratoiren ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 77 Le vieillissement de la population française est‑il inéluctable ? Les sorties cumulent donc les incertitudes liées à l’estimation des entrées et celles du solde migratoire, ce qui rend leur décomposition par sexe et âge délicate. Les hypothèses portent par conséquent sur le solde migratoire par sexe et âge, celui‑ci étant plus robuste que les sorties par sexe et âge. Par rapport à l’hypothèse centrale, les hypothèses basse et haute diffèrent de 50 000 personnes par an en plus ou en moins (figure VI). Le solde migratoire serait donc compris entre 20 000 et 120 000 personnes par an. Celui‑ci varie fortement d’une année sur l’autre, mais s’est maintenu dans cette fourchette de 1979 à 2016 (figure VI). En 2016, dernière année pour laquelle il est connu, le solde migratoire est de 65 000 personnes (Papon & Beaumel, 2020), soit un niveau proche de l’hypothèse centrale (70 000). 2. Analyse des projections : robustesses et fragilités Si les tendances démographiques récentes se poursuivaient, la France compterait 76.4 millions de personnes en 2070, soit 9.4 millions de plus qu’en 2020 (tableau 1). L’essentiel de cette hausse proviendrait des seniors, définis ici comme les personnes âgées de 65 ans ou plus (+8.2 millions). Ce vieillissement de la popula‑ tion n’est pas un phénomène nouveau. Au début du 20e siècle, la pyramide des âges portait bien son nom : sa base était élargie et son sommet en pointe. Elle s’est progressivement transformée et ressemble désormais davantage à un « cylindre des âges » (Pison, 2009 et figure VII). En effet, le nombre de seniors a presque doublé tous les 50 ans : 3.5 millions de seniors en 1920, 6.5 millions en 1970 et 13.8 millions en 2020. Il pourrait atteindre 21.9 millions en 2070 d’après le scénario central. Le rythme de croissance à venir jusqu’en 2070 serait toutefois inférieur à celui constaté par le passé : l’effectif de seniors ne serait multiplié « que » par 1.6 entre 2020 et 2070, alors qu’il l’a été par 2.1 entre 1970 et 2020 et 1.8 entre 1920 et 1970. Cet accroissement depuis 2020 est essentiellement la conséquence de la hausse de l’espérance de vie. Chaque individu a davantage de chances de devenir une personne âgée qu’un individu de la génération née cinquante ans plus tôt. Par exemple, 45 % des hommes nés en 1905 ont atteint 65 ans (en 1970), 76 % des hommes nés en 1954 ont atteint cet âge en 2019 et la quasi‑totalité (95 %) des hommes nés en 2005 pourraient devenir seniors en 2070. Pour étudier le vieillissement, il faut non seule‑ ment s’intéresser aux seniors, mais également aux plus jeunes : en effet, la population vieillit si l’effectif des plus jeunes augmente moins rapidement que celui des plus âgés. Un indica‑ teur classique est le nombre de personnes âgées de 20 à 64 ans, qui correspond en grande partie aux âges d’activité professionnelle, rapporté à celui des seniors, qui couvre majoritairement les retraités. Ce rapport diminue depuis 1920, Figure VI – Solde migratoire selon différentes hypothèses 0 50 000 100 000 150 000 200 000 250 000 300 000 1946 1956 1966 1976 1986 1996 2006 2016 2026 2036 2046 2056 2066 données observées hypothèse haute hypothèse centrale hypothèse basse rapatriés d’Algérie 860 000 Lecture : en France, le solde migratoire est de 46 000 personnes par an en 2019. Source et champ : Insee, estimations de population et statistiques de l’état civil de 1946 à 2019 ; Insee, projections de population de 2013 à 2070. France métropolitaine jusqu’en 1993, France hors Mayotte de 1994 à 2013, France à partir de 2014. 78 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 indiquant que l’effectif des 20‑64 ans augmente moins rapidement que celui des seniors, et donc que la population vieillit : de 6.4 personnes de 20‑64 ans pour un senior en 1920, le rapport est passé à 4.2 en 1970, puis 2.7 en 2020 et pourrait être de 1.7 en 2070 (tableau 1). Le rythme du vieillissement, mesuré par la baisse du ratio des 20‑64 ans sur les 65 ans ou plus, devrait être le même pour les 50 prochaines années que celui observé par le passé (‑36 %, tableau 1). Une partie des générations du baby‑boom sont en effet déjà devenues des seniors avant 2020 (celles qui sont âgées de 65 à 73 ans au 1er janvier 2020). La progres‑ sion de l’effectif des 65 ans ou plus devrait en revanche ralentir à partir de 2040, année à partir de laquelle la dernière génération du baby‑boom aura dépassé 65 ans. 2.1. D’ici 2070, un vieillissement tiré par les âges les plus élevés La part des « jeunes » seniors, âgés de 65 à 74 ans, devrait être quasiment stable jusqu’en 2070, proche de 11 % sur toute la période Tableau 1 – Effectifs et proportions par âge en 1920, 1970, 2020 et 2070 (scénario central) France métropolitaine France France métropolitaine France 1920 1970 2020 2020 2070 évolution 1970/1920 évolution 2020/1970 évolution 2070/2020 Effectifs (en milliers) 0‑19 ans 11 999 16 748 15 390 16 085 16 262 40 % ‑8 % 1 % 20‑64 ans 22 841 27 306 36 055 37 228 38 243 20 % 32 % 3 % 65 ans ou plus 3 543 6 474 13 453 13 751 21 944 83 % 108 % 60 % Ensemble 38 383 50 528 64 898 67 064 76 448 32 % 28 % 14 % Proportions (en %) 0‑19 ans 31 33 24 24 21 6 % ‑28 % ‑11 % 20‑64 ans 60 54 56 56 50 ‑9 % 3 % ‑10 % 65 ans ou plus 9 13 21 21 29 39 % 62 % 40 % Ensemble 100 100 100 100 100 Indice de jeunesse (20‑64 ans / 65 ans ou plus) 6.4 4.2 2.7 2.7 1.7 ‑35 % ‑36 % ‑36 % Lecture : en 2070, la France compterait 21 944 000 personnes âgées de 65 ans ou plus selon le scénario central. Source et champ : Insee, estimations de population et statistiques de l’état civil en 1920, 1970 et 2020 ; Insee, scénario central des projections de population en 2070. France métropolitaine en 1920, 1970 et 2020, France en 2020 et 2070. Figure VII – Pyramide des âges pour la France en 1920, 1970, 2020 et 2070 (scénario central) 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 2070 1920 1970 2020 Femmes âge Hommes 500 000 300 000 100 000 100 000 300 000 500 000 Lecture : en 2020, la France compte 419 000 femmes âgées de 65. Source et champ : Insee, estimations de population et statistiques de l'état civil en 1920,1970 et 2020 ; Insee, scénario central des projections de population en 2070. France métropolitaine en 1920 et 1970, France en 2020 et 2070. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 79 Le vieillissement de la population française est‑il inéluctable ? (figure VIII). Elle a augmenté depuis 2011, date à laquelle les générations plus nombreuses du baby‑boom, nées entre 1946 et 1974, ont commencé à atteindre 65 ans. Dès 2021, les 65‑74 ans seront tous nés après le début du baby‑boom et leur part dans la population devrait peu évoluer. Seuls les âges les plus élevés, 75 ans ou plus, devraient contribuer au vieillissement, puisque la première génération du baby‑boom n’a pas encore atteint cet âge en 2020. L’augmentation de la part des 75‑84 ans dans la population devrait donc s’accélérer à partir de 2021 et celle des 85 ans ou plus à partir de 2031. Lorsque chaque tranche d’âge ne comportera plus que des générations nées après le début du baby‑boom, le vieillissement devrait se poursuivre en raison de la hausse de l’espérance de vie, mais à un rythme moins soutenu, jusqu’en 2050 pour les 75‑84 ans (où leur part atteindrait 9.8 %) et 2060 pour les 85 ans ou plus (où leur part atteindrait 7.7 %). Ensuite, l’effet de la hausse de l’espérance de vie sur le vieillissement devrait être ralenti par la sortie des dernières générations du baby‑boom : la part des 75‑84 ans se stabiliserait en fin de période (à 9.7 %) et celle des 85 ans ou plus continuerait d’augmenter (jusqu’à 8.2 %). L’accroissement de l’espérance de vie depuis plus d’un siècle en France s’est accompagné d’un rapprochement des âges au décès. Dans les conditions de mortalité de 1920, les âges au décès sont très variables : pour les femmes, 10 % des décès se produisent avant l’âge d’un an, 80 % entre 1 an et 84 ans et 10 % après 84 ans (tableau 2). L’amplitude où 80 % des décès se produisent est donc de 83 ans. Dans les condi‑ tions de mortalité de 1970, cette amplitude n’est plus que de 34 ans, avec 10 % des décès avant l’âge de 57 ans, et 10 % après 91 ans. Ce resser‑ rement des âges au décès s’est opéré notamment grâce à une baisse particulièrement marquée de la mortalité entre la naissance et l’âge de 35 ans. Il se poursuit encore aujourd’hui : d’année en année, les décès ont lieu en moyenne de plus en plus tard et à des âges de plus en plus proches (figure IX). D’après le scénario central des projections, ce resserrement se poursuivrait : dans les conditions de mortalité des femmes en 2070, 80 % des décès auraient lieu entre 83 ans et 102 ans. Chez les hommes, les âges au décès se sont également rapprochés depuis 1920 et cette tendance devrait elle aussi se poursuivre. Par exemple, l’amplitude où 80 % des décès ont lieu est passée de 40 ans dans les conditions de mortalité de 1970 à seulement 35 ans dans celles de 2019. Par ailleurs, en 2019, la dispersion des âges au décès est plus grande pour les hommes que pour les femmes, mais cet écart devrait s’atténuer d’ici 2070. Figure VIII – Proportion de personnes âgées par groupe d’âge et année 0 1 2 3 4 5 6 7 8 9 10 11 12 13 1920 1925 1930 1935 1940 1945 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015 2020 2025 2030 2035 2040 2045 2050 2055 2060 2065 2070 (1) (1) (2) (3) (4) (4) (1) (2) (3) (4) (3) (2) % 1970 2020 2070 guerre 1939-1945 65-74 ans 75-84 ans 85 ans ou plus Note : (1) début de l'arrivée des générations creuses 1915-1919 ; (2) début de l'arrivée des générations du baby-boom ; (3) fin de l'arrivée des générations du baby-boom ; (4) sortie des générations du baby-boom. Lecture : en 2020, la France compte 11 % de personnes âgées de 65 à 74 ans. Sources et champ : Insee, estimations de population et statistiques de l’état civil de 1920 à 2020 ; Insee, scénario central des projections de population à partir de 2021. France métropolitaine jusqu’en 1990, France hors Mayotte de 1991 à 2013, France à partir de 2014. 80 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 2.2. Une incertitude sur l’évolution de l’effectif de la population Si le vieillissement semble bel et bien inéluctable dans les années à venir, la taille de la population est incertaine. C’est d’autant plus vrai pour les personnes de moins de 55 ans en 2070 dont la quasi‑totalité ne sont pas encore nées (figure X), ni même les mères des bébés de 2070 – seules leurs grands‑mères le sont. La projection du nombre de personnes de moins de 55 ans repose en effet sur le nombre de femmes en âge de procréer, sur leurs départs et leurs arrivées sur le territoire, ainsi que sur l’évolution des taux de fécondité. Or contrairement à la mortalité qui connaît généralement une tendance à la baisse, il n’existe pas vraiment de tendance de moyen terme concernant la fécondité, du moins dans les pays qui comme la France, ont achevé leur transition démographique il y a plusieurs décennies (Vallin, 2002). L’évolution à venir de l’indicateur conjoncturel de fécondité est par conséquent difficile à estimer. D’après les données d’Eurostat, la fécondité a en général baissé depuis quelques années dans les pays qui avaient une fécondité forte et leur évolution a parfois été très rapide. Par exemple, la Finlande, pays parmi les plus féconds d’Europe avec un ICF de 1.87 en 2010, se trouve désormais en dessous de la moyenne européenne avec un ICF de 1.41 en 2018 (OSF, 2019). En France, l’indicateur conjoncturel de fécondité a égale‑ ment baissé récemment mais de manière moins prononcée : il est passé de 2.0 en 2010 à 1.86 en 2019 pour la France hors Mayotte (Beaumel & Papon, 2020). En 2070, selon que toutes les hypothèses se combinent à la baisse ou à la hausse, l’effectif des moins de 55 ans serait compris entre 38.3 Tableau 2 – Âge avant lequel 10 %, 50 % et 90 % des hommes ou des femmes seraient décédés dans les conditions de mortalité d’une année (En années) Hommes Femmes 10 % 50 % 90 % Écart interdécile 10 % 50 % 90 % Écart interdécile 1920 1 60 81 80 1 65 84 83 1970 47 72 87 40 57 80 91 34 2019 60 84 95 35 69 89 98 29 2070 78 92 100 22 83 95 102 19 Note : il s’agit des décès pour une génération fictive soumise tout au long de sa vie aux conditions de mortalité d’une année. Lecture : dans les conditions de mortalité de 1920, 10 % des hommes seraient morts avant l’âge de 1 an et 90 % avant l’âge de 81 ans, soit un écart interdécile de 80 ans. Source et champ : Insee, estimations de population et statistiques de l’état civil de 1920 à 2019 ; Insee, scénario central des projections de popu‑ lation en 2070. France métropolitaine en 1920 et 1970, France en 2019 et 1970. Figure IX – Répartition des décès des femmes dans les conditions de mortalité d'une année donnée, pour 100 000 décès 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 1920 1970 2019 2070 âge 0 1 000 2 000 3 000 4 000 5 000 6 000 7 000 Lecture : dans les conditions de mortalité des femmes en 2019, 4 900 décès auraient eu lieu à 92 ans (sur un total de 100 000 décès). Source et champ : Insee, estimations de population et statistiques de l’état civil de 1920 à 2019 ; Insee, scénario central des projections de popu‑ lation à partir en 2070. France métropolitaine en 1920 et 1970, France en 2019 et 2070. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 81 Le vieillissement de la population française est‑il inéluctable ? et 53.3 millions, soit entre ‑16 % et +17 % par rapport au scénario central (tableau 3). Les nais‑ sances, quant à elles, seraient comprises entre 643 000 et 1 013 000, soit ‑21 % et +24 % par rapport au scénario central. Si la France avait à l’avenir un niveau de fécondité plus faible, proche de la moyenne européenne, cela condui‑ rait à 35.9 millions de personnes de moins de 55 ans, soit ‑21 % rapport au scénario central. L’incertitude sur le nombre total de personnes âgées de 55 ans ou plus est moins grande que sur celui des personnes qui n’ont pas encore atteint cet âge. Les plus de 55 ans de 2070 sont déjà nés, ce sont les moins de 60 ans d’aujourd’hui qui survivront jusqu’à cette date et resteront ou s’installeront en France. L’effectif des 55 ans ou plus serait compris entre 27.8 et 34.4 millions, soit entre ‑10 % et +11 % par rapport au scénario central selon que toutes les hypothèses se combinent à la baisse ou à la hausse. Seul le scénario où l’espérance de vie reste à son niveau de 2014 conduirait à un changement plus signifi‑ catif, ‑20 % par rapport au scénario central. Quant à la population totale résidant en France, son évolution est incertaine. Selon le scénario de population basse, elle augmenterait jusque vers 2040 avant de diminuer, pour être au final un peu moins élevée en 2070 qu’en 2020 (figure XI). Au contraire, selon le scénario de population haute, elle garderait un rythme de croissance forte et atteindrait 87.6 millions en 2070, soit 20.6 millions de plus qu’en 2020. Le scénario central des projections de popu‑ lation suppose que les tendances passées se poursuivront. L’espérance de vie à la naissance des hommes passerait ainsi de 80 ans en 2019 à 90 ans en 2070 et celle des femmes de 86 ans à 93 ans. Dans quelle mesure le vieillissement dépend‑il des hypothèses sur l’espérance de vie ? Pour répondre à cette question, on peut analyser ce qui se passerait si l’espérance de vie n’augmentait plus. On suppose qu’elle reste à son niveau de 2014, et ceci jusqu’en 2070. Même dans ce cas, un vieillissement de la popu‑ lation aurait lieu de 2020 à 2040 : l’écart entre le scénario central et celui d’espérance de vie constante est relativement faible (figure XII). La part des seniors passerait ainsi de 20.5 % à 24.5 %, soit une hausse assez proche de celle du scénario central (de 20.5 % à 26.1 %). De même, le rapport entre le nombre de 20‑64 ans et celui des 65 ans ou plus diminuerait de 2.7 à 2.2 en Figure X – Pyramide des âges pour la France en 2020 et en 2070 Scénarios central, de population basse et haute 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 2020 2070 scénario de population basse 2070 scénario central 2070 scénario de population haute Hommes Femmes âge 550 000 450 000 350 000 250 000 150 000 50 000 50 000 150 000 250 000 350 000 450 000 550 000 Lecture : en 2020, la France compte 419 000 femmes âgées de 65 ans. Source : Insee, estimations de population et statistiques de l'état civil en 2020; Insee, projections de population en 2070. 82 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 2040, contre de 2.7 à 2.0 selon le scénario central (figure XIII). Ainsi jusqu’en 2040, le vieillisse‑ ment dépend assez peu des gains d’espérance de vie attendus. Il est majoritairement la consé‑ quence du passé, c’est à dire de l’amélioration de l’espérance de vie qui s’est déjà produite et de la poursuite du passage à 65 ans des générations nombreuses du baby‑boom. Au‑delà de 2040, le scénario d’espérance de vie constante ne remet pas en cause l’augmentation du nombre de seniors de 65 ans ou plus, mais les hypothèses retenues jouent davantage. En 2070, l’écart entre le scénario central et celui d’espé‑ rance de vie constante est plus marqué qu’en 2040 (figure XII). De même, l’évolution du rapport entre l’effectif de 20‑64 ans et celui des Tableau 3 – Population par âge (en millions) pour différents scénarios en 2070 et écart (en %) au scénario central Population basse Scénario central Population haute Espérance de vie constante Fécondité de l’UE Immigration égale à émigration 0‑54 ans Effectif 38.3 45.6 53.3 45.0 35.9 41.3 Écart ‑16 % 17 % ‑1 % ‑21 % ‑9 % 55 ans ou plus Effectif 27.8 30.9 34.4 24.8 30.9 28.5 Écart ‑10 % 11 % ‑20 % 0 % ‑8 % 55‑64 ans Effectif 8.4 8.9 9.4 8.4 8.9 8.0 Écart ‑6 % 6 % ‑6 % 0 % ‑11 % 65‑74 ans Effectif 7.6 8.2 8.8 7.3 8.2 7.7 Écart ‑7 % 7 % ‑11 % 0 % ‑7 % 75‑84 ans Effectif 6.7 7.4 8.1 5.8 7.4 6.8 Écart ‑9 % 9 % ‑22 % 0 % ‑8 % 85‑94 ans Effectif 4.2 5.1 6.1 2.9 5.1 4.8 Écart ‑17 % 21 % ‑43 % 0 % ‑5 % 95 ans ou plus Effectif 0.8 1.2 2.0 0.4 1.2 1.2 Écart ‑32 % 60 % ‑66 % 0 % 1 % Ensemble Effectif 66.1 76.4 87.6 69.8 66.8 69.8 Écart ‑14 % 15 % ‑9 % ‑13 % ‑9 % Note : dans le scénario de fécondité de l’UE, l’ICF est de 1.6 enfant par femme à partir de 2020. Lecture : selon le scénario de population haute, la France compterait 53.3 millions de personnes âgées de 54 ans ou moins en 2070. Source et champ : Insee, projections de population en 2070. France. Figure XI – Effectif de population observé et projeté selon différents scénarios 0 10 000 000 20 000 000 30 000 000 40 000 000 50 000 000 60 000 000 70 000 000 80 000 000 90 000 000 100 000 000 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050 2060 2070 données observées scénario de population haute scénario central scénario de population basse 1970 2020 2070 Projections rupture du champ Lecture : selon le scenario central, la France compterait 76.4 millions d’habitants en 2070. Source et champ : Insee, estimations de population et statistiques de l'état civil de 1901 à 2020, Insee, projections de population à partir de 2021. France métropolitaine jusqu'en 1990, France hors Mayotte de 1991 à 2013, France à partir de 2014. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 83 Le vieillissement de la population française est‑il inéluctable ? seniors est sensible aux choix des hypothèses : il se stabiliserait si l’espérance de vie restait à son niveau de 2014, tandis qu’il diminuerait d’après le scénario central, à un rythme toutefois moins soutenu que par le passé (figure XIII). 2.3. Le vieillissement de la population dépend de l’indicateur retenu Pour étudier le vieillissement, l’âge chronolo‑ gique est souvent utilisé, avec un seuil fixe donné, Figure XII – Pyramide des âges en France, 2020 et 2040, et 2020 et 2070 Scénario central et scénario d'espérance de vie constante 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 2040 (ou 2070) scénario - espérance de vie constante 2040 (ou 2070) scénario central 2020 2040 Hommes Femmes 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 Hommes Femmes 2020 2070 500 000 400 000 300 000 200 000 100 000 0 100 000 200 000 300 000 400 000 500 000 500 000 400 000 300 000 200 000 100 000 0 100 000 200 000 300 000 400 000 500 000 Lecture : en 2020, la France compte 419 000 femmes âgées de 65 ans. Sources : Insee, estimations de population et statistiques de l'état civil en 2020 ; Insee, projections de population en 2040 et en 2070. Figure XIII – Indice de jeunesse(a) 0 1 2 3 4 5 6 7 1930 1940 1950 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050 2060 2070 d’espérance de vie constante de population jeune central de population âgée guerre 1939-1945 1970 2020 2070 indice Projections Scenarios : la première génération creuse de 1915-1919 a 20 ans la première generation creuse de 1915-1919 a 65 ans la première génération du baby-boom a 65 ans la dernière génération du baby-boom a 65 ans Données observées 1920 (a) rapport entre l’effectif des 20-64 ans et celui des seniors de 65 ans ou plus. Note : le scénario de population jeune combine les hypothèses d'espérance de vie basse, de fécondité haute et de migration haute, tandis que le scénario de population âgée combine les hypothèses inverses. Lecture : selon le scénario central des projections, la France compterait 1.7 personne âgée de 20-64 ans pour un sénior en 2070. Source et champ : Insee, estimations de population et statistiques de l'état civil de 1901 à 2020, Insee, projections de population à partir de 2021. France métropolitaine jusqu'en 1990, France hors Mayotte de 1991 à 2013, France à partir de 2014. 84 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Tableau 4 – Effectif de personnes (en milliers) en 1920, 1970 et 2020 et évolutions selon l’âge prospectif France métropolitaine France France métropolitaine France 1920 1970 2020 2020 2070 1970/1920 2020/1970 2070/2020 Population de 20 ans à x ans (a) 17 085 22 915 36 377 37 558 44 083 34 % 59 % 17 % Population de x ans ou plus (b) 9 300 10 865 13 131 13 421 16 104 17 % 21 % 20 % Ensemble 26 384 33 780 49 508 50 979 60 187 28 % 47 % 18 % Indice de jeunesse (a/b) 1.8 2.1 2.8 2.8 2.7 15 % 31 % ‑2 % Lecture : en 2070, la France compte 44 083 000 personnes âgées de 20 ans à x ans, x étant l’âge exact auquel l’espérance de vie est de 22 ans pour les hommes ou pour les femmes. Source et champ : Insee, estimations de population et statistiques de l’état civil en 1920, 1970 et 2020 ; Insee, scénario central des projections de population en 2070. France métropolitaine en 1920, 1970 et 2020, France en 2020 et 2070 ; personnes âgées de 20 ans ou plus. par exemple 65 ans. Une autre approche, utili‑ sant l’âge « prospectif », c’est‑à‑dire le nombre d’années restant à vivre plutôt que le nombre d’années déjà vécues (Sanderson & Schervov, 2007) s’est développée notamment en Belgique (Vandresse, 2020) et en Grande‑Bretagne (Spijker & MacInnes, 2013). L’analyse précédente utilisant l’âge chrono‑ logique, avec un seuil à 65 ans, montre que la population de la France a vieilli et que ce phénomène devrait continuer jusqu’en 2070. Qu’en est‑il avec la méthode utilisant l’âge prospectif ? Dans cette approche, l’indicateur de vieillissement est calculé en rapportant les personnes ayant entre 20 ans et l’âge auquel l’espérance de vie est de 22 ans à celles ayant plus que cet âge, et donc une espérance de vie inférieure à 22 ans7 : Avec l’âge chronologique : Pop 20 à 64 ans Pop 65 ans ou plus Avec l’âge prospectif : Pop 20 ans à x ans Pop x ans ou plus où x est l’âge exact (en année, mois) auquel l’espérance de vie est de 22 ans pour les hommes ou pour les femmes. L’âge x est donc variable selon les années et le sexe. Avec cet indicateur, la France a « rajeuni » depuis 1920 : elle comptait 1.8 personne avec une espérance de vie supérieure à 22 ans pour une personne avec une espérance de vie inférieure (tableau 4). Ce rapport a atteint 2.1 en 1970 et 2.8 en 2020. Ce rajeunissement s’explique par la forte hausse du nombre de personnes avec une espérance de vie supérieure à 22 ans, combinée à une faible hausse du nombre de personnes avec une espérance de vie inférieure. D’ici 2070, selon l’approche prospective, la France ne devrait ni rajeunir, ni vieillir : le rapport serait de 2.7, soit presque le même niveau qu’en 2020. Ainsi, le vieillissement de la population dépend de l’indicateur retenu. Avec le nombre d’années vécues, la France va vieillir et devrait continuer à vieillir d’après le scénario central. Avec le nombre d’années restant à vivre, la France a rajeuni et ne devrait ni vieillir ni rajeunir d’ici 2070. Le choix de l’indicateur le plus approprié dépend de l’objet de l’étude et de ses hypothèses. Par exemple, s’il s’agit d’étudier l’évolution du nombre de personnes qui peuvent être en situa‑ tion de dépendance, l’âge chronologique sera plus adapté si l’espérance de vie en bonne santé est supposée stable alors que l’âge prospectif correspondra mieux à l’hypothèse d’une espé‑ rance de vie en bonne santé évoluant au même rythme que l’espérance de vie. 3. La France et ses voisins de l’UE Les projections de population publiées par Eurostat (Eurostat, 2019) permettent de comparer la situation de la France à celle de ses voisins européens. Ces projections ne sont pas une simple compilation des projections nationales faites par chacun des pays, mais un exercice différent, avec une méthodologie commune pour tous les pays de l’UE à 28, ainsi que pour l’Islande, la Norvège et la Suisse8 . Le choix d’une méthode commune plutôt qu’une compilation des projections nationales présente de nombreux avantages : absence de données manquantes pour certains pays qui ne réalisent pas encore de projection; accès facilité à la documentation et aux résultats; suppression du biais lié à l’optimisme plus ou moins grand de chaque pays, ce qui facilite les comparaisons. Le revers de cette méthode est l’écart inévitable entre les projections d’Eurostat et celles réalisées par les instituts nationaux des pays. Cet écart peut engendrer des problèmes de communication et des interrogations sur le choix des données à retenir par les utilisateurs. Comme l’Insee, Eurostat utilise la méthode des composantes et une approche déterministe pour 7. Le seuil de 22 ans a été retenu car c’est la valeur de l’espérance de vie à 65 ans en France en 2019. 8. Les projections de l’Organisation des Nations Unies (ONU) sont égale‑ ment basées sur une méthodologie commune, plutôt que sur une compi‑ lation des projections nationales. Elles utilisent une approche probabiliste (Costemalle, 2020). ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 85 Le vieillissement de la population française est‑il inéluctable ? établir le scénario de référence. Pour chacune des composantes, Eurostat se base sur une prolonga‑ tion des tendances passées et sur une hypothèse de convergence des dynamiques démographiques au sein de l’Europe, qui repose sur l’idée que les différences socio‑économiques sont appelées à se réduire entre les pays de l’UE. Au fur et à mesure de l’avancée dans le temps, l’utilisa‑ tion de la prolongation des tendances passées s’estompe au profit de celle de l’hypothèse de convergence. La convergence est partielle en 2100, horizon de la projection européenne. L’indicateur conjoncturel de fécondité est ainsi projeté à la hausse partout, sauf en France, pays avec la plus forte fécondité en 2018, où il reste quasiment stable. L’ICF s’accroît davantage dans les pays à faible fécondité, ce qui permet la convergence. L’espérance de vie est projetée à la hausse dans tous les pays, ceux à faible espérance de vie gagnant plus que les autres. Le solde migratoire augmente dans les pays où il est négatif et baisse dans les pays où il est fortement positif, ce qui permet là‑aussi la convergence. En complément du scénario de référence, Eurostat met à disposition un scénario avec un solde migratoire nul pour chaque année projetée (avec des hypothèses de fécondité et de mortalité identiques à celles du scénario de référence), afin de mieux comprendre les mécanismes d’évolution de la population liés aux migrations. Dans leur scénario de référence, l’Insee et Eurostat font des hypothèses très proches concernant le solde migratoire, de l’ordre de 70 000 personnes par an en moyenne sur la période 2019‑2069. L’ICF projeté par Eurostat pour la France (1.87 en 2070) est un peu plus faible que dans l’hypothèse centrale de l’Insee (1.95) mais reste supérieur à celui de l’hypothèse basse (1.80). C’est sur la mortalité que les diffé‑ rences sont les plus marquées : selon le scénario de référence d’Eurostat, l’espérance de vie à la naissance atteindrait 86.6 ans pour les hommes et 91.0 ans pour les femmes en 2070, soit un niveau proche de l’hypothèse basse de l’Insee (87.1 ans et 90.0 ans). La différence est liée au fait qu’Eurostat a réalisé ses projections plus récemment que l’Insee et a pu ainsi davantage tenir compte du ralentissement de la hausse de l’espérance de vie observé depuis 2014. D’après Eurostat, l’UE à 28 compterait 509.5 millions d’habitants en 2070, soit à peine moins (‑0.8 %) que les 513 millions d’habitants en 2019 (tableau 5). Dans un premier temps, l’effectif augmenterait légèrement jusqu’en 2044 (+2.2 %), puis diminuerait pour retrouver son niveau initial en fin de période. Pourquoi l’effectif de la population de l’UE serait‑il pratiquement le même en 2070 qu’en 2019 ? Eurostat projette une hausse de l’ICF entre 2019 et 2070 pour tous les pays, à l’excep‑ tion de la France où l’ICF resterait quasiment stable. Malgré tout, il reste en dessous du seuil de renouvellement des générations (2.1 enfants par femme) pour tous les pays et sur toute la période. La fécondité influence donc à la baisse l’évolution de la population totale. Au contraire, l’espérance de vie augmenterait entre 2019 et 2070 pour tous les pays, ce qui influence cette fois à la hausse l’évolution des effectifs. Ces deux effets se compensent‑ils ? Pour répondre à cette question, Eurostat a élaboré un scénario avec un solde migratoire nul, c’est‑à‑dire avec un nombre d’émigrants égal à celui des immigrants. Selon ce scénario, l’UE compte‑ rait 419.9 millions d’habitants en 2070, soit une baisse de 18 % par rapport à 2019 (voir tableau 6). L’augmentation de l’espérance de vie ne compenserait donc pas le fait que l’ICF est inférieur au seuil de renouvellement des générations. En revanche, dans le scénario de référence, Eurostat projette un solde migratoire moyen positif sur la période 2019‑2069 pour la quasi‑totalité des pays à l’exception de la Lituanie, la Lettonie et la Roumanie. Ce seraient donc ces migrations qui expliqueraient en partie la stabilité de la population de l’UE. Elles se combineraient avec l’augmentation de l’espé‑ rance de vie pour compenser le faible niveau de fécondité. La quasi stabilité de la population de l’UE masque des disparités entre pays. Certains pourraient voir leur population croître parfois fortement, majoritairement ceux situés au Nord ou à l’Ouest de l’Europe, et d’autres diminuer, généralement ceux situés à l’Est (tableau 5). La population de l’UE devrait vieillir d’ici 2070 : l’effectif des seniors, porté par la hausse de l’espérance de vie, augmenterait fortement (+45 %), tandis que celui des plus jeunes dimi‑ nuerait, ‑8 % pour les moins de 20 ans et ‑14 % pour les 20‑64 ans. Le rapport entre l’effectif des 20‑64 ans et celui des 65 ans ou plus diminuerait donc de 3.0 en 2019 à 1.8 en 2070. Comme en France, le vieillissement de l’Europe n’est pas un phénomène nouveau. Dans l’UE à 279 , ce rapport est ainsi passé de 4.2 en 1990 à 3.0 en 2019. Tous les pays de l’UE à 28, ainsi que l’Islande, la Suisse et la Norvège seraient concernés par le vieillissement de la population, conséquence d’une amélioration de l’espérance de vie conju‑ guée à un faible niveau de fécondité. Eurostat projette également un vieillissement de la 9. La Croatie a rejoint l’UE en 2003. 86 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Tableau 5 – Population, solde migratoire, ICF et espérance de vie à la naissance selon le pays de résidence Population en 2019 (millions) Population en 2070 (millions) Évolution 2019/2070 (%) Solde migratoire/ population 2019‑2069 (%) ICF en 2070 Espérance de vie Hommes en 2070 Femmes en 2070 Luxembourg 0.6 1.0 68 0.8 1.62 86.6 90.7 Malte 0.5 0.7 47 0.8 1.61 86.8 90.7 Suède 10.2 14.5 42 0.5 1.81 86.7 90.1 Chypre 0.9 1.2 33 0.5 1.53 86.4 89.7 Islande 0.4 0.5 30 0.3 1.76 86.9 90.2 Irlande 4.9 6.1 25 0.2 1.79 86.7 90.3 RU 66.6 82.1 23 0.3 1.81 86.3 89.9 Norvège 5.3 6.5 22 0.4 1.69 86.8 90.3 Suisse 8.5 10.4 22 0.4 1.64 87.2 90.8 Danemark 5.8 6.6 14 0.3 1.79 86.1 89.8 Belgique 11.5 12.9 13 0.3 1.73 86.2 90.2 Autriche 8.9 9.9 12 0.4 1.68 86.2 90.1 France1 67.0 72.0 7 0.1 1.87 86.6 91.0 Espagne 46.9 48.4 3 0.4 1.52 86.9 91.1 Pays‑Bas 17.3 17.4 1 0.2 1.70 86.5 89.8 UE28 513.5 509.5 ‑0.8 0.2 n.d. n.d. n.d. Allemagne 83.0 80.6 ‑3 0.3 1.71 86.0 89.9 Tchéquie 10.6 10.2 ‑4 0.2 1.77 84.8 89.1 Finlande 5.5 5.3 ‑5 0.2 1.62 86.0 90.4 Slovénie 2.1 1.9 ‑9 0.2 1.74 85.7 90.1 Estonie 1.3 1.2 ‑13 0.1 1.76 84.2 89.6 Hongrie 9.8 8.5 ‑13 0.2 1.74 83.6 88.4 Slovaquie 5.5 4.6 ‑16 0.1 1.65 84.1 88.9 Pologne 38.0 31.7 ‑17 0.0 1.67 84.3 89.4 Italie 60.4 50.2 ‑17 0.3 1.53 86.8 90.6 Grèce 10.7 8.5 ‑21 0.1 1.56 86.3 90.1 Portugal 10.3 8.0 ‑22 0.1 1.56 85.8 90.3 Roumanie 19.4 15.1 ‑22 0.0 1.79 83.5 88.4 Lettonie 1.9 1.4 ‑25 0.0 1.79 82.6 88.5 Croatie 4.1 2.9 ‑28 0.0 1.59 84.2 88.6 Bulgarie 7.0 4.8 ‑31 0.0 1.69 83.0 87.7 Lituanie 2.8 1.9 ‑32 ‑0.1 1.72 82.9 88.6 1 La France inclut Mayotte et Saint‑Martin. Lecture : selon le scénario de référence d’Eurostat, l’UE à 28 compterait 509.5 millions de personnes en 2070. En France, le solde migratoire rapporté à la population serait en moyenne de 0.1 % par an entre 2019 et 2069. Source : Eurostat, demo_pop en 2019 et europop2018 en 2070. population pour la France, le rapport passant de 2.8 à 1.9. Le vieillissement est toutefois peu plus marqué dans les projections d’Eurostat (‑30 %) que dans celles de l’Insee (‑37 %), principale‑ ment en raison d’une hypothèse d’espérance de vie moins élevée (tableau 6). * * * Les projections de population servent à dessiner un devenir de la population à long terme, sous certaines hypothèses. Même si le scénario central des projections de population n’a aucune chance de se produire exactement, il est tout de même porteur de nombreuses informations. L’objectif d’une projection est de présenter les hypothèses les plus vraisemblables dans un éventail des possibles. Parmi l’ensemble des scénarios diffusés, le scénario central est souvent privilégié. Les projections mettent en avant ce scénario qui prolonge les tendances passées, et présentent d’autres scénarios qui se produiraient si le rythme d’évolution des compo‑ santes s’accélérait ou ralentissait. Le rôle des démographes est notamment d’indiquer quels sont les résultats qui diffèrent fortement selon les scénarios et ceux qui varient peu, et aussi de mettre en avant ceux qui dépendent surtout de notre passé et peu de notre avenir. Certains phénomènes démographiques, comme la pour‑ suite du vieillissement de la population, sont déjà ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 87 Le vieillissement de la population française est‑il inéluctable ? Tableau 6 – Population (en millions) par âge et indice de jeunesse en 2019 et 2070 2019 2070 Évolution 2070/2019 UE28 (Eurostat ‑ scénario de référence ) 513.5 509.5 ‑1 % 0‑19 ans 106.6 97.7 ‑8 % 20‑64 ans 304.1 263.0 ‑14 % 65 ans ou plus 102.8 148.8 45 % Indice de jeunesse (20‑64 ans / 65 ans ou plus) 3.0 1.8 ‑40 % UE28 (Eurostat ‑ scénario de solde migratoire nul) 513.5 419.9 ‑18 % 0‑19 ans 106.6 75.1 ‑30 % 20‑64 ans 304.1 207.3 ‑32 % 65 ans ou plus 102.8 137.4 34 % Indice de jeunesse (20‑64 ans / 65 ans ou plus) 3.0 1.5 ‑49 % France (Eurostat ‑ scénario de référence) 67.0 72.0 8 % 0‑19 ans 16.2 15.3 ‑5 % 20‑64 ans 37.3 37.4 0 % 65 ans ou plus 13.5 19.3 43 % Indice de jeunesse (20‑64 ans / 65 ans ou plus) 2.8 1.9 ‑30 % France (Insee ‑ scénario central ) 67.0 76.4 14 % 0‑19 ans 16.2 16.3 1 % 20‑64 ans 37.3 38.2 2 % 65 ans ou plus 13.5 21.9 63 % Indice de jeunesse (20‑64 ans / 65 ans ou plus) 2.8 1.7 ‑37 % Lecture : selon le scénario de référence d’Eurostat, l’UE à 28 compterait 509.5 millions de personnes en 2070. Source : Eurostat, demo_pop en 2019 et europop2018 en 2070 pour l’UE à 28 ; Insee, estimations de population et statistiques de l’état civil en 2019 et projections de population en 2070 pour la France. inscrits dans la pyramide des âges actuelle. Les projections permettent, en comparant différentes hypothèses, de comprendre les mécanismes qui expliquent l’évolution à venir de la population. Les intérêts d’une projection de population sont donc variés, malgré les incertitudes inhérentes à l’exercice, qui peuvent se traduire par des écarts entre projections et évolutions observées. Différentes études ont comparé les résultats de projections passées avec les données réelles pour la France (Blanchet & Le Gallo, 2014) et pour certains pays européens (Majérus, 2015). Par exemple, en France, la population a augmenté à un rythme plus rapide que celui projeté dans tous les exercices entre 1986 et 2010. En revanche, la poursuite du vieillissement de la population avait déjà été anticipée. Le rapport entre le nombre des personnes âgées de 20‑59 ans et celui de celles de 60 ans ou plus était projeté à un niveau proche de son niveau actuel dès 1986. Ces études nous enseignent donc la prudence, et montrent la nécessité de prendre en compte la sensibilité des résultats aux différentes hypothèses. BIBLIOGRAPHIE Beaumel, C. & Papon, S. (2020). Bilan démographique 2019. La fécondité se stabilise en France. Insee Première N° 1789. https://www.insee.fr/fr/information/4286182 Blanchet, D. & Le Gallo, F. (2014). Retour vers le futur : trente ans de projections démographiques. Insee Référence, Trente ans de vie économique et sociale, pp. 33–42. https://www.insee.fr/fr/statistiques/1374368?sommaire=1374377 Blanpain, N. & Buisson, G. (2016a). Projections de population 2013‑2070 pour la France : méthode et princi‑ paux résultats. Insee, Document de travail N° F1606. https://www.insee.fr/fr/statistiques/2400057 Blanpain, N. & Buisson, G. (2016b). Projections de population 2013‑2070 pour la France. Insee Résultats N° 187‑Société. https://www.insee.fr/fr/statistiques/2496793 Brutel, C. (2015). L’analyse des flux migratoires entre la France et l’étranger entre 2006 et 2013. Un accrois‑ sement des mobilités. Insee Analyses N° 22. https://www.insee.fr/fr/statistiques/1521331 Costemalle, V. (2020). Projections probabilistes bayésiennes de la population pour la France. Economie et statistique/Economics and Statistics, ce numéro. 88 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Desrivierre, D. (2017). D’ici 2050, la population augmenterait dans toutes les régions de métropole. Insee Première N° 1952. https://www.insee.fr/fr/statistiques/2867738 Équipes de surveillance de la grippe (2018). Surveillance de la grippe en France, saison 2017‑2018. Bulletin épidémiologique hebdomadaire, 34, 664–674. https://www.santepubliquefrance.fr/maladies-et-traumatismes/maladies-et-infections-respiratoires/grippe/ documents/article/surveillance-de-la-grippe-en-france-saison-2017-2018 Eurostat (2019). Summary methodology of the 2018‑based population projections (EUROPOP2018). https://ec.europa.eu/eurostat/cache/metadata/en/proj_esms.htm#stat_pres1573482062759 Hubert, M., Bunle, H. & Boverat, F. (1937). La population de la France, son évolution et ses perspectives. Paris: Hachette. Keilman, N. (2020). Evaluating Probabilistic Population Forecasts. Economie et statistique/Economics and Statistics, ce numéro. Koubi, M. (2017). Projections à l’horizon 2070. Une hausse moins soutenue du nombre d’actifs. Insee Première N° 1646. https://www.insee.fr/fr/statistiques/2844302 Majérus, P. (2015). Étude comparative des analyses ex post des projections démographiques luxem‑ bourgeoises, belges, françaises, britanniques et néerlandaises du vingtième siècle. STATEC, Économie et statistiques N°82/2015. http://www.statistiques.public.lu/fr/publications/series/economie-statistiques/2015/82-2015/index.html Meslé, F. (2006). Progrès récents de l’espérance de vie en France : les hommes comblent une partie de leur retard. Population 61(4). 437–462. https://www.ined.fr/fr/publications/editions/conjoncture-demographique/progres-recents-de-l-esperancede-vie-en-france-les-hommes-comblent-une-partie-de-leur-retard/ Official Statistics of Finland (2019). Births [e‑publication]. Helsinki: Statistics Finland [referred: 23.7.2019]. http://www.stat.fi/til/synt/2018/synt_2018_2019-04-26_tie_001_en.html Papon, S. (2019). La situation démographique en 2017. Insee Résultats. https://www.insee.fr/fr/statistiques/4136000 Papon, S. & Beaumel C. (2020). Bilan démographique 2019. Insee Première N° 1789. https://www.insee.fr/fr/statistiques/4281618#consulter Pison, G. (2007). La population de la France en 2007. Ined, Population et Sociétés N° 443. https://www.ined.fr/fr/publications/editions/population-et-societes/la-population-de-la-france-en-2007/ Pison, G. (2009). Le vieillissement démographique sera plus rapide au Sud qu’au Nord. Ined, Population et Sociétés N° 429. https://www.ined.fr/fr/publications/editions/population-et-societes/le-vieillissement-demographique-sera-plusrapide-au-sud-qu-au-nord/ Pison, G. (2017). France 2016 : la natalité est en baisse. Ined, Population et Sociétés N° 542. https://www.ined.fr/fr/publications/editions/population-et-societes/france-2016-natalite-en-baisse/ Pison, G. (2019). Pourquoi l’espérance de vie augmente‑t‑elle moins vite en France ? Ined, Population et Sociétés N° 564. https://www.ined.fr/fr/actualites/presse/pourquoi-lesperance-de-vie-augmente-t-elle-moins-vite-en-france/ Roussel, R. (2017). Personnes âgées dépendantes : les dépenses de prise en charge pourraient doubler en part de PIB d’ici à 2060. Drees, Études et résultats N° 1032. https://drees.solidarites-sante.gouv.fr/etudes-et-statistiques/publications/etudes-et-resultats/article/ personnes-agees-dependantes-les-depenses-de-prise-en-charge-pourraient-doubler Sanderson, C. & Schervov, S. (2007). A new perspective on population ageing, Demographic Research, 16, 27–58. https://www.demographic-research.org/volumes/vol16/2/default.htm Spijker, J. & MacInnes, J. (2013). Population ageing; the timebomb that isn’t. British Medical Journal, 347:f6598. https://doi.org/10.1136/bmj.f6598 Vallin, J. (2002). The End of the Demographic Transition: Relief or Concern? Population and Development Review, 28(1), 105–120. http://www.jstor.org/stable/3092759 Vandresse, M. (2020). Âge prospectif : une approche complémentaire du vieillissement et de ses implications. Gérontologie et société vol 42/n°162, 141–159. Wattelar, C. (2004). Perspectives démographiques : historique de la méthode et méthodes actuelles. In: Caselli, G., Vallin, J. & Wunsch, G. (Eds), Démographie : Analyse et synthèse, Tome V, pp. 253–264. Paris: Éditions de l’Ined. Wicksell, S. (1926). Sveriges framtida befolkning under olika fôrutsattingar. Ekonomisk Tidskrift, 28(1), 91–123. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 89 Le vieillissement de la population française est‑il inéluctable ? ANNEXE ______________________________________________________________________________________________ ÉVOLUTION DE LA POPULATION DE LA FRANCE DE 1935 À 1985 SELON UNE PROJECTION RÉALISÉE PAR A. SAUVY La réalisation d’après l’état‑civil et les estimations de population Année Naissances vivantes Décès (a) Solde naturel Population en milieu d’année 1935 644 000 662 000 ‑18 000 41 550 000 1940 561 000 740 000 ‑179 000 40 690 000 1945 646 000 644 000 2 000 39 660 000 1950 862 000 534 000 328 000 41 829 000 1955 806 000 526 000 280 000 43 428 000 1960 820 000 521 000 299 000 45 684 000 1965 866 000 544 000 322 000 48 758 000 1970 850 000 542 000 308 000 50 772 000 1975 745 000 560 000 185 000 52 699 000 1980 800 000 547 000 253 000 53 880 000 1985 768 000 552 000 216 000 55 284 000 (a) Les nombres de décès pour la période 1939‑1945 ne com‑ prennent pas les décédés (civils ou militaires) par faits de guerre, soit approximativement 600 000 personnes : 250 000 militaires (armée régulière, prisonniers de guerre, forces de l’intérieur) et 350 000 civils (déportés, fusillés, victimes des opérations ter‑ restres et des bombardements). Source et champ : Insee, statistiques de l’état civil et estimations de population. France métropolitaine. La projection réalisée par A. Sauvy Hubert, M., Bunle, H. & Boverat, F. (1937). La population de la France, son évolution et ses perspectives. Paris : Hachette. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 91 Les dimensions dans les projections mondiales : un état des lieux Dimensions in Global Projections: An Overview Anne Goujon* Résumé – L’ajout de dimensions allant au‑delà de l’âge et du sexe dans les projections de population multi‑états a deux finalités principales : premièrement, renforcer l’exactitude des projections en tenant compte de la nature hétérogène de la population, qui pourrait affecter le système dans son ensemble, et, deuxièmement – et surtout – faire en sorte que les projections produisent un plus grand nombre d’informations. Cet article examine les principales dimensions projetées par le passé, mettant l’accent sur les projections mondiales établies pour le niveau d’éducation, qui sont grandement utilisées dans les exercices de modélisation en dehors du contexte démographique. Nous proposons également d’autres dimensions qui pourraient être projetées de façon multi‑états, potentiellement pour la plupart des pays. Abstract – The addition of dimensions beyond age and sex in multistate population projections has two major objectives: first, to increase the accuracy of the projected population by capturing the heterogeneity present in the population that could affect the overall system; secondly, and more importantly, to increase the level of information provided by the projections. This article reviews the main dimensions that have been projected in the past, emphasizing global projections of educational attainment, which have been used largely in modeling exercises outside of the demographic realm. Furthermore, we propose some other dimensions that could be projected in a multistate fashion, possibly for most countries. Code JEL / JEL Classification : J11, J24, I21 Mots‑clés : projections de population, projections multi‑états, éducation Keywords: population projections, multistate projections, education * Centre commun de recherche (CCR) de de la Commission Européenne, Ispra, Italie (anne.goujon@ec.europa.eu) et Centre Wittgenstein pour la démographie et le capital humain mondial (Univ. Vienne, IIASA, OeAW/VID), Institut de démographie de Vienne, Académie des sciences d’Autriche, Vienne, Autriche. Le travail sur cet article a été entrepris au Centre Wittgenstein pour la démographie et le capital humain mondial, et finalisé au CCR. Reçu en juillet 2019 et accepté en juillet 2020. Traduit de la version originale anglaise Citation: Goujon, A. (2020). Dimensions in Global Projections: An Overview. Economie et Statistique / Economics and Statistics, 520-521, 87–101. https://doi.org/10.24187/ ecostat.2020.520d.2032 Rappel ‑ Les jugements et opinions exprimés par les auteurs n’engagent qu’eux mêmes, et non les institutions auxquelles ils appartiennent, ni a fortiori l’Insee. 92 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Les projections de population ne datent pas d’aujourd’hui. Au‑delà de simples extrapolations, elles ont vu le jour à la fin du XVIIe siècle, avec notamment les essais de John Graunt en 1662 et de William Petty en 1682 (Graunt, 1665 ; Petty, 1984) projetant la popu‑ lation de Londres en mobilisant des méthodes statistiques innovantes pour leur époque1 . En 1699, Sébastien Le Prestre de Vauban a établi des projections pour la population du Canada à l’horizon1970 – qui se sont révélées exactes en dépit d’hypothèses erronées (Vauban, 1842). D’un point de vue méthodologique, la qualité des projections s’est fortement amélio‑ rée par la suite. La méthode des composantes2 (Whelpton, 1928) développée dans les années 1920 est aujourd’hui très répandue. Toutefois, les projections ont, pendant longtemps et le plus souvent, été mises en œuvre au niveau national ou infranational par des instituts de statistique locaux. Nous voyons à cela plusieurs raisons. La première, l’absence, dans un grand nombre de pays, de données sur la population de l’année de base (qui nécessite un recensement ou une enquête) et sur les composantes « fécondité », « mortalité » et « migration » nécessaires aux projections. Notons pourtant que de nombreux pays pratiquent le recensement depuis la fin du XIXe siècle. La deuxième, des capacités de calcul limitées et des contraintes de temps. Mais la principale raison pour laquelle les projections de population sont restées longtemps à l’échelle locale ou nationale est probablement l’absence de « pensée mondiale » ; celle‑ci n’a émergé qu’avec la théorie de la transition démographique formulée par Frank W. Notestein en 1945, bien que d’autres l’aient suggérée avant lui (voir Kirk, 1996). Cette théorie, qui suppose une généralisa‑ tion continue, au niveau mondial, des tendances constatées dans différents pays, a ouvert la voie à des projections mondiales, d’abord dévelop‑ pées par Notestein lui‑même (Notestein, 1945). Il fut le premier directeur de la Division de la population des Nations Unies, le principal four‑ nisseur de projections de population mondiale pendant plusieurs dizaines d’années. D’autres grandes organisations se sont ensuite lancées dans la production de projections de population mondiales, comme la Banque mondiale, le Census Bureau des États‑Unis, le Population Reference Bureau (organisation américaine de collecte de statistiques sur la population) et l’Institut international pour l’analyse appliquée des systèmes (IIASA), pour ne citer que les plus célèbres (voir Lutz & KC, 2010 pour un résumé et une chronologie des projections de population mondiale, ainsi que O’Neill et al., 2001). Les projections de population mondiale sont particulièrement utilisées dans les modèles d’évaluation, dans lesquels la population intervient habituellement en tant que variable exogène permettant de quantifier l’impact du nombre d’êtres humains sur d’autres paramètres. Les travaux du Groupe d’experts intergouver‑ nemental sur l’évolution du climat (GIEC) illustrent parfaitement l’utilisation de ces projections : la population est prise en compte dans des modèles évaluant la vulnérabilité des populations au changement climatique ou quan‑ tifiant les activités économiques par secteur. En outre, dans la mesure où la population est au centre des défis qui nous attendent en matière de développement au cours des cent prochaines années, elle affectera les progrès réalisés vers de nombreux objectifs de développement durable à partir de 2030 et doit donc être quantifiée. Pendant des décennies, les projections de popu‑ lation mondiale n’ont inclus que les dimensions de l’âge et du sexe par pays, principalement parce que d’autres dimensions ne semblaient pas nécessaires. Deux séries de recherches ont changé la donne. Dans les années 1980, Andrei Rogers et son équipe de chercheurs au sein de l’IIASA ont développé la méthodologie des projections de population régionale (Rogers & Land, 1982), qui intègre les disparités démo‑ graphiques entre différentes régions dans un modèle de projection unique. Quelques années plus tard, Nathan Keyfitz (1985) a formalisé la possibilité d’ajouter des dimensions supplémen‑ taires aux projections, ouvrant ainsi la voie à une application plus large de la méthodologie multi‑états (multistate population projections). Globalement, l’ajout de dimensions supplémen‑ taires se justifie de la même façon que la prise en compte de l’âge et du sexe, en postulant que la composition de la population projetée peut influencer les résultats, puisque des sous‑groupes ont des comportements démographiques qui leur sont propres en termes de fécondité, de mortalité et de migration. Autrement dit, en renforçant la granularité, les résultats des projections de population gagnent en pertinence, et ils peuvent aussi être plus précis s’ils intègrent des effets de composition au sein de la population projetée. 1. Si l’on remonte encore plus loin dans le temps, Aristote (384‑322 av. J.‑C.) avait déjà compris certains des principes des projections de popu‑ lation, comme cette citation le prouve : « Le parti le plus sage serait de limiter la population et non la propriété, et d’assigner un maximum qu’on ne dépasserait pas, en ayant à la fois égard, pour le fixer, à la proportion éventuelle des enfants qui meurent et à la stérilité des mariages » (Livre II, 1263b.15). 2. En bref, la méthode par cohorte et composantes divise la population à projeter en différents groupes/cohortes en fonction du sexe et de l’âge, aux‑ quels on applique, année après année, des taux de mortalité, de fécondité et de migration différents. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 93 Les dimensions dans les projections mondiales : un état des lieux La méthodologie des projections multi‑états est une extension de la méthode par cohorte et composantes utilisée pour les projections de population, à l’aide de la matrice de Leslie, ainsi que le décrivent Keyfitz (1977) ou Wunsch & Termote (1978). Dans le cadre de l’extension multi‑états, chacune des parties scalaires de la matrice de Leslie correspondant à la fécondité et à la mortalité est remplacée pour chaque tranche d’âge par une matrice de transitions entre différents états. Les transitions sont l’une des spécificités des projections multi‑états auto‑ risant des « mouvements » entre différents états durant la période de projection, par exemple du niveau d’éducation primaire au premier cycle de l’enseignement secondaire lorsque les états font référence au niveau d’éducation, ou des zones rurales aux zones urbaines lorsque les états font référence au lieu de résidence3 . Dans la première section de cet article, nous résumons brièvement les dimensions qui ont été projetées. Cette section n’entre pas dans les détails et se fonde principalement sur la littérature ayant déjà compilé ces travaux. Dans la deuxième section, nous analysons les conditions préalables à l’utilisation d’une dimension donnée, ainsi que Lutz et al. les ont définies en 1998, et arguons que certains des critères pourraient être assouplis et mis à jour. Dans la troisième section, nous suggérons quelques dimensions qui pourraient être projetées et satisfaire aux critères déve‑ loppés à la section 2. Dans la dernière section, avant de conclure, nous énumérons certains des défis dont les producteurs de projections multi‑ dimensionnelles doivent être conscients. 1. Qu’avons‑nous projeté ? Si les modèles de projection multi‑états ou multi‑ dimensionnels de la population4 sont bien connus et très répandus aujourd’hui, ils sont rarement mis en œuvre au niveau mondial, où les projections unidimensionnelles dominent toujours. Dans un article publié dans le journal Philosophical Transactions of the Royal Society, Lutz & KC (2010) examinent certaines des dimensions projetées au niveau mondial, comme le lieu de résidence (voir par exemple United Nations, 2018 pour la dernière série de projections des Nations Unies), la composition des ménages (par exemple Habitat, 1996 et Ironmonger et al., 2000), le niveau d’éducation (par exemple Lutz et al., 2018), l’état civil (par exemple Kantorová, 2013), l’appartenance religieuse (par exemple Pew Research Center, 2015), la participation au marché du travail (ILO, 2017 et 2018) et la santé (par exemple le Global Burden of Disease Collaborative Network, 2016). Toutefois, la plupart de ces dimensions n’ont pas été projetées de manière multidimensionnelle, de sorte qu’elles ne modélisent pas complètement les interactions démographiques et dimension‑ nelles mais reposent sur une méthodologie fondée sur la prévalence, souvent établie à partir de modèles économétriques (comme la participa‑ tion au marché du travail) ou de l’extrapolation des tendances. C’est par exemple le cas pour les perspectives d’urbanisation des Nations Unies (United Nations, 2018) présentant la population par lieu de résidence jusqu’en 2050 dans tous les pays. Il est très difficile de projeter le lieu de résidence, notamment parce que la définition des zones urbaines et rurales dépend du pays concerné et évolue au fil du temps. Pour cette raison, il est encore plus complexe d’établir des projections multi‑états modélisant la mobilité entre les zones urbaines et rurales. C’est également le cas pour d’autres indicateurs, comme ceux liés aux projections mondiales de la pauvreté (par exemple Manuel et al., 2018). Les méthodes qui attribuent des taux de préva‑ lence aux cohortes projetées et composantes existantes procèdent ainsi parce la modélisa‑ tion de la dynamique du système est difficile. Certaines dimensions ne sont en effet pas très stables au fil du temps, en raison de la mobi‑ lité potentielle des personnes entre différentes dimensions. C’est le cas du lieu de résidence ou de l’état de santé. Ces projections reposent habi‑ tuellement sur des scénarios dans lesquels les taux de prévalence ou d’incidence restent stables ou évoluent au fil du temps et dans les diffé‑ rentes régions, scénarios qui parfois intègrent également les facteurs de risque spécifiques aux dimensions. Les dimensions mentionnées plus haut satisfont parfaitement aux trois critères définis par Lutz et al. (1998), pour valider leur inclusion, en plus de l’âge et du sexe, dans une projection : 1) La dimension doit être « intéressante en soi, et donc souhaitable en tant que paramètre de sortie explicite » (Lutz et al., 1998, p. 42). Par exemple, le nombre de ménages composés d’une seule personne, qui dépend de plusieurs 3. Pour un résumé de la méthodologie multi‑états, voir par exemple Rogers (1981) ou la note technique nº1 dans Goujon & Wils (1996). 4. Dans cet article, nous ne faisons pas de différence entre les projections multidimensionnelles et les projections multi‑états à strictement parler (et utilisons les deux termes de façon interchangeable), dans lesquelles la transition entre les dimensions ou les états est exprimée en termes soit de probabilité soit de taux. Nous savons que le choix fait en la matière affec‑ tera les résultats, mais ce n’est pas l’objet de cet article. Nous envisageons au contraire tous les modèles de projection de population dans lesquels la population est décomposée non seulement par âge et par sexe mais aussi en fonction d’une ou plusieurs autres dimensions. 94 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 dynamiques comme celle de la divortialité et de l’âge de départ du foyer parental, est un para‑ mètre intéressant. 2) La dimension doit être source d’hétérogénéité démographique. Ainsi, les tendances de fécon‑ dité, de mortalité et de migration des personnes doivent varier dans la dimension considérée. C’est le cas par exemple du lieu de résidence : la fécondité des femmes vivant dans les zones urbaines est souvent largement inférieure à celle des femmes vivant dans les zones rurales. En zone urbaine, les femmes bénéficient d’un accès plus facile à des services susceptibles de faire diminuer le taux de fécondité, tels que le planning familial, l’éducation et la santé. Ensuite, les contraintes en termes d’espace disponible pour élever une famille nombreuse y sont plus fortes. En particulier, dans les pays où le revenu moyen est faible, l’évolution des écarts liés au lieu de résidence influencera la fécondité future principalement en fonction du taux d’urbanisation. Le lieu de résidence a également un impact sur la mortalité et sur la migration internationale. Il en va de même de l’éducation, qui a des effets considérables sur les déterminants démographiques, avec la plupart du temps un impact négatif sur la fécondité et sur la mortalité mais un impact positif sur la migration. L’hétérogénéité démographique introduite par la dimension de l’éducation, si elle est prise en compte, influence la dynamique du système. Par exemple, Goujon & McNay (2003) et KC et al. (2018) ont démontré qu’en Inde, la prise en compte de la granularité des données en termes d’état ou de lieu de résidence et d’éducation a un impact considérable sur les résultats des projections. 3) Si les deux premiers critères portent sur la justification de l’ajout d’une dimension aux projections de population, le troisième est de nature plus pragmatique puisqu’il s’agit de sa faisabilité, à la fois en termes de données disponibles (population, fécondité, mortalité, migration pour chaque dimension, ainsi que transitions entre les dimensions) et d’outils. Des logiciels de projection de population multi‑états existent depuis un moment déjà : LIPRO5 , développé à l’origine par le Nederlands Interdisciplinair Demografisch Instituut (NIDI, l’institut néerlandais d’études démographiques) pour les projections relatives aux ménages6 , peut également être utilisé pour de nombreux calculs en démographie multi‑états. Un package R (MSDEM) est également disponible pour les projections de population multi‑états au niveau infranational7 . 2. Projections de population par niveau d’éducation Les projections de population du niveau d’édu‑ cation sont un rare exemple de projections multi‑états mondiales. Elles ont été développées principalement par l’IIASA, avec une étude de cas réalisée à l’Île Maurice (Lutz, 1994). Plusieurs applications au niveau national et au niveau régional ont suivi (par exemple Wils, 1996, Yousif et al., 1996 et Goujon, 1997). En 2001, Goujon & Lutz (2004) ont pour la première fois projeté la population et l’éducation au niveau mondial, en divisant le monde en treize régions. Les premières projections relatives à un grand nombre de pays (120) et à quatre niveaux d’éducation ont été réalisées en 2010 (KC et al., 2010) à l’horizon 2050. En 2015, le nombre de pays est passé à 171, le nombre de catégories à six et la période de projection a été étendue jusqu’en 2100 (Lutz et al., 2014). La dernière mise à jour a été publiée en 2018 (Lutz et al., 2018 et WIC, 20188 ). Le jeu de données contient aujourd’hui 185 pays rassemblant 99 % de la population mondiale de 2015. Dans les deux derniers exercices, les scénarios se fondent à la fois sur la modélisation et sur l’évaluation, par des experts, des conditions futures en termes de fécondité, de mortalité, de migration et d’éducation. Les hypothèses de la projection découlent de deux étapes principales (Lutz et al., 2014). Premièrement, des opinions d’experts et des modèles servent à établir les hypothèses pour les paramètres généraux de la projection en ignorant les niveaux d’éducation, c’est‑à‑dire que les taux de fécondité ne dépendent que des tranches d’âge et du taux global de fécondité du pays, l’espé‑ rance de vie que du sexe et des taux de survie par âge et sexe, les taux de migration entrante et sortante et les calendriers de migration que de l’âge et du sexe. Deuxièmement, les écarts entre les niveaux d’éducation sont calculés au niveau du pays. Puis, pour la fécondité, les taux de fécondité par niveau d’éducation de l’année de base sont tirés de la littérature existante, ainsi que des données des recensements et enquêtes. On attribue aux pays pour lesquels ces données ne sont pas disponibles les écarts de fécondité moyens de tous les pays de la région globale à 5. https://www.nidi.knaw.nl/en/research/al/270101 [dernier accès le 15/07/2019] 6. Le logiciel ProFamy, disponible à l’adresse http://profamy.com.cn/ en_about.asp, peut également servir aux projections des ménages et des conditions de logement [dernier accès le 29/10/2019]. 7. https://r‑forge.r‑project.org/R/?group_id=2281 [dernier accès le 15/07/2019] 8. Le jeu de données détaillé est disponible à l’adresse http://dataexplorer. wittgensteincentre.org/ [dernier accès le 15/07/2019] ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 95 Les dimensions dans les projections mondiales : un état des lieux laquelle ils appartiennent. Au fil du temps, on suppose que les écarts d’éducation convergent vers certains ratios des taux globaux de fécon‑ dité pour les différents niveaux d’éducation par rapport à l’enseignement post‑secondaire9 . On suppose que ces valeurs seront atteintes lorsque le taux global de fécondité atteindra 1.8 enfant par femme. Dans les pays où l’écart maximal est inférieur à 1.42 pour l’année de base, les ratios relatifs sont maintenus à un niveau constant à ces niveaux inférieurs. L’hypothèse de conver‑ gence suit la littérature, qui montre que, dans les sociétés à revenu élevé, les écarts diminuent en termes absolus comme relatifs. Selon Jalovaara et al. (2018), dans les sociétés au niveau d’édu‑ cation global élevé du Danemark, de Norvège et de Suède, les écarts de fécondité entre les femmes des différentes catégories d’éducation sont quasiment nuls10 (voir également Beaujouan & Berghammer, 2019). Pour la mortalité, s’agissant de l’espérance de vie à l’âge de 15 ans, les écarts d’éducation spécifiques au sexe sont standardisés selon les conclusions de la littérature existante. En matière d’espérance de vie à l’âge de 15 ans, on suppose que l’écart entre la catégorie ‘Sans éducation’ et la catégorie ‘Éducation post‑secondaire’ est de 6 ans pour les hommes et de 4 ans pour les femmes. Entre ces deux extrêmes, on fait l’hypothèse, pour les hommes, d’un écart de 2 ans entre ceux ayant une éducation primaire complète et ceux ayant une éducation corres‑ pondant au premier cycle de l’enseignement secondaire, et d’un écart d’1 an pour les autres niveaux d’éducation. L’écart de 4 ans retenu pour les femmes entre niveaux d’éducation extrêmes, moins élevé que pour les hommes, est réparti entre les différents niveaux d’éducation suivant la répartition des hommes. Les écarts sont maintenus à un niveau constant tout au long de la période de projection. Pour les enfants de moins de 15 ans, la mortalité différentielle est introduite via l’éducation des mères11. Enfin, les données sur les caractéristiques des migrants étant rares, on suppose que la distribution des niveaux d’éducation dans les flux migratoires est la même que celle du pays d’origine. Le système est dynamique grâce à un ensemble de taux de transition éducative applicables aux différentes catégories d’éducation, tirés des séries chronologiques nationales de tous les pays. Ces transitions surviennent entre les âges de 15 ans et de 34 ans, peu de personnes obtenant un niveau d’éducation supérieur après 35 ans. Dans la mesure où le modèle ne fait pas le lien entre les individus et leur ascendance, la transition éducative des enfants ne dépend pas des niveaux d’éducation de leurs parents. De la même façon, il n’y a pas de rétroaction du nombre d’enfants dans un ménage sur le niveau d’éducation12. Nous reviendrons sur ces limites. Les projections, lorsqu’elles tiennent compte du niveau d’éducation, tendent à déboucher sur une croissance de la population inférieure à celle obtenue dans les projections qui se limitent aux dimensions de l’âge et du sexe. C’est la principale différence entre les projections des Nations Unies, qui tablent sur 10.9 milliards de personnes dans le monde en 2100 dans la variante moyenne (United Nations, 2019), tandis que le scénario tendanciel incorporant la dimension de l’éducation table sur 9.3 milliards (WIC, 2018). Ce scénario montre également que l’augmen‑ tation concernera principalement la population ayant un niveau d’éducation correspondant au deuxième cycle de l’enseignement secondaire ou d’éducation post‑secondaire, ce qui aurait un impact mécanique sur la fécondité, globalement beaucoup plus faible pour les niveaux d’éduca‑ tion les plus élevés (figure I). En Éthiopie entre 2014 et 2016 par exemple, le taux global de fécondité des femmes sans éducation ou ayant un niveau d’éducation primaire est de 5.0 enfants tandis que celui des femmes avec une éducation secondaire ou au‑delà est de 2.1 enfants (selon les enquêtes démographiques et de santé13). Bien que ce scénario suppose que l’écart de fécondité diminue en termes absolus durant la période de projection, la dynamique liée aux écarts signi‑ ficatifs a des conséquences importantes sur les tendances de la population totale. 9. Les ratios sont les suivants : 1.42 pour les femmes sans éducation, avec une éducation primaire incomplète ou avec une éducation primaire complète (≤ CITE 1), 1.35 pour les femmes avec une éducation correspon‑ dant au premier cycle de l’enseignement secondaire (CITE 2), 1.14 pour les femmes avec une éducation correspondant au deuxième cycle de l’ensei‑ gnement secondaire (CITE 3) et 1 pour les femmes avec une éducation post‑secondaire (CITE 4+), la catégorie de référence. 10. À noter que, dans les pays nordiques, si les mères possédant un niveau d’éducation élevé atteignent souvent un taux de natalité plus élevé dans la parité 2 et 3 que celles dont le niveau d’éducation est moins élevé, leur descendance finale est souvent légèrement inférieure à celle des femmes dont le niveau d’éducation est moins élevé, car elles ont com‑ mencé plus tard à avoir des enfants (Andersson et al., 2009). 11. Les écarts entre le ratio relatif des taux de mortalité au sein de la catégorie ‘Education correspondant au deuxième cycle de l’enseignement secondaire’ sont de 1.8 / 1.7 / 1.6 / 1.4 / 1.0 et 0.8 par ordre croissant de niveau d’éducation : sans éducation, éducation primaire incomplète, éducation primaire complète, éducation correspondant au premier cycle de l’enseignement secondaire, éducation correspondant au deuxième cycle de l’enseignement secondaire et éducation post‑secondaire. Ces valeurs sont tirées des moyennes des taux de mortalité des enfants de moins de 5 ans dans les pays où des enquêtes démographiques et de santé ont été menées. 12. Dans le cadre des projections de 13 régions mondiales, Goujon & Lutz (2004) calculent un scénario incorporant une rétroaction entre le niveau d’éducation des mères et les taux d’inscription des filles. Ce mécanisme auto‑alimenté a un impact positif sur les niveaux d’éducation moyens mais peut également creuser la dichotomie entre les couches de la société situées au plus bas niveau d’éducation (qui ont peu de chances de passer au niveau supérieur) et celles situées au plus haut niveau. 13. Les données des enquêtes démographiques et de santé sont dispo‑ nibles ici : https://dhsprogram.com/ [dernier accès le 24/10/2019]. 96 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Les projections du niveau d’éducation ont été appliquées par les modélisateurs du GIEC, qui ont évalué les liens entre le développement socio‑économique et le changement climatique dans différents scénarios (KC & Lutz, 2014), ainsi que le rôle joué par l’éducation pour atténuer les vulnérabilités et optimiser la résilience (UNDP, 2014). Ces projections du niveau d’éducation ont également permis de modéliser le potentiel impact économique du parcours éducatif futur des jeunes dans les pays à faible revenu moyen (Basten & Crespo Cuaresma, 2014). De façon générale, elles ont permis de modéliser le lien entre l’éducation et la croissance économique (Lutz et al., 2008). Plus récemment, les cher‑ cheurs ont examiné l’impact de l’éducation, et plus particulièrement de celle des femmes, sur l’atténuation des conséquences du vieillissement de la population sur le marché du travail dans les pays de l’Union européenne (Marois et al., 2019). La prise en compte du niveau d’éducation repose sur la collecte et l’harmonisation de données existantes. Mais elle souffre d’une faiblesse importante dans la mesure où la qualité de l’éducation n’est pas la même non seulement entre les différents pays mais aussi au sein d’un pays donné (voir par exemple Hanushek & Wößmann, 2012). Cela invite à mener des recherches complémentaires en termes de données et de modélisation. En outre, les projec‑ tions ne tiennent pas compte des contraintes liées au développement de l’éducation, en termes de budget, d’infrastructure ou de population active. 3. Quelles autres dimensions n’avons‑nous pas projetées ? Les critères indiqués plus haut, développés afin d’examiner une dimension donnée dans les projections multi‑états et notamment de justifier l’inclusion du niveau d’éducation (Lutz et al., 1998), pourraient en partie être révisés de façon à élargir la possibilité d’inclusion d’un plus grand nombre de dimensions dans les projections, en particulier si l’on considère leur impact en dehors du contexte de la démographie. Ainsi, une dimension peut être une source d’hétérogénéité ayant un impact sur la dynamique du système dans son ensemble, sans que cela relève nécessai‑ rement de l’hétérogénéité démographique stricto sensu, comme le deuxième critère présenté plus haut y contraint. Nous présentons ci‑dessous une liste des dimensions qui pourraient être incorporées aux projections de population mondiale. Nous limi‑ tons cette liste aux dimensions qui pourraient présenter un intérêt au niveau mondial – donc pas uniquement pour une population donnée ou pour un pays ou une région du monde – mais qui, à la connaissance de l’auteure, n’ont pas encore été projetées au niveau mondial. La sélection de ces dimensions tient compte de : - leur caractère opportun : elles et les consi‑ dérations qui leur sont associées font partie du débat public et de l’agenda politique au niveau international ; - caractéristiques générationnelles (et liées au genre) : comme Lutz (2013) l’indique dans la théorie du métabolisme démographique, les sociétés évoluent grâce au renouvellement des générations. Les dimensions envisagées tendent à être propres aux cohortes, comme le montrent par exemple les études et les projec‑ tions sur le sentiment d’identité européenne au sein de l’Union européenne et sur l’évolution des attitudes face à l’homosexualité (Striessnig & Lutz, 2016a et 2016b). Figure I – Projections de la population mondiale totale par les Nations Unies Source : United Nations (2019) et WIC (2018). A – Variante moyenne (2019) B – WIC (2018) 0 2 4 6 8 10 12 2015 2020 2025 2030 2035 2040 2045 2050 2055 2060 2065 2070 2075 2080 2085 2090 2095 2100 Milliards Population totale 0 2 4 6 8 10 12 2015 2020 2025 2030 2035 2040 2045 2050 2055 2060 2065 2070 2075 2080 2085 2090 2095 2100 Milliards Postsecondaire Deuxième cycle de l’enseignement secondaire Premier cycle de l’enseignement secondaire Éducation primaire Éducation primaire incomplète Sans éducation Moins de 15 ans ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 97 Les dimensions dans les projections mondiales : un état des lieux La liste des dimensions proposées a ses limites. Premièrement, elle n’est pas exhaustive ; de nombreuses autres dimensions pourraient probablement être ajoutées. Bien que ces dimensions soient intéressantes et que leurs projections soient susceptibles de fournir des informations quant aux conséquences poten‑ tielles de certaines dynamiques, elles pourraient également être considérées comme moins solides que d’autres dimensions telles que l’éducation ou le lieu de résidence. Parallèlement, si le but est une couverture mondiale, elles requièrent un usage intensif de données dont la disponi‑ bilité n’a pas été vérifiée dans tous les pays du monde. En outre nous ne développons pas dans l’article la méthodologie qui serait applicable aux projections de population multi‑états de ces dimensions. Nous supposons qu’elle serait dérivée de la méthodologie multi‑états et que la plupart des modélisations nécessaires consiste‑ rait à déterminer les taux de transition entre les états/dimensions que nous présentons ici. 3.1. Alimentation La dimension relative aux futurs aliments des habitants de la planète est cruciale pour un grand nombre des facteurs affectant le développement durable. Dans ce domaine, la capacité des personnes à accéder à une nourriture suffisante est importante14. Toutefois, outre le caractère adéquat de l’approvisionnement en aliments, les différents comportements alimentaires pourraient avoir leur importance et déterminer la capacité des êtres humains à vivre sur une planète limitée (Rockström et al., 2009). Il a été prouvé que la part de la population qui adoptera une alimentation moins riche en produits laitiers et en viande, comme le prônent le véganisme, le végétarisme ou le flexitarisme, pourrait avoir un impact significatif sur la réduction des émis‑ sions de gaz à effet de serre, particulièrement dans les pays industrialisés (Sandström et al., 2018). Par conséquent, tout changement de l’alimentation pourrait être utile pour « limiter le réchauffement climatique à moins de 2 °C tout en apportant une alimentation nutritive à une population mondiale croissante et changeante » (Aleksandrowicz et al., 2016, p. 1). Bien que plusieurs études se soient penchées sur l’impact potentiel de diverses habitudes alimentaires affectant le changement climatique et la réali‑ sation des objectifs de développement durable, très peu ont examiné comment ces changements de l’alimentation pourraient se disséminer parmi la population, ce qui est pourtant particulière‑ ment important car ces changements sont liés à des caractéristiques individuelles telles que l’âge et le sexe, ainsi, probablement, qu’au pays d’origine, au lieu de résidence, à l’éducation et à l’appartenance religieuse, entre autres. De plus, cette dimension est particulièrement pertinente pour les projections de population car ces chan‑ gements sont susceptibles de suivre un processus de diffusion le long des courbes des cohortes, par exemple depuis les jeunes et les personnes ayant un niveau d’éducation plus élevé vers le reste de la population. Il serait également intéressant d’examiner l’impact potentiel de l’alimentation sur le comportement démographique. Par exemple, il est prouvé que les femmes véganes souffrent plus souvent d’aménorrhée lorsqu’elles ne prennent pas de vitamines B12 (Wokes et al., 1955). La dimension pourrait également influencer la fécondité des femmes plus soucieuses de l’environnement, qui adoptent souvent une alimentation sans ou moins riche en viande et qui sont susceptibles de ne pas vouloir beau‑ coup d’enfants (Arnocky et al., 2011). D’autres facteurs, tels que l’éducation, pourraient égale‑ ment avoir un impact sur la fécondité, mais les études ont des conclusions contrastées en la matière (Allès et al., 2017 et Moreira & Padrão, 2004). La réduction de la prévalence de l’obé‑ sité et des maladies cardiovasculaires au sein de la population (Springmann et al., 2018) et de certains cancers associés à la consommation de viande (Springmann et al., 2016) pourrait également avoir un impact considérable sur la mortalité. Il serait intéressant d’examiner tous ces phénomènes dans les projections de population mondiale, en s’appuyant sur plusieurs enquêtes recensant de façon détaillée les dépenses d’un grand échantillon de ménages durant une période donnée (Leahy et al., 2010), les enquêtes de mesure du niveau de vie de la Banque mondiale. Ces informations sont également disponibles au niveau individuel pour certains pays – voir par exemple les estimations de la population végane par âge et par sexe à la figure II. 3.2. Langue Bien que les implications liées aux langues parlées puissent sembler triviales au regard des défis auxquels la population mondiale devra probablement faire face le siècle prochain, elles sont néanmoins importantes au niveau national ou infranational. La taille et la concentration des communautés linguistiques déterminent le pouvoir linguistique, qui influence à son tour le pouvoir politique de ces communautés (Hung Ng 14. Cela fait partie de l’objectif de développement durable nº 2 : « Éliminer la faim, assurer la sécurité alimentaire, améliorer la nutrition et promouvoir l’agriculture durable ». 98 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 & Deng, 2017), comme on le constate au Canada (français et anglais), en Belgique (néerlandais, français et allemand) et en Chine (mandarin, cantonais et autres langues telles que le tibé‑ tain, le mongol, etc.). Les langues parlées sont influencées par la vitalité démographique de la population qui les parle. La migration interne et internationale est également susceptible de jouer un rôle majeur à cet égard. Bien que, de toute évidence, il n’existe aucun lien de causa‑ lité entre la langue parlée et le comportement démographique, la variable d’intérêt elle‑même sera affectée et pourra être projetée en utilisant implicitement ou explicitement des dimensions supplémentaires afin de déterminer des hypo‑ thèses sur le comportement démographique futur des populations selon la langue qu’elles parlent. Par exemple, si les femmes israéliennes parlant l’arabe ont pendant longtemps donné naissance à un plus grand nombre d’enfants que leurs compa‑ triotes parlant l’hébreu dans le reste du pays15, il est évident que cela n’est pas lié directement à la langue mais aux conditions socio‑économiques présentes dans la région où ces populations sont concentrées, en plus de la situation politique. Bien que certains chercheurs aient déjà produit des projections linguistiques, par exemple Houle & Corbeil (2017) et Sabourin & Belanger (2015) pour le Canada, ainsi qu’Ortman & Shin (2011) pour les États‑Unis, ces projections n’ont pas été réalisées au niveau mondial, ce qui permettrait d’évaluer, par exemple, la vitalité de certaines langues (anglais ou chinois) en tant que langue maternelle ou autre langue parlée. La plupart des recensements présentent la population par langue, listant soit les langues maternelles soit les langues parlées à la maison, ainsi que, souvent, le degré de connaissance de ces langues – voir par exemple la répartition de la population en Finlande par langue maternelle à deux moments différents (figure III). Notons que la part de la population dont la langue maternelle n’est pas le finlandais, le suédois ou le sámi a fortement augmenté depuis 2000, notamment parmi les cohortes les plus jeunes. 3.3. Idéologie et appartenance politique Les travaux examinant l’impact des différences entre les comportements démographiques sur les variables socio‑politiques – et surtout ceux le faisant de façon prospective – sont rares. Nous n’avons guère que ceux de Kaufmann et al. (2010) à notre disposition (figure IV). Toutefois, dans de nombreuses sociétés, les électeurs sont de plus en plus nombreux à choisir les partis populistes (voir figure V). Des recherches menées pour le quotidien The Guardian esti‑ ment que le nombre d’Européens vivant sous un gouvernement dont le cabinet comprend 15. Selon l’institut national de la statistique d’Israël, cette tendance s’est renversée en 2016. En 2002, le taux global de fécondité des femmes arabes était de 4.19 et celui des femmes juives était de 2.64, tandis qu’en 2016 ils étaient de 2.11 et 3.16 respectivement. Voir : https://old.cbs.gov.il/ www/publications/lidot/lidot_all_1.pdf [dernier accès le 05/07/2019]. Figure II – Estimation des préférences alimentaires par âge (à partir de 15 ans) et sexe en Autriche en 2013 400 000 200 000 0 200 000 400 000 0-4 10-14 20-24 30-34 40-44 50-54 60-64 70-74 80-84 90-94 Hommes Femmes Alimentation végétarienne ou végane Alimentation non végétarienne ou non végane Source : calcul de l’auteure fondé sur les données de l’Institut für Empirische Sozialforschung (2013). ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 99 Les dimensions dans les projections mondiales : un état des lieux au moins un membre populiste était treize fois plus important en 2018 qu’en 199816. Certaines caractéristiques démographiques des élec‑ teurs, telles par exemple que l’âge ou le sexe (Harteveld et al., 2015) et des caractéristiques socio‑économiques (Rooduijn, 2018) – surtout l’éducation et le lieu de résidence – pourraient influencer à l’avenir le comportement électoral. En outre, la transmission intergénération‑ nelle d’une idéologie des parents aux enfants (Jennings & Niemi, 1981 ; Abramowitz & Saunders, 1998 ; Jennings et al., 2009 ; Murray & Mulvaney, 2012) justifie elle aussi d’exa‑ miner la dimension au niveau multi‑états, car le système est plus stable et moins volatil que l’on pourrait le penser. Kaufmann et al. (2010) justifient les projections de l’idéologie politique (en faisant la différence entre libéraux, modérés et conservateurs) dans le contexte des États‑Unis d’Amérique, en affirmant que « [...] si l’apparte‑ nance à un parti se concrétise au début de l’âge adulte et dure dans le temps, alors le paysage politique américain est prédéterminé » (p. 12). Toutefois, cela ne veut pas dire que les futures idéologies ne dépendent que du comportement démographique de la population. Les « pres‑ sions de l’époque » subies par les jeunes qui votent pour la première fois (Beck & Jennings 1991, p. 742) et tout au long de leur vie influen‑ ceront également l’idéologie politique au niveau individuel. 16. https://www.theguardian.com/world/ng-interactive/2018/nov/20/revealedone-in-four-europeans-vote-populist [dernier accès le 17/07/2019] Figure III – Population de la Finlande par âge, sexe et langue maternelle 350 250 150 50 50 150 250 350 0- 4 5 - 9 10 - 14 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 50 - 54 55 - 59 60 - 64 65 - 69 70 - 74 75+ 350 250 150 50 50 150 250 350 0- 4 5 - 9 10 - 14 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 50 - 54 55 - 59 60 - 64 65 - 69 70 - 74 75+ Milliers Milliers Finlandais Suédois Autres langues Hommes Femmes Hommes Femmes A – En 2000 B – En 2018 Source : calcul de l’auteure fondé sur la population par âge, sexe et langue, Tilastokeskus (institut national de la statistique de Finlande), 2018. Figure IV – Pyramide de l’appartenance politique de la population aux États-Unis, estimations (2003) et projections (2043) 2003 2043 0-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75+ 0-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75+ Hommes Femmes Hommes Femmes Libéraux Modérés Conservateurs Note : aux enfants de moins de 21 ans est attribuée l’appartenance politique de leurs parents. Source : Kaufmann et al., 2012, selon les enquêtes sociales générales des États-Unis (2000-2006) 100 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 3.4. Absence d’enfants et de petits‑enfants Il existe de nombreuses projections des ménages examinant la composition de ceux‑ci, mais rares sont celles qui analysent les répercussions changeantes de certaines tendances récentes sur l’ensemble des cohortes et des générations. Un exemple intéressant est le niveau d’infécondité, qui augmente depuis plusieurs décennies en Europe et dans les pays du Nord. Il est particu‑ lièrement prononcé en Autriche, Allemagne et Suisse, précurseurs en la matière puisque plus de 20 % des femmes sont sans enfants à la fin de leurs années de fertilité (Kreyenfeld & Konietzka, 2017). L’infécondité augmente également dans d’autres pays, principalement en Europe du Nord mais aussi en Europe du Sud et de l’Est, ainsi qu’en Asie de l’Est17. Quelles que soient les raisons pour lesquelles un homme ou une femme n’a pas d’enfant, cela pourra avoir des consé‑ quences tout au long de sa vie, notamment durant sa vieillesse en l’absence de l’aide que des enfants auraient pu apporter. Par ailleurs, il est possible que les enfants de certains couples âgés n’aient pas d’enfants eux‑mêmes, auquel cas ces couples ne connaîtront pas la vie de grands‑parents, ce qui a également des conséquences car ils n’auront pas de descendants18 (Margolis, 2016). Cette dimen‑ sion pourrait être étudiée le long des courbes des cohortes, comme indiqué à la figure VI. 4. Problèmes potentiels liés aux projections de population multi‑états Certains problèmes doivent faire l’objet d’une réflexion approfondie pour la mise en œuvre de projections multidimensionnelles. Premièrement, il faut obtenir un bon équilibre entre le nombre de variables nécessaires à l’amélioration des résultats de toute projection de population et les hypothèses qui devront être formulées si un plus grand nombre de dimensions sont prises en compte. De fait, chaque dimension supplémentaire appelle plusieurs hypothèses liées au comportement des individus en termes de fécondité, de mortalité et de migration. La disponibilité des données relatives à l’année de base pourrait avoir un impact restrictif, notam‑ ment lorsque des dimensions multiples sont 17. L’infécondité augmente également dans la plupart des régions du monde (United Nations, 2015). 18. Les lignées familiales sans descendants disparaissent. En consé‑ quence, les personnes qui ont des enfants mais n’ont pas de petits‑enfants ne peuvent pas devenir une catégorie numériquement importante de la population, surtout lorsque la variance du nombre d’enfants est faible. Figure V – Orientation politique lors des élections parlementaires, des années 1990 aux années 2010 en Europe Orientation politique lors des élections parlementaires* Autriche Belgique Grande-Bretagne Bulgarie République tchèque Danemark Finlande France Allemagne Grèce Hongrie Italie Pays-Bas Pologne Portugal Roumanie Slovaquie Espagne Suède Suisse * Les élections présidentielles de 2016 en Autriche et en Bulgarie, ainsi que les élections régionales de 2015 en France, sont incluses afin d’ajouter des résultats plus récents pour ces pays. Centre-droite, centre-gauche Autres partis Extrême-droite et extrême-gauche Source : New York Times (2016). https://www.nytimes.com/interactive/2016/05/22/world/europe/europe-right-wing-austria-hungary.html ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 101 Les dimensions dans les projections mondiales : un état des lieux prises en compte, par exemple l’éducation, le lieu de résidence et les régions. Bien que, faute de données, l’hypothèse selon laquelle il n’existe pas d’écarts soit envisageable (c’est‑à‑dire que les personnes incluses dans la dimension 1 présentent la même fécondité que celles incluses dans la dimension 2 et dans d’autres dimensions), la validité et la pertinence de ces projections s’en trouveraient détériorées. Pour cette raison, afin de développer des projections de population multi‑états, les chercheurs doivent faire preuve de bon sens pour déterminer le nombre d’états. Un compromis consiste à modéliser les dimen‑ sions avec les données existantes et un modèle théorique, puis à appliquer/modéliser d’autres caractéristiques de la population à l’aide des taux de prévalence, sans intégrer les projections en tant que catégories, ce qui, comme nous l’avons montré, est mis en œuvre dans de nombreux exercices de prévision, comme les projections de la participation au marché du travail fondées sur des projections multi‑états du niveau d’édu‑ cation (Loichinger & Marois, 2018). De plus, les scénarios modélisent également le lien entre les dimensions choisies et les déter‑ minants démographiques futurs, dont l’évolution peut différer de la tendance observée par le passé. Par exemple, les niveaux d’éducation ont claire‑ ment été un facteur d’hétérogénéité expliquant la majeure partie des variations de la fécondité entre différents pays par le passé, et ils le sont encore aujourd’hui. Toutefois, il est difficile de connaître le rôle que l’éducation jouera à l’avenir et de déterminer l’influence qu’elle aura sur le comportement démographique, en supposant que la plupart des sociétés soient fondées sur la connaissance et que les informations et les connaissances soient donc le facteur de produc‑ tion le plus important. Même si l’éducation continue de jouer un rôle majeur, il ne s’agira probablement plus de l’éducation au sens où nous l’entendons aujourd’hui. À ce titre, un renforce‑ ment de la granularité permet‑il d’améliorer la précision des résultats des projections de popu‑ lation multi‑états ? La réponse dépend fortement de la capacité du modèle à prédire l’évolution du lien qui existe entre la dimension et les déter‑ minants démographiques. Cette réserve semble aller à l’encontre des projections multi‑états, mais nous estimons qu’elle est au contraire l’oc‑ casion d’analyser la sensibilité des projections à différentes tendances de variation du lien entre la dimension et le comportement démographique des individus dans cette dimension. L’autre défi à prendre en compte, qui n’est pas indépendant du premier, repose sur le lien de causalité qui sous‑tend en permanence les projections. Bien que l’inclusion de la dimension dans les projections influence le résultat dans la mesure où la dimension est un facteur d’hété‑ rogénéité, cela ne veut pas nécessairement dire qu’elle influence le déterminant démographique de façon causale. Les projections de population en termes d’appartenance religieuse en sont Figure VI – Représentation hypothétique de l’absence d’enfants et de petits-enfants, par âge et sexe, en Autriche en 2019 400 000 300 000 200 000 100 000 0 100 000 200 000 300 000 400 000 0-4 10-14 20-24 30-34 40-44 50-54 60-64 70-74 80-84 90-94 Hommes Femmes Enfant Parent Sans enfants Grand-parent Sans petits-enfants Note : les données présentées dans le graphique sont fictives, à l’exception de la structure âge/sexe d’Autriche en 2019. La répartition de la population entre les différentes catégories est simplifiée, supposant par exemple que la parentalité ne survient qu’entre 15 et 49 ans. Source : concept de l’auteure. 102 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 BIBLIOGRAPHIE Abramowitz, A. & Saunders, K. (1998). Ideological realignment in the US electorate. Journal of Politics 60(3), 634–652. https://doi.org/10.2307/2647642 Aleksandrowicz, L., Green, R., Joy, E. J. M., Smith, P. & Haines, A (2016). The Impacts of Dietary Change on Greenhouse Gas Emissions, Land Use, Water Use, and Health: A Systematic Review. PLoS ONE 11(11), e0165797. https://doi.org/10.1371/journal.pone.0165797 un très bon exemple. En Europe, la fécondité des femmes musulmanes est supérieure à celle des femmes chrétiennes ce qui ne découle pas nécessairement de leur appartenance religieuse mais plutôt de leur situation socio‑économique. Pour mettre un scénario en œuvre, il convient de formuler son interprétation avec soin. Lutz & Skirbekk (2014) observent que « l’évaluation du lien de causalité dans les sciences sociales dépend du contexte » (p. 18). Ils suggèrent qu’il est extrêmement difficile d’établir une causalité forte dans les sciences d’intervention, qui visent à mieux comprendre « comment les forces de changement les plus importantes fonctionnent afin de prédire l’évolution future du système » (id., p. 18). En revanche, les chercheurs en sciences sociales devraient s’efforcer de déter‑ miner une causalité fonctionnelle – différente de la causalité forte – impliquant « de fortes associations observées de façon empirique » soutenue par « une argumentation plausible quant aux mécanismes », et par l’élimination des « autres explications évidentes contradic‑ toires » pour l’association observée entre les deux facteurs (id., p. 19). Ils montrent également que, de cette façon, une causalité fonctionnelle peut être prouvée entre un niveau d’éducation plus élevé et des taux de mortalité et de fécon‑ dité plus faibles « au moins durant la transition démographique » (id., p. 28). Les modèles de projection multidimensionnelle de la population posent un autre problème : il faut assurer la cohérence interne (par exemple la répartition des sexes pour les projections de statut marital) et la cohérence externe (par exemple entre projections de population régionales et nationales). Plusieurs solutions algorithmiques permettent de corriger chaque composante démographique afin de minimiser les écarts (Keilman, 1985). D’autres recherches ont analysé le problème de la cohérence dans le cadre de la modélisation des futures tendances de mortalité, en tenant compte du fait que les écarts entre des populations étroitement liées sont peu susceptibles de se creuser à long terme. En conséquence, les projections de mortalité (ou d’autres déterminants) d’une sous‑région ou d’un sous‑groupe pourraient être améliorées en tenant compte des tendances d’un plus grand groupe (Li & Lee, 2005). * * * Les projections multidimensionnelles sont en plein essor. C’est particulièrement le cas dans le domaine de l’éducation, qui fait l’objet de projections dans toutes sortes de contextes et est de plus en plus utilisé au niveau mondial pour représenter le niveau de développement, l’autonomie des femmes et la capacité d’inno‑ vation et d’adaptation. Partout dans le monde, nous cherchons à obtenir des informations sur l’avenir. À ce titre, il est probablement intéres‑ sant de projeter de nouvelles caractéristiques/ dimensions des êtres humains. Il est également probable que les études sur la population future exploitent la disponibilité des données massives, qui pourraient nous éclairer sur le comportement humain. Tout comme les projections classiques par cohorte et composantes, les projections multi‑états sont beaucoup plus que des outils de prévision car elles permettent d’explorer l’avenir en fonction d’hypothèses sur des tendances futures, grâce à différents scénarios de simulation. Dans cette optique, ces scénarios analysent la sensibilité des projections à différentes hypothèses. Ces projections sont supérieures aux projections classiques par cohorte et composantes en raison de l’influence et de la sensibilité des dimensions, qui peuvent jouer un rôle dans les projections elles‑mêmes. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 103 Les dimensions dans les projections mondiales : un état des lieux Allès, B., Baudry, J., Méjean, C., Touvier, M., Péneau, S., Hercberg, S. & Kesse-Guyot, E. (2017). Com‑ parison of Sociodemographic and Nutritional Characteristics between Self-Reported Vegetarians, Vegans, and Meat-Eaters from the NutriNet-Santé Study. Nutrients, 9(9), 1023. https://doi.org/10.3390/nu9091023 Andersson, G., Knudsen, L. B., Neyer, G., Teschner, K., Rønsen, M., Lappegård, T., Skrede, K. & Vikat, A. (2009). Cohort fertility patterns in the Nordic countries. Demographic research, 20 (article 14): 313–352. https://dx.doi.org/10.4054/DemRes.2009.20.14 Arnocky, S., Dupuis, D. & Stroink, M. L. (2011). Environmental concern and fertility intentions among Cana‑ dian university students. Population and Environment, 34 (2), 279–292. https://doi.org/10.1007/s11111-011-0164-y Basten, S. & Crespo Cuaresma, J. (2014). Modelling the macroeconomic impact of future trajectories of educational development in Least Developed Countries. International Journal of Educational Development, 36, 44–50. https://doi.org/10.1016/j.ijedudev.2013.12.003 Beaujouan, E. & Berghammer, C. (2019). The Gap between Lifetime Fertility Intentions and Completed Fertility in Europe and the United States: A Cohort Approach. Population Research and Policy Review, 38, 507–535. https://doi.org/10.1007/s11113-019-09516-3. Beck, P. A. & Jennings, M. K. (1991). Family Traditions, Political Periods, and the Development of Partisan Orientations. The Journal of Politics, 53(3), 742–763. https://doi.org/10.2307/2131578 De Vauban, M. (1842). Oisivetés de M. de Vauban, Tome IV, mémoire « Moyen de rétablir nos colonies de l’Amérique et de les accroître en peu de temps ». J. Corréard: Paris. Global Burden of Disease Collaborative Network (2016). Global Burden of Disease Study 2016 Healthrelated Sustainable Development Goals (SDG) Indicators 1990-2030. Seattle, United States: Institute for Health Metrics and Evaluation (IHME), 2017. Goujon, A. (1997). Population and Education Prospects in the Western Mediterranean Region (Jordan, Lebanon, Syria, the West Bank and the Gaza Strip). IIASA Interim Report IR-97-046. Laxenburg, Austria: International Institute for Applied Systems Analysis. http://pure.iiasa.ac.at/5248 Goujon, A. & Lutz, W. (2004). Future Human Capital: Population projections by level of education. In: W. Lutz, W. C.Sanderson & S. Scherbov (Eds.), The end of world population growth in the 21st Century, pp. 121–157. London and Sterling (VA): Earthscan. Goujon, A. & McNay, K. (2003). Projecting the educational composition of the population of India: Selected state-level perspectives. Applied Population and Policy, 1 (1), 25–35. Goujon, A. & Wils, A. (1996). The Importance of Education in Future Population. Global Trends and Case Studies on Cape Verde, Sudan, and Tunisia. IIASA Working Papers WP-96-138. Laxenburg, Austria: Internatio‑ nal Institute for Applied Systems Analysis. http://pure.iiasa.ac.at/4889 Graunt, J. (1665). National and Political Observations mentioned in a following index and made upon the Bills of Mortality (third edition). Royal Society, London. Habitat (United Nations Centre for Human Settlements) (1996). An Urbanizing World: Global Report on Human Settlements, 1996. Oxford: Oxford University Press. Hanushek, E. A. & Wößmann, L. (2012). Do better schools lead to more growth? Cognitive skills, economic outcomes, and causation. Journal of Economic Growth, 17, 267–321. https://doi.org/10.1007/s10887-012-9081-x Harteveld, E., Van Der Brug, W., Dahlberg, S. & Kokkonen, A. (2015). The gender gap in populist radicalright voting: examining the demand side in Western and Eastern Europe. Patterns of Prejudice, 49:1-2, 103–134. https://doi.org/10.1080/0031322X.2015.1024399 Houle, R. & Corbeil, J.-P. (2017). Language Projections for Canada, 2011 to 2036. Ethnicity, Language and Immigration Thematic Series. Ottawa: Statistics Canada. https://www150.statcan.gc.ca/pub/89-657-x/89-657-x2017001-eng.pdf ILO – International Labour Organization (2017). Labour force estimates and projections: 1990-2030 (2017 edition), Methodological description. Geneva: International Labour Organization ILO – International Labour Organization (2018). Labour Force Estimates and Projections by age, July 2018 - Country data – Annual. www.ilo.org/ilostat-files/WEB_bulk_download/modelled_estimates/LFEP_AGE_country.dta [accessed on 23/10/2019] Ironmonger, D., Jennings, V. & Lloyd-Smith, B. (2000). Long Term Global Projections of Household Numbers and Size: Distributions for LINK Countries and Regions. Paper presented at the Project LINK mee‑ ting, Oslo, Norway on 3–6 October 2000. Jalovaara, M., Neyer, G., Andersson, G., Dahlberg, J., Dommermuth, L., Fallesen, P. & Lappegård, T. (2018). Education, Gender, and Cohort Fertility in the Nordic Countries. European Journal of Population, 35(3), 563–586. https://doi.org/10.1007/s10680-018-9492-2 104 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Jennings, M. K. & Niemi, R. G. (1981). Generations and Politics: A Panel Study of Young Adults and their Parents. Princeton, NJ: Princeton University Press. Jennings, M. K., Stoker, L. & Bowers, J. (2009). Politics across Generations: Family Transmission Reexami‑ ned. Journal of Politics, 71 (3), 782–799. https://doi.org/10.1017/s0022381609090719 Kantorová, K. (2013). National, Regional and Global Estimates and Projections of the Number of Women Aged 15 to 49 Who Are Married or in a Union, 1970-2030. Population Division Technical Paper No 2013/2. New York, NY: United Nations, Department of Economic and Social Affairs, Population Division. Kaufmann, E., Goujon, A. & Skirbekk, V. (2010). American political affiliation, 2003-43: A cohort compo‑ nent projection. Population Studies, 66(1), 53–67. https://doi.org/10.1080/00324728.2011.628047 KC, S., Barakat, B., Goujon, A., Skirbekk, V., Sanderson, W. C. & Lutz, W. (2010). Projection of popula‑ tions by level of educational attainment, age, and sex for 120 countries for 2005-2050. Demographic Research, 22 (15), 383–472. https://doi.org/10.4054/DemRes.2010.22.15 KC, S. & Lutz, W. (2014). Demographic scenarios by age, sex and education corresponding to the SSP narra‑ tives. Population and Environment, 35 (3), 243–260. https://doi.org/10.1007/s11111-014-0205-4 KC, S., Wurzer, M., Speringer, M. & Lutz, W. (2018). Future Population and Human Capital in Heteroge‑ neous India. Proceedings of the National Academy of Sciences: e201722359. https://doi.org/10.1073/pnas.1722359115 Keilman, N. W. (1985). Internal and external consistency in multidimensional population projection models. Environment and Planning 17(11), 1473–1498. https://doi.org/10.1068/a171473 Keyfitz, N. (1977). Introduction to the Mathematics of Population. Second Edition. New York: Addison-Wesley. Keyfitz, N. (1985). Applied Mathematical Demography, 2nd edition. New York, NY: Springer. Kirk, D. (1996). Demographic Transition Theory. Population Studies, 50(3), 361–387. https://doi.org/10.1080/0032472031000149536 Kreyenfeld, M. & Konietzka, D. (2017). Childlessness in Europe: Contexts, Causes, and Consequences. Springer. Leahy, E., Lyons, S. & Tol, R. S. J. (2010). An Estimate of the Number of Vegetarians in the World. ESRI Working Paper No 340. Dublin: Economic and Social Research Institute. Li, N. & Lee, R. D. (2005). Coherent mortality forecasts for a group of populations: An extension of the LeeCarter method. Demography, 42(3), 575–594. https://dx.doi.org/10.1353%2Fdem.2005.0021 Loichinger, E. & Marois, G. (2018). Education-specific labour force projections for EU-28 countries. In: W. Lutz, A. Goujon, S. KC, M. Stonawski & N. Stilianakis (Eds.), Demographic and Human Capital Scenarios for the 21st Century: 2018 assessment for 201 countries, pp. 44–51. Luxembourg: Publications Office of the European Union. http://dx.doi.org/10.2760/835878 Lutz, W. (1994). Population-Development-Environment: Understanding their Interactions in Mauritius. Heidelberg: Springer-Verlag. Lutz, W. (2013). Demographic Metabolism: A Predictive Theory of Socio-economic Change. IIASA Research Report (Reprint) RP-13-001. Laxenburg, Austria: International Institute for Applied Systems Analysis. http://pure.iiasa.ac.at/10756 Lutz, W. & Skirbekk, V. (2014). How education drives demography and knowledge inform projections. In: W. Lutz, W. P. Butz & S. KC (Eds.), World Population & Human Capital in the Twenty-first Century, pp. 14–38. UK: Oxford University Press. Lutz, W., Butz, W. P. & KC, S. (Eds.) (2014). World Population & Human Capital in the Twenty-first Century. UK: Oxford University Press. Lutz, W., Crespo Cuaresma, J., Sanderson, W. C. (2008). The demography of educational attainment and economic growth. Science, 319 (5866), 1047–1048. https://doi.org/10.1126/science.1151753 Lutz, W. & Goujon, A. (2001). The World’s Changing Human Capital Stock: Multi-State Population Projec‑ tions by Educational Attainment. Population and Development Review, 27(2), 323–339. https://www.jstor.org/stable/2695213 Lutz, W., Goujon, A., KC, S., Stonawski, M. & Stilianakis, N. (Eds.) (2018). Demographic and Human Capital Scenarios for the 21st Century: 2018 assessment for 201 countries. Luxembourg: Publications Office of the European Union. http://dx.doi.org/10.2760/835878 Lutz, W., Goujon, A. & Doblhammer-Reiter, G. (1998). Demographic Dimensions in Forecasting: Adding Education to Age and Sex. Population and Development Review, 24, Supplement: Frontiers of Population Fore‑ casting (1998), 42–58. https://doi.org/10.2307/2808050 Lutz, W. & KC, S. (2010). Dimensions of global population projections: what do we know about future popu‑ lation trends and structures? Philosophical Transactions of the Royal Society, 365, 2779–2791. https://doi.org/10.1098/rstb.2010.0133 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 105 Les dimensions dans les projections mondiales : un état des lieux Manuel, M., Desai, H., Samman, E. & Evans, M. (2018). Financing the end of extreme poverty Report. London: Overseas Development Institute. Margolis, R. (2016). The Changing Demography of Grandparenthood. Journal of Marriage and Family, 78, 610–622. https://doi.org/10.1111/jomf.12286 Marois, G., Sabourin, P. & Bélanger, A. (2019). How reducing differentials in education and labor force par‑ ticipation could lessen workforce decline in the EU-28. Demographic Research, 41(article 6), 125–160. https://dx.doi.org/10.4054/DemRes.2019.41.6 Moreira, P. A. & Padrão, P. D. (2004). Educational and economic determinants of food intake in Portuguese adults: a cross-sectional survey. BMC Public Health, 4(58). https://doi.org/10.1186/1471-2458-4-58. Murray, G. R. & Mulvaney, M. K. (2012). Parenting Styles, Socialization, and the Transmission of Political Ideo‑ logy and Partisanship. Politics & Policy, 40(6), 1106–1130. https://doi.org/10.1111/j.1747-1346.2012.00395.x Ng, S. H. & Deng, F. (2017). Language and Power. Oxford Research Encyclopedia, Communication (oxfordre. com/communication). Oxford: University Press USA, 2019. Notestein, F. (1945). Population: The long view. In: T. W. Schultz (Ed.), Food for the World, pp. 36-57. Chicago: University of Chicago Press. O’Neill, B. C., Balk, D., Brickman, M. & Ezra, M. (2001). A Guide to Global Population Projections. Demographic Research, 4(8), 203–288. https://doi.org/10.4054/DemRes.2001.4.8 Petty, W. (1984). On the Causes and Consequences of Urban Growth. Population and Development Review, 10(1), 127–133. https://doi.org/10.2307/1973169 Pew Research Center (2015). The Future of World Religions: Population Growth Projections, 2010-2050. Washington, DC: Pew Research Center. https://www.pewforum.org/2015/04/02/religious-projections-2010-2050/ Rockström, J., Steffen, W., Noone, K., Persson, Å., Chapin, F. S.,.. & Foley, J. (2009). Planetary boundaries: exploring the safe operating space for humanity. Ecology and Society 14(2), 32. http://www.ecologyandsociety.org/vol14/iss2/art32/ Rogers, A. [Ed] (1981). Advances in multiregional demography. IIASA Research Report 81-006. Laxenburg, Austria: International Institute for Applied Systems Analysis. http://pure.iiasa.ac.at/id/eprint/1556/1/RR-81-006.pdf Rogers, A. & Land, K. (1982). Multidimensional mathematical demography. London: Academic Press. Rooduijn, M. (2018). What unites the voter bases of populist parties? Comparing the electorates of 15 populist parties. European Political Science Review, 10(3): 351–368. https://doi.org/10.1017/S1755773917000145 Sabourin, P. & Bélanger, A. (2015). La dynamique des substitutions linguistiques au Canada. Population, 70(4) : 727–757. https://doi.org/10.3917/popu.1504.0771 Sandström, V., Valin, H., Krisztin, T., Havlík, P., Herrero, M. & Kastner, T. (2018). The role of trade in the greenhouse gas footprints of EU diets. Global Food Security, 19 (December 2018), 48–55. https://doi.org/10.1016/j.gfs.2018.08.007 Ortman, J. M. & Shin, H. B., (2011). Language Projections: 2010 to 2020. Presented at the Federal Forecas‑ ters Conference, Washington, DC, April 21, 2011. https://www.census.gov/content/dam/Census/library/working-papers/2011/demo/2011-Shin-Ortman.pdf Springmann, M., Godfray, H. C. J., Rayner, M. & Scarborough, P. (2016). Analysis and valuation of the health and climate change cobenefits of dietary change. Proceedings of the National Academy of Sciences, 113 (15), 4146–4151. https://doi.org/10.1073/pnas.1523119113 Springmann, M., Wiebe, K., Mason-D’Croz, D., Sulser, T. B., Rayner, M. & Scarborough, P. (2018). Health and nutritional aspects of sustainable diet strategies and their association with environmental impacts: a global modelling analysis with country-level detail. The Lancet, 2(10), PE451-E461. https://doi.org/10.1016/S2542-5196(18)30206-7 Striessnig, E. & Lutz, W. (2016a). Demographic Strengthening of European Identity. Population and Development Review, 42(2), 305–311. https://dx.doi.org/10.1111%2Fj.1728-4457.2016.00133.x Striessnig, E. & Lutz, W. (2016b). Demographic Metabolism at Work. IIASA Working Paper WP-16-001. Laxenburg, Austria: International Institute for Applied Systems Analysis. http://pure.iiasa.ac.at/id/eprint/12385/ UNDP (2014). Human Development Report 2014. Sustaining Human Progress: Reducing Vulnerabilities and Building Resilience. New York, NY: United Nations Development Programme. http://hdr.undp.org/sites/default/files/hdr14-report-en-1.pdf United Nations (2015). The World’s Women 2015: Trends and Statistics. New York: United Nations, Depart‑ ment of Economic and Social Affairs, Statistics Division. https://unstats.un.org/unsd/gender/worldswomen.html United Nations, Department of Economic and Social Affairs, Population Division (2019). World Population Prospects 2019, Online Edition. https://population.un.org/wpp/ United Nations, Department of Economic and Social Affairs, Population Division (2018). World Urbanization Prospects: The 2018 Revision, Online Edition. Whelpton, P. K. (1928). Population of the United States, 1925 to 1975. American Journal of Sociology, 34, 457–473. https://www.jstor.org/stable/2765600 WIC – Wittgenstein Centre for Demography and Global Human Capital (2018). Wittgenstein Centre Data Explorer Version 2.0 (Beta). http://www.wittgensteincentre.org/dataexplorer Wils, A. B. (1996). PDE - Cape Verde: A Systems Study of Population, Development, and Environment. IIASA Working Paper WP-96-009. Laxenburg, Austria: International Institute for Applied Systems Analysis. http://pure.iiasa.ac.at/id/eprint/5016/1/WP-96-009.pdf Wokes, F., Badenoch, J. & Sinclair, H. M. (1955). Human dietary deficiency of vitamin B12. American Journal of Clinical Nutrition, 3, 375–382. https://doi.org/10.1093/ajcn/3.5.375 Wunsch, G. J, & Termote, M. G. (1978). Introduction to Demographic Analysis Principles and Methods. New York, NY: Plenum. Yousif, H. M., Goujon, A. & Lutz, W. (1996). Future Population and Education Trends in the Countries of North Africa. IIASA Research Report RR‑96‑011. Laxenburg, Austria: International Institute for Applied Systems Analysis. http://pure.iiasa.ac.at/id/eprint/4766/1/RR‑96‑011.pdf ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 107 L’accumulation de liquidités par les sociétés non financières en France : l’effet des besoins de couverture et de la baisse des coûts de financement Cash Accumulation by Non‑Financial Corporations: New Evidence of the Role of Hedging Needs and Lower Financing Costs in France Marie‑Baïanne Khder* et Simon Ray** Résumé – Cet article examine les sources de l’accumulation de liquidités par les sociétés non financières en France. Nous explorons notamment des explications par les coûts, en proposant une mesure du coût de détention de liquidités spécifique à l’entreprise, qui dépend à la fois des coûts de financement à court terme des entreprises et de la part des actifs financiers liquides qui génèrent des intérêts. L’analyse suggère qu’au moins un quart de la hausse de la trésorerie à l’actif des entreprises entre 2011 et 2016 découle d’une tendance à la baisse du coût de déten‑ tion de ces liquidités. En intégrant l’impact supplémentaire des évolutions macroéconomiques, l’explication par les coûts rend compte de près de 40 % de la hausse de la trésorerie. On iden‑ tifie également que les entreprises conservent des liquidités afin de pouvoir exploiter de futures opportunités d’investissement, quelles que soient les conditions financières lorsqu’elles se pré‑ senteront. Nos résultats suggèrent que l’accumulation de liquidités par les entreprises dans le but de se prémunir contre le risque de manquer des opportunités d’investissement en période de ralentissement est un stabilisateur économique. Abstract – In this paper, we study the sources of the accumulation of cash by non‑financial corporations in France. We notably explore cost‑based explanations by proposing a firm‑specific measure of the cost of carrying cash that depends on both the firms’short‑term financing costs and the share of interest‑bearing assets among liquid financial assets. Our analysis suggests that at least one fourth of the rise in the cash ratios between 2011 and 2016 is explained by the decreasing trend in the cost of carrying cash. When factoring in the additional impact of macroeconomic developments, our costbased explanation accounts for up to 40% of the increase in cash holdings. We also identify a novel important determinant of the level of cash holdings: firms hold cash to seize future investment opportunities when they occur, irrespective of the financing conditions that will then prevail. Our results suggest that firms’ cash hoarding to avoid foregone investment opportunities in downturns is an active economic stabilizer. Codes JEL / JEL classification : G31 Mots‑clés : frictions financières, investissement, accumulation de liquidités, capacité d’endettement Keywords: financing frictions, investment, cash savings, debt capacity *DG Trésor et CREST, Insee lors de la rédaction de l’article (marie‑baianne.khder@dgtresor.gouv.fr) ; **DG Trésor lors de la rédaction de cet article Remerciements – Les auteurs remercient A. Duquerroy, D. Blanchet, S. Roux, O. Simon, G. Lalanne, T. Tressel, C. Rousset et deux rapporteurs anonymes pour leurs commentaires, ainsi que les participants au workshop ‘France: structural challenges and reform’ de l’ECB et au séminaire interne du DEE de l’Insee. Reçu en juillet 2019, accepté en février 2020. Traduit de la version originale anglaise Citation: Khder, M.‑B. & Ray, S. (2020). Cash Accumulation by Non‑Financial Corporations: New Evidence of the Role of Hedging Needs and Lower Financing Costs in France. Economie et Statistique / Economics and Statistics, 520‑521, 103–124. https://doi.org/10.24187/ecostat.2020.520d.2035 Rappel ‑ Les jugements et opinions exprimés par les auteurs n’engagent qu’eux mêmes, et non les institutions auxquelles ils appartiennent, ni a fortiori l’Insee. ARTICLES 108 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Les actifs financiers liquides conservés par les sociétés non financières (SNF) ont récemment augmenté de manière significative, faisant l’objet d’une attention particulière de la part des décideurs politiques, des banquiers et des chercheurs travaillant sur la finance d’entreprise. Cette tendance, bien qu’observée dans un grand nombre de pays, a été étudiée principalement aux États‑Unis. Dans le présent article, nous documentons et apportons de nou‑ veaux éléments d’interprétation sur la récente augmentation de la part des actifs financiers liquides, et notamment de la trésorerie, dans le bilan des entreprises. Nous nous basons pour cela sur des données au niveau des entreprises françaises et explorons les déterminants de cette accumulation de liquidités. L’augmentation de la trésorerie des entreprises françaises a été concomitante avec la hausse soutenue de leur dette, ce qui soulève des ques‑ tions sur le rôle que les réserves de liquidités pourraient jouer pour atténuer les risques liés à l’augmentation de l’endettement des entreprises (Khder & Rousset, 2017). L’accumulation de liquidités par les entreprises récemment constatée est donc intrinsèquement liée à la stabilité financière et doit également être mise en relation avec la transmission de la politique monétaire. Des réserves de liquidités impor‑ tantes sont en effet susceptibles d’engendrer une distorsion, au moins à court terme, entre le coût de financement de nouveaux projets et le niveau des taux d’intérêt, de nature à altérer la transmission de la politique monétaire. La trésorerie des entreprises a également des effets sur la structure du passif des banques commer‑ ciales. Ceci illustre certaines des conséquences macroéconomiques et macro‑financières de premier ordre des décisions prises par les entre‑ prises en matière de gestion de trésorerie. En dépit de l’importance de ces questions, il apparait que la littérature économique n’a pas épuisé la question des déterminants du niveau de liquidités détenu par les entreprises. Cet article vise à apporter une contribution à cette exploration. Plusieurs explications de cette hausse du niveau de trésorerie des entreprises reposent sur l’arbitrage entre les coûts et les avan‑ tages de la détention de liquidités en termes de maximisation de la valeur actionnariale. Les résultats empiriques corroborant cette thèse ont été obtenus principalement pour les États‑Unis. S’agissant des avantages, Bates et al. (2009), Boileau & Moyen (2016) et Bates et al. (2018) suggèrent que les flux de trésorerie d’exploitation des entreprises sont devenus plus volatils au fil du temps, ce qui a accru les besoins de couverture de ces entreprises et les a poussées à la prudence en constituant des réserves. La liquidité en est devenue d’autant plus précieuse. Opler et al. (1999), Bates et al. (2009), Falato et al. (2013), Brown & Petersen (2013), Begenau & Palazzo (2017) et Adler et al. (2019) constatent que la flambée des dépenses en recherche et développement (R&D) et l’augmentation des actifs incorporels réduisent la capacité des entreprises à accéder au financement externe parce que ces actifs sont moins aisément retenus comme collatéral, ce qui accroit l’intérêt de détenir des actifs financiers liquides. Azar et al. (2016) quant à eux affirment que le coût de détention de liquidités a diminué. Dans cet article, nous étudions l’évolution de la trésorerie des entreprises en France depuis 2010 et documentons des faits stylisés sur la dynamique du niveau des liquidités des SNF. Sur la base de données au niveau entreprise, nous explorons le rôle de nouvelles métriques reflétant les coûts et avantages de la détention de trésorerie. Nous examinons l’explication de la hausse de la trésorerie fondée sur les coûts avec une nouvelle mesure du coût d’opportunité de la détention de liquidités au niveau de l’entreprise, qui repose sur les écarts entre les coûts du financement externe des entreprises et les rendements qu’elles dégagent sur leurs actifs à court terme. Nous identifions l’impact de l’occurrence d’opportunités d’investissement sur l’accumulation de liquidités. Certaines entre‑ prises choisissent de conserver des liquidités afin de se prémunir contre le risque de manquer certaines opportunités d’investissement rentables en raison de flux de trésorerie insuf‑ fisants ou d’un accès limité au financement externe au moment où l’opportunité survient. Nous explorons cette explication à l’aide d’une méthodologie originale fondée sur l’hétérogénéité sectorielle locale de l’impact du cycle économique sur les faillites des entre‑ prises. Nous menons notre analyse, qui couvre la période 2010‑2016, sur un large ensemble de données sur les comptes financiers des entre‑ prises fusionnés avec des informations sur les liens en capital entre leurs unités légales, ce qui nous permet d’étudier les agrégats pertinents au niveau du groupe. Notre analyse montre que l’explication fondée sur les coûts est la principale raison qui a poussé à accumuler des liquidités sur la période étudiée, ce qui correspond aux conclusions d’Azar et al. (2016). Nous documentons une semi‑élasticité du ratio liquidités/actif par rapport au coût de détention d’environ 1.02. Selon nos données, le coût de détention moyen est passé de 3.9 % ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 109 L’accumulation de liquidités par les sociétés non financières en France en 20111 à 2.3 % en 2016. Nos estimations permettent d’expliquer jusqu’à 40 % de la dynamique à la hausse de la part de la trésorerie dans l’actif total (que nous appelons ci‑après « ratio liquidités/actif » ou « ratio de trésorerie ») en tenant compte simplement de la variation du coût de détention qui résulte de la baisse globale du coût de financement à court terme2 . En tenant compte des évolutions macroéconomiques, la baisse additionnelle du coût de détention de liquidités au niveau de l’entreprise explique un quart de la hausse de la trésorerie. Nous documentons également le rôle important du besoin de couverture du risque d’opportunités d’investissement manquées sur les niveaux de liquidités, suggérant que l’accumulation de liquidités par les entreprises, dans le but de ne pas passer à côté des opportunités d’investissement durant les périodes de ralentissement, est un stabilisateur économique important. La suite de l’article s’articule comme suit. La section 1 propose une revue de littérature, puis la section 2 présente les données et les principales statistiques descriptives relatives à la trésorerie des entreprises françaises. La section 3 expose notre stratégie empirique. La section 4 présente les résultats d’estimation et les commente, puis nous concluons. 1. Revue de littérature La trésorerie des entreprises résulte du rapport entre les coûts et les avantages de la détention de liquidités, ce que la littérature empirique existante confirme largement : pour maximiser la valeur actionnariale, le niveau de la trésorerie doit être tel que son bénéfice marginal soit égal au coût marginal. Examinons tout d’abord le coût de détention de liquidités. Cette détention est coûteuse parce que le coût marginal du financement externe excède habituellement le rendement des dépôts ou des investissements financiers à court terme. Certaines contributions récentes affirment que les explications par les coûts sont essentielles pour bien comprendre les tendances observées dans la trésorerie des entreprises. Azar et al. (2016) constatent que les variations du coût de détention, c’est‑à‑dire le coût de financement d’un dollar d’actifs liquides, net des avantages tirés des investissements financiers à court terme, expliquent la majeure partie de l’augmentation tendancielle de la trésorerie constatée aux États‑Unis depuis 1980. Ils montrent égale‑ ment la prépondérance de l’explication par les coûts de l’accumulation de liquidités dans les cinq plus grandes économies d’Europe, ainsi qu’au Japon, cette fois exclusivement sur la base de données de comptabilité nationale. Les inconvénients liés à la double imposition sont eux aussi une source de coûts associés à la trésorerie (Opler et al., 1999) : les revenus tirés des actifs liquides sont en effet imposés une première fois au niveau de l’entreprise avec l’impôt sur les sociétés, puis une deuxième fois, comme tous les autres actifs, lorsque les revenus sont distribués aux actionnaires, avec l’impôt sur le revenu. De plus, la déductibilité des inté‑ rêts peut être plafonnée, de sorte que tout euro de dette supplémentaire investi dans un actif financier liquide peut faire augmenter l’assiette de l’impôt sur les sociétés, même si les coûts de financement sont supérieurs aux bénéfices financiers. Toutefois, en raison de la stabilité du taux marginal d’imposition des sociétés en France durant la période étudiée, l’explication fondée sur la fiscalité y est peu susceptible de justifier la récente dynamique de la trésorerie des entreprises3 . S’agissant des avantages, les réserves de liquidités permettent aux entreprises de se protéger contre tout choc négatif sur les flux de trésorerie qui pourrait les obliger à liquider des actifs ou à trouver un financement externe dans des conditions défavorables (besoin de couverture du risque d’illiquidité et de faillite), et à financer leurs investissements quel que soit le coût du financement externe ou leur capacité à y accéder (besoin de couverture du risque de manquer des opportunités d’investissement)4 . D’ailleurs, comme Keynes (1936) l’avait déjà suggéré, le principal avantage d’un bilan liquide est de permettre aux entreprises de mener des projets au moment où l’opportunité survient et pas seulement lorsque le coût du financement externe est bas. La liquidité du bilan est donc d’autant plus importante qu’il existe des frictions 1. Les données sur le coût de détention ne sont disponibles que depuis 2011. 2. Parallèlement, si nous considérons l’estimation dans laquelle les obser‑ vations au niveau de l’entreprise sont pondérées par la taille de l’actif total (tableau 5, colonne 7) dans la régression puis comparons l’évolution de la moyenne pondérée du coût de détention et du ratio de trésorerie, nous constatons que l’explication fondée sur les coûts justifie 32 % de la hausse de la trésorerie entre 2010 et 2016. Une pondération par la taille de l’actif total – le dénominateur de notre ratio de trésorerie – permet d’extrapoler nos estimations microéconomiques afin de tenir compte de la trajectoire macroéconomique. 3. Aux États‑Unis, la fiscalité peut également affecter le niveau des liquidi‑ tés car le régime fiscal peut pousser les multinationales à ne pas rapatrier les liquidités de leurs sociétés affiliées (Foley et al., 2007), mais ce canal ne s’applique vraisemblablement pas en France. 4. Opler et al. (1999) appellent le premier canal le « motif du coût de transaction » et le deuxième le « motif de précaution » en référence à Keynes (1936). Toutefois, la signification attribuée à ces deux termes a évolué dans la littérature. Pour cette raison, nous choisissons ci‑après de parler du premier canal comme d’un « besoin de couverture du risque d’illi‑ quidité et de faillite » et du deuxième comme d’un « besoin de couverture du risque de manquer des opportunités d’investissement ». 110 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 en termes d’accès au financement externe. Si une entreprise prévoit des contraintes financières, son besoin de se protéger contre le risque de manquer des opportunités d’investissement augmente, de même que son niveau optimal de détention de liquidités. En lien avec ces deux motifs de couverture, la littérature souligne l’impact de la volatilité des flux de trésorerie sur l’accumulation de liquidités. Han & Qiu (2007) proposent une base théorique pour cette relation lorsque les entreprises sont soumises à des contraintes financières. Bates et al. (2009) ou encore Boileau & Moyen (2016) identifient la volatilité accrue des flux de trésorerie (Campbell et al., 2001, et Dichev & Tang, 2008, documentent ce fait stylisé) comme l’une des principales raisons de l’accumulation de liquidités par les entreprises américaines durant les années 2000. Pour analyser le besoin de couver‑ ture du risque de manquer des opportunités d’investissement, certaines études explorent l’impact de la corrélation entre les flux de trésorerie et les opportunités d’investissement sur l’accumulation de liquidités. Acharya et al. (2007) développent un modèle prédisant que les entreprises soumises à des contraintes financières et dont les besoins de couverture (du risque de manquer des opportunités) sont élevés tendent à constituer des réserves de liquidités à partir de leurs flux de trésorerie. En revanche, les entreprises soumises à des contraintes mais dont les besoins de couverture sont faibles consacrent systématiquement leurs flux de trésorerie à la réduction de la dette et non pas à la constitution de réserves. Leurs résultats empiriques corro‑ borent ces résultats théoriques. Pour identifier ce mécanisme, l’une des difficultés est de mesurer la corrélation entre les flux de trésorerie et les opportunités d’investissement : la corrélation apparente entre les flux de trésorerie d’une entreprise et ses dépenses d’investissement n’est pas pertinente car ces deux éléments sont liés de façon endogène lorsque l’entreprise est soumise à des contraintes financières. Acharya et al. (2007) envisagent deux mesures alterna‑ tives des opportunités d’investissement. Puisque les dépenses en R&D suivent les opportunités de croissance, ils commencent par examiner la corrélation entre les flux de trésorerie tirés des opérations courantes de l’entreprise et la médiane des dépenses en R&D au niveau de son industrie, afin d’illustrer la corrélation entre la disponibilité des fonds internes de cette entreprise et sa demande sans contrainte en matière d’investissement. Leur deuxième mesure repose sur la corrélation entre les flux de trésorerie au niveau de l’entreprise et la demande du marché au niveau de l’industrie, celle‑ci correspondant à la médiane du taux de croissance prévisionnel des chiffres d’affaires sur les trois prochaines années au sein de l’industrie dans laquelle l’entreprise évolue. Toutefois, ces mesures souffrent vraisemblable‑ ment des mêmes contraintes financières, qui empêchent de simplement utiliser les corréla‑ tions observées entre les flux de trésorerie et les investissements. Dans le présent article, nous évaluons un indicateur alternatif sectoriel local capturant l’impact de la corrélation entre les flux de trésorerie et les opportunités d’investissement sur l’accumulation de liquidités. D’autres facteurs ont été avancés dans la littéra‑ ture pour expliquer le niveau des liquidités des entreprises et la tendance récemment constatée en la matière, notamment les dépenses en R&D et la part du capital immatériel en cas de fric‑ tions financières5 (Opler et al., 1999 ; Bates et al., 2009 ; Begenau & Palazzo, 2017, qui documentent les effets de sélection découlant d’une réorientation vers des « sociétés de R&D » moins rentables dont les ratios de trésorerie sont initialement plus élevés lors de leur entrée en bourse, ainsi que Falato et al., 2013, ou Adler et al., 2019), ou encore les frictions relatives à l’information (Jensen, 1986) – même si Opler et al. (1999), Bates et al. (2009) et Kalcheva & Lins (2007) ne constatent aucune influence importante du problème du principal‑agent sur l’accumulation de liquidités. 2. Données et statistiques descriptives sur l’accumulation de liquidités par les entreprises françaises 2.1. Sources des données et méthode de consolidation Nous utilisons, pour la période 2010‑2016, les données administratives de l’Insee. Les analyses sont menées au niveau du groupe. En effet, bien qu’elles déposent des comptes séparés, les unités légales ne sont pas nécessairement autonomes dans leur processus de prise de décisions économiques, en raison des nombreux liens financiers et commerciaux qui les attachent 5. L’idée selon laquelle les entreprises soumises à des contraintes financières présentent des ratios de distribution beaucoup moins élevés suit Fazzari et al. (1988) et Fama & French (2002). Certaines approches alternatives visant à séparer les entreprises soumises à des contraintes financières de celles qui ne le sont pas reposent uniquement sur la taille des entreprises concernées, comme dans Erickson & Whited (2000). Fama & French (2002) et Frank & Goyal (2003) associent également la taille de l’entreprise à l’ampleur des frictions liées au financement externe. D’autres mesures des contraintes financières se fondent sur la notation de crédit, et notamment sur le fait qu’une entreprise dispose d’une telle notation ou non (par exemple Whited, 1992, et Lemmon & Zender, 2001). ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 111 L’accumulation de liquidités par les sociétés non financières en France à un groupe d’entreprises. Il est donc néces‑ saire de consolider les comptes des unités légales pour assurer la qualité de l’analyse. Au sein des groupes, comme montré par Picart (2003), les activités liées à la production et les activités de gestion financière sont susceptibles d’être attribuées à des unités légales distinctes appartenant au même groupe d’entreprises. Les flux de trésorerie sont souvent transférés d’unités légales centrées sur la production vers des unités légales constituées à des fins de gestion financière. En outre, certains actifs tels que l’immobilier sont souvent enregistrés auprès d’unités légales distinctes ayant un statut juridique spécifique (comme par exemple les sociétés civiles immobilières), qui sont plus susceptibles de supporter les dettes afférentes (Insee, 2019). L’existence de transferts de liquidités intra‑groupe, montrée par Locorotondo et al. (2014), confirme notre hypothèse, en ligne avec des recherches précédentes (Lamont, 1997), selon laquelle les décisions de poli‑ tique financière des entreprises, notamment de gestion de trésorerie, sont prises au niveau du groupe. Pourtant, le niveau de consolidation a son importance car il a un impact significatif sur les ratios financiers usuels (Deroyon, 2015) et, comme l’on pouvait s’y attendre, la varia‑ tion des ratios de trésorerie est beaucoup plus importante au niveau de l’unité légale qu’au niveau consolidé. Cette plus grande variabilité au niveau de l’entité légale reflète des erreurs de mesure dues à une redistribution intra‑groupe et non des décisions d’accumuler des liquidités que les groupes auraient prises pour des raisons économiques face à l’évolution des conditions de financement, et justifie la consolidation. Pour finir, la consolidation facilite la comparaison avec des études internationales reposant sur des données telles qu’ORBIS et Compustat (collecte des comptes consolidés publiés par les groupes dans leurs rapports annuels). Notre unité statistique étant donc le groupe, nous consolidons les états financiers à partir de notre base de données « brutes » au niveau des unités légales, le dispositif d’élaboration des statis‑ tiques annuelles d’entreprises (ESANE). Un groupe est un ensemble d’unités légales reliées par la détention de capital, qui sont identifiées à l’aide de la base de données LIFI sur les liaisons financières, un jeu de données administratives fournissant des informations sur la structure de propriété et la nationalité de la tête de groupe d’entreprises situées en France6 . À partir des comptes bruts des unités légales, nous créons une nouvelle observation statistique pour chaque groupe d’entreprises, le « pseudo‑groupe ». Pour chaque groupe, l’état financier du pseudo‑groupe correspondant est calculé à partir des unités légales centrales du groupe (c’est‑à‑dire celles détenues à plus de 50 % par la tête de groupe7 et donc contrôlées par le groupe)8 . Notre base de données définitive comprend, sauf mention contraire, trois types d’unités statistiques : (i) les pseudo‑groupes fondés sur les retraitements de consolidation des unités légales centrales, (ii) les unités légales liées à des groupes mais qui ne sont pas contrôlées par eux, que nous appelons ci‑après « unités légales sans lien strict avec un groupe » et (iii) les unités légales indépendantes, qui n’appartiennent à aucun groupe. Les unités légales centrales des groupes sont exclues de notre base de données définitive une fois consolidées (afin d’éviter tout double compte avec les pseudo‑groupes). Notre approche de la consolidation présente cependant quelques lacunes. Notamment, notre consolidation automatique est moins précise que la consolidation menée par l’Insee, qui se fonde sur des données supplémentaires et sur des échanges permanents avec les comptables des plus grands groupes (bien que cela ne concerne pas encore toutes les entreprises). La couverture de la base de données LIFI varie entre 2010 et 2016, introduisant de potentielles erreurs de mesure supplémentaires. Notre base de données sur les postes du bilan et les comptes de résultat couvre exclusivement le périmètre français des groupes, ce qui engendre des erreurs de mesure pour les groupes dont les activités sont large‑ ment internationales. Des informations plus détaillées sont fournies dans l’annexe 1. Les données financières brutes d’ESANE proviennent des informations sur le bilan collectées à partir des déclarations fiscales des entreprises, qui couvrent les unités légales françaises et, en règle générale, excluent les secteurs de la finance et de l’agriculture. Dans cette étude, nous nous concentrons sur les entreprises du secteur privé et limitons notre analyse au régime ordinaire, celui du bénéfice réel normal (BRN), car il couvre la quasi‑totalité des actifs financiers liquides. Tout au long de l’article, le 6. L’enquête est exhaustive pour l’ensemble des entreprises qui recensent plus de 500 employés, qui génèrent des revenus de plus de 60 mil‑ lions d’euros ou qui détiennent plus de 1.2 million d’euros d’actions. En revanche, afin de couvrir la totalité de l’univers des groupes français, l’enquête est complétée par des données provenant de Bureau van Dijk (jeu de données Diane‑Amadeus). 7. La tête de groupe est l’unité légale qui détient la majeure partie des autres unités légales sans pour autant être détenue majoritairement par celles‑ci. 8. Dans une version précédente de l’article, l’état financier d’un pseudo‑groupe était calculé à partir de toutes les unités légales constituant le groupe, au prorata des droits de propriété de la tête de groupe sur l’unité légale concernée. Les résultats de la régression principale restent très proches avec cette méthodologie de consolidation alternative. 112 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 secteur est défini au niveau du groupe pour les pseudo‑groupes (selon la base de données LIFI qui établit un secteur au niveau du groupe) et au niveau de l’unité légale pour les unités légales indépendantes ou sans lien strict avec un groupe. Pour finir, la région d’un pseudo‑groupe con‑ solidé est définie comme celle dans laquelle le plus grand nombre de ses unités légales centrales sont situées. 2.2. Examen de l’échantillon Dans cette section, nous présentons des éléments supplémentaires sur le niveau et la dynamique de la trésorerie et des actifs financiers liquides des entreprises. On observe tout d’abord une corrélation néga‑ tive, sur une période de plus longue durée, entre le ratio liquidités/actif moyen des SNF et le niveau des taux d’intérêt à court terme mesuré par les taux interbancaires à trois mois en vigueur en France9 (figure I). Dans les deux séries, nous constatons une rupture concomi‑ tante claire, dans des directions opposées, depuis la crise financière. L’analyse menée au niveau du groupe nous permet de suivre la dynamique de la distribution des ratios de liquidités et de celle des actifs finan‑ ciers liquides. Nous observons une tendance à la hausse pour la plupart des moments de ces distri‑ butions, ce qui suggère une réorientation globale de la distribution vers la droite (figure II). La croissance est néanmoins plus prononcée dans le troisième quartile, ce qui suggère une plus grande concentration de la trésorerie. Le ratio de trésorerie médian a augmenté de 3.6 points de pourcentage (pp ensuite) entre 2010 et 2016, atteignant 13.9 % en 2016. L’augmentation du ratio médian d’actifs financiers liquides est moins prononcée : seulement 1.5 pp durant la période étudiée (voir annexe 3, figure A3‑I)10. D’ailleurs, dans un contexte de taux d’intérêt très faibles (voire négatifs), le rendement des actifs financiers liquides autres que la trésorerie produisant des intérêts a diminué pour les SNF, tant pour les titres de créance à court terme que pour les fonds du marché monétaire. Dans ce contexte, les SNF ont substitué aux instru‑ ments de trésorerie tels que les fonds du marché monétaire du cash et des disponibilités mais ont globalement renforcé leurs positions en actifs financiers liquides. La tendance à la hausse s’observe également dans l’ensemble des secteurs (figure III). Les niveaux médians des ratios d’actifs financiers liquides sont néanmoins hétérogènes, et sont les plus élevés dans les secteurs tels que ceux des services professionnels, scientifiques et tech‑ niques, de l’information et de la communication et des autres activités de service. Ces secteurs ont également enregistré la plus forte hausse du ratio d’actifs financiers liquides, ce qui correspond aux résultats présentés dans la littérature reliant la trésorerie aux actifs incorporels et aux frictions financières (par exemple Opler et al., 1999 et Bates et al., 2009). 9. Les données du compte financier national relatives aux liquidités des sociétés non financières sont disponibles à partir de 1995. 10. Points de pourcentage en termes d’actif total. Figure I – Ratio liquidités/actif global et taux d’intérêt à court terme en % – Comptes nationaux -1 0 1 2 3 4 5 6 7 0 0.005 0.010 0.015 0.020 0.025 0.030 0.035 0.040 0.045 0.050 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015 2017 Ratio de liquidité agrégé des SNF françaises Taux interbancaires à 3 mois en France (échelle de gauche) (échelle de droite) Source: Insee, Banque de France, Réserve fédérale de Saint Louis. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 113 L’accumulation de liquidités par les sociétés non financières en France Les petites entreprises (de 10 à 249 salariés) et les micro‑entreprises (moins de 10 salariés) tendent à détenir plus de liquidités que les grandes en termes de pourcentage de leur actif total (figure IV). La taille est un déterminant majeur des positions en actifs financiers liquides. La position relative, sur l’ensemble des catégories de taille, et le niveau des ratios que nous docu‑ mentons sont tous les deux comparables à ceux que Bates et al. (2009) montrent aux États‑Unis. Dans la figure V, et uniquement là, nous avons modifié la composition de l’échantillon de notre base de données afin d’inclure les unités légales centrales entièrement contrôlées par un groupe mais sans retraitement de consolidation, les unités légales sans lien strict avec un groupe et les unités légales indépendantes. Les niveaux médians des ratios liquidités/actif de ces trois sous‑ensembles tendent à suivre des tendances à la hausse similaires. Les unités légales indépendantes montrent des ratios de trésorerie beaucoup plus élevés que ceux de leurs pairs au sein d’un même groupe. 3. Stratégie empirique 3.1. Coût de détention au niveau de l’entreprise Le coût de détention de liquidités et d’actifs financiers liquides correspond à la différence entre le coût d’un euro supplémentaire de financement externe et le rendement de cet euro supplémentaire lorsqu’il est détenu en tant qu’actif financier liquide, une partie étant déposée sur des comptes en espèces ou investie dans des actifs financiers à court terme produisant des intérêts. Le coût de détention de liquidités varie d’une entreprise à l’autre parce que, d’une part, le coût du financement externe dépend de la solvabilité de l’entreprise concernée et, d’autre part, le rendement des actifs financiers liquides peut varier en fonction de l’allocation entre les actifs qui portent intérêts et ceux qui ne portent pas intérêts. Azar et al. (2016) explorent exclusivement cette seconde source de variation afin d’établir un coût de détention spécifique à l’entreprise. S’agissant de la première source de variabilité du finance‑ ment externe entre les entreprises, ils supposent dans leur analyse empirique que le coût du financement externe est égal au taux des bons du Trésor à trois mois pour toutes les entreprises. Leur hypothèse, selon laquelle « dans la mesure où les liquidités sont un investissement sans Figure II – Moments des ratios liquidités/actif 0 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 2010 2011 2012 2013 2014 2015 2016 Moyenne Médiane p25 p75 Source: Insee (Esane/LIFI); calculs des auteurs. Figure III – Médiane des ratios liquidités/actif, par secteur 0 0.05 0.10 0.15 0.20 0.25 Construction Transports et entreposage Services de logement et alimentation Information et communication Services financiers et d’assurance Activités immobilières Autres services 2016 2010 Activités manufacturières, mines, carrières et autres activités industrielles Commerce de gros et de détail, réparation de véhicules motorisés Services professionnels, scientifiques, techniques, administratifs et de soutien Source: Insee (Esane/LIFI); calculs des auteurs. 114 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 risque, le coût du capital devrait correspondre au taux sans risque », peut être interrogée, car le coût du capital dépend de la santé financière globale de l’entreprise, et donc du risque de contrepartie perçu. Contrairement à Azar et al. (2016), nous exploitons donc les deux sources de variation du coût de détention d’une entreprise à l’autre. Nous introduisons pour cela un nouvelle variable proxy du coût du financement externe auquel une entreprise est susceptible d’être confrontée en fonction de l’évaluation de son risque de crédit. Cette variable repose sur les moments du coût de la dette à court terme publiés par la Banque de France11. Chaque année, nous évaluons la solvabilité des entreprises12 évaluée par le « Score Z’’ » d’Altman (Altman, 198313). Le Score Z’’ d’Altman prédit la probabilité de faillite, qui influence le coût de la dette addi‑ tionnelle (voir annexe 1). Comme le montre le « Rapport sur la stabilité financière dans le monde » publié par le FMI en 2019, les profes‑ sionnels utilisent ce score, entre autres, pour évaluer la qualité de crédit d’une entreprise. Nous relions les observations relatives aux entreprises et le coût annuel de la dette à court terme en associant le centile de la distribution de la solvabilité au centile du coût de la dette14. S’agissant de la seconde source de variation du coût de détention au niveau de l’entreprise, qui concerne le rendement des actifs financiers liquides, nous utilisons, dans la lignée d’Azar et al. (2016), la part des titres à court terme qui produisent des intérêts dans les actifs financiers liquides de l’entreprise durant la première année Figure IV – Médiane des ratios liquidités/actif par taille d’entreprise 0 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 2010 2011 2012 2013 2014 2015 2016 <10 10-249 250-4 999 >5 000 Note: <10 désigne les entreprises (indépendantes, sans lien strict avec les groupes ou après consolidation) comptant moins de 10 salariés en équivalent temps plein. Source: Insee (Esane/LIFI); calculs des auteurs. Figure V – Médiane des ratios liquidités/actif par taille et statut de l’entreprise A – Très petites entreprises (0-9 ETP) 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.16 2010 2011 2012 2013 2014 2015 2016 B – PME (10-249 ETP) 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 2010 2011 2012 2013 2014 2015 2016 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 C – Entreprises intermédiaires (250-4 999 ETP) 2010 2011 2012 2013 2014 2015 2016 Unités légales indépendantes Unités légales dans un groupe Unités légales sans lien strict avec un groupe Source: Insee (Esane/LIFI), calculs des auteurs. 11. Les moments de la distribution des taux d’intérêt annuels applicables à un nouveau contrat d’emprunt (c’est‑à‑dire centiles 5, 25, 50 et 75) sont cal‑ culés par la Banque de France à partir de sa base de données MContran. 12. Nous choisissons d’imputer un coût du financement externe à court terme fondé sur la solvabilité plutôt que d’utiliser le coût apparent de la dette (rapport entre les paiements d’intérêts et l’encours de dette), car (i) les entreprises soumises à des restrictions de crédit, par définition, ne déclarent pas de dette dans leur déclaration fiscale : cela introduirait dans notre échantillon un biais vers les entreprises qui ne sont pas soumises à des contraintes financières, (ii) le coût apparent de la dette indique le prix moyen d’une unité de dette, tandis que nous nous concentrons, en termes conceptuels, sur le coût marginal d’une unité de dette supplémentaire. 13. Le Score Z’’ d’Altman (1983) est une combinaison linéaire des ratios EBITDA / actif total, besoins en fonds de roulement / actif total, bénéfices non distribués accumulés / actif total et fonds propres au coût histo‑ rique / actif total. Ce score vise à évaluer la probabilité de faillite de socié‑ tés manufacturières et non manufacturières privées et cotées, mais n’a été estimé que sur un petit échantillon d’entreprises en 1983. Néanmoins, Altman et al. (2017), sur la base du jeu de données ORBIS rassemblant environ 2.7 millions d’observations relatives aux entreprises européennes, rejettent l’hypothèse d’une obsolescence des paramètres estimés par le Score Z’’ d’Altman (1983) en termes de performance de la classification. 14. Nous choisissons de ne pas tenir compte du secteur et classons les entreprises en fonction du centile de solvabilité dans lequel elles se trouvent. En effet, un secteur entier pourrait être caractérisé par une solva‑ bilité inférieure à la moyenne. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 115 L’accumulation de liquidités par les sociétés non financières en France d’observation (afin d’atténuer les problèmes d’endogénéité liés au coût de détention). Nous supposons que les titres à court terme génèrent un rendement annuel égal à la performance annuelle moyenne des fonds du marché moné‑ taire, telle que publiée par la Banque de France. Au niveau de l’entreprise, la formule du coût de détention (cost of carry, CoC) s’écrit alors comme suit : CoC C it = − ost of short t ermdebt s pcti, , t i hare p t t erfMMF 0 CoC C it = − ost of short t ermdebt s pcti, , t i hare p t t erfMMF 0 (1) Les moments de la distribution de notre coût de détention spécifique à l’entreprise sont indiqués dans le tableau 1. Le coût de la détention de liquidités a fortement diminué entre 2011 et 2016, sa valeur moyenne (médiane) ayant perdu 1.44 pp (respectivement 1.26 pp)15. Utiliser le Score Z’’ dans nos régressions pour identifier la variation crée des problèmes d’endogénéité. Par exemple, les investisseurs pourraient interpréter un niveau élevé de trésorerie comme un signe de santé financière, permettant à l’entreprise concernée d’obtenir de nouveaux prêts (causalité inverse). La hausse de l’endettement se traduirait, via le Score Z’’, par une baisse moins importante du coût du finance‑ ment externe, ce qui pourrait engendrer un biais à la baisse (en termes absolus) dans notre esti‑ mation de l’élasticité du ratio de trésorerie par rapport au coût de détention. Toutefois, nous décidons tout d’abord d’inclure les valeurs retardées du coût de détention afin d’atténuer ces éventuels problèmes d’endogénéité. Nous utilisons ensuite les centiles du Score Z’’, et non pas le Score Z’’ lui‑même. Cela nous permet sinon d’éliminer, du moins de limiter, l’endogénéité. En parallèle, en guise de test de robustesse, nous utilisons un coût de détention fondé exclusivement sur une mesure du coût de la dette à court terme au niveau de l’entreprise. Pour cet indicateur alternatif, nous relions les entreprises avec les moments de la distribution du coût de la dette à court terme fondé sur le score « SAFE » (Ferrando et al., 2015) et non pas sur le Score Z’’. Le score SAFE vise à mesurer l’ampleur des contraintes financières subies par les entreprises. Il correspond à la somme pondérée des ratios financiers de l’entreprise concernée16. Les poids sont estimés en fonction des contraintes financières, telles que présen‑ tées dans l’enquête sur l’accès au financement des entreprises de la BCE, pour un échantillon de micro‑entreprises, de PME et de grandes entreprises européennes entre 2010 et 2013. Notre mesure préférée reste le coût de déten‑ tion fondé sur le Score Z’’, notamment parce que les problèmes d’endogénéité peuvent être plus prononcés avec le score SAFE en raison de l’inclusion du ratio liquidités/actif dans sa définition. 3.2. Une nouvelle mesure de la corrélation entre les flux de trésorerie et les opportunités d’investissement Comme nous l’avons vu dans la revue de litté‑ rature, les contributions théoriques ont souligné que la corrélation entre les flux de trésorerie et les opportunités d’investissement explique l’accumulation de liquidités au sein des entre‑ prises, mettant également en lumière la difficulté à identifier cette corrélation de façon empirique en raison des problèmes d’endogénéité (Acharya et al., 2007). Des opportunités d’investissement peuvent survenir dans un état du monde où les flux de trésorerie entrants d’une entreprise sont faibles et où cette entreprise est donc plus suscep‑ tible de subir des contraintes financières. Dans ce cas, l’entreprise accorde une grande valeur à sa trésorerie car elle pourrait lui permettre d’exploiter une opportunité d’investissement à l’avenir, malgré le bas niveau de ses béné‑ fices ou son accès restreint au financement externe. Les entreprises qui subissent déjà des contraintes et qui ne sont pas rentables lorsque les conditions sont favorables ne peuvent pas accumuler de liquidités qui leur permettraient d’exploiter les opportunités d’investissement à l’avenir. En revanche, les entreprises dont la situation financière est suffisamment solide lorsque les conditions sont favorables mais qui anticipent des restrictions en matière d’accès au financement lorsque les conditions sont 15. La moyenne pondérée (par l’actif total) indique que le coût de déten‑ tion diminue de 1.1 pp. 16. À savoir le ratio dette / actif total, le ratio intérêts payés / bénéfices non distribués, le ratio de marge bénéficiaire, le ratio actifs corporels / actif total, le ratio trésorerie / actif total et le logarithme de l’actif total. Tableau 1 – Moments de la distribution du coût de détention Coût de détention Nombre d’observations Nombre de valeurs Moyenne Écart type q10 q25 Médiane q75 q90 2011 578 061 138 949 3.86 1.58 2.16 2.75 3.43 4.42 6.65 2016 639 551 162 883 2.42 1.30 0.92 1.51 2.17 2.80 4.71 Source : Insee (Esane/LIFI), Banque de France; calculs des auteurs. 116 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 défavorables peuvent accumuler des liquidités afin de se protéger contre le risque de manquer des opportunités d’investissement. L’un des facteurs clés de la corrélation négative entre les flux de trésorerie et les opportunités d’investissement est lié à la cession d’actifs ou d’entreprises à des prix bradés dans le cadre de ventes en catastrophe (fire sales). Comme Shleifer & Vishny (2011, p. 30) l’expliquent, il s’agit de la vente forcée d’un actif à un prix anormal. La vente est « forcée » car le vendeur ne peut pas régler ses créanciers sans vendre d’actifs. Le prix est « anormal » car les acqué‑ reurs potentiels ont souvent la même activité que le vendeur et sont concomitamment en situation financière compliquée au moment de la vente bradée, ce qui ne leur permet pas d’emprunter pour acquérir l’actif. Les actifs en question sont alors acquis par des investisseurs qui ne veulent acheter qu’à des valeurs faibles, notamment du fait de l’asymétrie d’information. La fréquence et l’ampleur de ces événements varient d’une industrie à l’autre et, dans une certaine mesure, lorsque le marché secondaire des actifs est, au moins en partie, local. L’intuition est la suivante : en période de ralentissement, les pressions subies par les entreprises pour vendre leurs actifs en urgence, au pire en cas de faillite, augmentent. La valeur relative de la détention de liquidités est la plus élevée dans les secteurs et les régions où ces pressions sont les plus importantes, car les entre‑ prises ayant réussi à accumuler suffisamment de liquidités peuvent alors tirer le plus grand parti des plus nombreuses ventes d’urgence d’actifs. Nous ne disposons pas de mesures directes appropriées des prix des actifs en vigueur sur le marché secondaire, qui nous permettraient de saisir les spécificités sectorielles et locales des ventes d’urgence. L’impact de la conjoncture économique sur la fréquence des défaillances d’entreprises au niveau secteur‑région est un indicateur pertinent de l’exposition à des opportu‑ nités d’investissement pour des prix bradés. Nous calculons ensuite les élasticités secteur‑région des faillites d’entreprises au cycle économique, en estimant l’équation suivante : Default g srt , , = + s r, , t s r t + + srt , , β α ∆ δ  ( ) 2 (2) où Defaultsrt , , est le nombre de faillites d’entreprises17 enregistré pour le secteur s, la région r et l’année t, normalisé par le nombre d’entreprises18 du secteur s dans la région r durant l’année t. βs r, saisit la sensibilité au niveau secteur‑région des défaillances au cycle économique, αs r, sont les effets fixes secteurrégion saisissant le niveau de défaillance sectoriel local moyen et δt sont les effets fixes année. Les estimations vont de 1994 à 200919. ∆gt désigne la croissance du PIB de l’année t. Les secteurs sont des secteurs larges en raison de la structure des données sur les défaillances fournies par la Banque de France (niveau 1 de la nomenclature d’activités française) et les secteurs de l’agriculture et des organisations à but non lucratif sont exclus. Les régions sont celles établies après la réforme territoriale de 2014. Les coefficients d’intérêt de l’équation (2) sont les βs r, , qui correspondent aux élasticités au cycle économique des faillites d’entreprises par secteur‑région. Les estimations associées varient fortement entre les secteurs et les régions. Les βs r, les plus négatifs sont identifiés dans des secteurs tels que ceux de la finance, de l’assurance, de la construction et des activités manufacturières. En revanche, les faillites d’entreprises semblent moins sensibles au cycle dans le secteur des services. Nos estimations révèlent également une certaine hétérogénéité entre les régions et au sein des secteurs. Le tableau 2 présente la valeur estimée des βs r, . Ces élasticités pourraient en partie saisir les besoins de couverture du risque d’illiquidité et de faillite, en plus des besoins de couver‑ ture du risque de manquer des opportunités d’investissement, que nous souhaitons isoler. Afin de purger le plus possible nos élasticités des besoins de couverture du risque d’illiquidité, nous introduisons des effets fixes secteur‑région, αs r, (sans interaction avec la croissance du PIB) dans l’équation (2)20. Ils sont plus suscep‑ tibles de saisir les besoins de couverture du risque d’illiquidité et de faillite que les βs r, . De fait, nous supposons que les entreprises évaluent la probabilité de leur propre faillite en fonction du nombre local sectoriel moyen de faillites d’entreprises (saisi par les αs r, ) et non pas en fonction de la sensibilité des faillites d’entreprises au cycle économique (saisie par les βs r, ). Nous fournissons également des tests de robustesse supplémentaires afin de séparer les deux canaux de la couverture contre le risque de l’illiquidité et la couverture du risque contre les 17. Au niveau local sectoriel, les faillites d’entreprises sont diffusées par la Banque de France en fonction des données FIBEN. La base de données FIBEN étant tronquée vers la gauche (chiffre d’affaires > 75 000 euros), il est possible que le nombre de faillites soit sous‑estimé. 18. Le nombre des entreprises œuvrant dans chaque secteur et chaque région entre 1994 et 2009 est calculé à l’aide des bases de données SIRENE de l’Insee. 19. Les élasticités βs r, sont estimées avant les régressions principales (qui visent à expliquer le niveau et la dynamique des ratios de trésorerie) afin d’atténuer les problèmes d’endogénéité. 20. Dans une version précédente de l’article, les alphas étaient inclus à nos régressions principales (avec le ratio de trésorerie en tant que variable dépendante), avec une influence positive et importante sur l’accumulation de liquidités, invariablement avec le motif « couverture du risque d’illiqui‑ dité ». À des fins de clarté, nous avons exclu cette variable de contrôle, sans aucune influence sur les autres coefficients d’estimation. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 117 L’accumulation de liquidités par les sociétés non financières en France opportunités d’investissement manquées. Pour cela, nous présentons une mesure alternative du besoin de couverture du risque de manquer des opportunités d’investissement qui repose sur le montant brut des faillites d’entreprises plutôt que sur les faillites normalisées, modifiant alors la variable dépendante de l’équation (2). En plus de ces deux variables d’intérêt, nous construisons les variables de contrôle identifiées dans la littérature comme des déterminants de la trésorerie et des actifs financiers liquides des entreprises. La liste des variables utilisées dans notre régression, ainsi que des détails sur leur construction, sont fournis au tableau 3. 4. Estimations et interprétations 4.1. Régression de panel avec effets fixes entreprise Nous estimons tout d’abord un modèle dans lequel les ratios de trésorerie au niveau de l’entreprise21 sont régressés sur des effets fixes entreprise, qui saisissent l’impact sur la trésorerie de caractéristiques des entreprises ne variant pas dans le temps, observées et non observées, et un ensemble de caractéristiques observables variant dans le temps. Si l’on inclut les effets fixes entreprise, on peut saisir l’impact de la variation du coût de détention au niveau de l’entreprise sur la variation du ratio de trésorerie. Les effets fixes année sont inclus en tant que test de robustesse afin de tenir compte de certains facteurs exogènes spécifiques à l’année, qui pourraient contribuer à la hausse moyenne du ratio de trésorerie constatée entre 2010 et 2016. Les principaux résultats sont présentés au tableau 4. Les mesures du coût de détention sont incluses avec un retard d’un an afin d’atténuer les problèmes d’endogénéité22. Les estimations du coefficient associé à notre coût de détention sont négatives et ont une forte significativité statistique pour toutes les spéci‑ fications. Selon l’estimation de notre première spécification (tableau 4 colonne 1), la variation de la valeur moyenne du coût de détention enregistrée entre 2011 et 2016 explique une variation de 1.5 pp du niveau du ratio de trésorerie, ce qui 21. Les régressions incluant le ratio actifs financiers liquides / actif total en tant que variable dépendante produisent des conclusions cohérentes. 22. Une hausse de la trésorerie en parallèle d’une baisse du coût du financement externe peut refléter les méthodes comptables plutôt que le phénomène économique en jeu. Lorsque le coût de détention de l’entre‑ prise diminue, celle‑ci est plus susceptible de lever de la dette financière, ce qui crée des ressources financières qui sont inscrites à l’actif du bilan, en tant que liquidités, avant d’être utilisées à des fins d’investissement. En revanche, si la trésorerie augmente à la suite d’une diminution du coût de détention, l’entreprise décide, pour des raisons économiques, de conserver ces ressources financières supplémentaires en tant que liquidités, sans les affecter à des investissements spécifiques à court terme. Pour finir, les pro‑ blèmes d’endogénéité ne sont que partiellement atténués : notre modèle ne permet pas de totalement identifier la causalité. Tableau 2 – Élasticités locales sectorielles βs,r des faillites d’entreprises par rapport au cycle économique Région/Secteur Activités manufacturières Construction Commerce de gros et de détail Transports et entreposage Services de loge‑ ment et alimentation Information et communication Services financiers et d'assurance Activités immobilières Services adminis‑ tratifs et de soutien Autres services Moy. Écart type Île-de-France -1.33 -1.17 -1.06 -0.83 -1.09 -1.06 -1.37 -1.09 -0.94 -0.71 -1.1 0.2 Centre-Val de Loire -0.98 -0.83 -0.78 -0.81 -0.88 -0.78 -2.04 -0.99 -0.68 -0.68 -0.9 0.4 Bourgogne Franche-Comté -0.86 -0.80 -0.80 -0.71 -0.82 -0.78 -1.42 -0.80 -0.74 -0.62 -0.8 0.2 Normandie -0.96 -1.05 -0.85 -0.81 -0.85 -0.61 -1.87 -1.02 -0.81 -0.67 -1.0 0.4 Hauts-de-France -1.09 -0.98 -0.79 -0.75 -0.98 -0.79 -1.72 -0.79 -0.75 -0.65 -0.9 0.3 Grand Est -0.93 -1.09 -0.85 -0.84 -0.80 -0.65 -2.13 -0.85 -0.93 -0.69 -1.0 0.4 Pays de la Loire -0.88 -0.83 -0.88 -0.76 -0.81 -0.78 -1.38 -0.75 -0.75 -0.68 -0.8 0.2 Bretagne -1.11 -0.73 -0.80 -0.75 -0.94 -0.99 -1.68 -0.79 -0.74 -0.71 -0.9 0.3 Nouvelle-Aquitaine -0.93 -0.84 -0.84 -0.74 -0.98 -0.89 -1.52 -0.83 -0.74 -0.66 -0.9 0.2 Occitanie -1.06 -0.96 -0.85 -0.68 -0.85 -0.96 -1.73 -0.84 -0.80 -0.67 -0.9 0.3 Auvergne Rhône-Alpes -0.93 -0.93 -0.82 -0.68 -0.86 -0.73 -1.58 -0.95 -0.77 -0.67 -0.9 0.3 Provence Alpes Côte d’Azur -1.12 -1.15 -0.89 -0.71 -0.98 -1.00 -1.95 -0.96 -0.88 -0.65 -1.0 0.4 Corse -1.08 -1.35 -0.77 -0.81 -1.56 n.d.. 0.45 -0.68 -0.24 -0.34 -0.7 0.6 Moyenne -1.0 -1.0 -0.8 -0.8 -1.0 -0.8 -1.5 -0.9 -0.8 -0.6 Écart type 0.1 0.2 0.1 0.1 0.2 0.1 0.6 0.1 0.2 0.1 Source: Insee (Esane/LIFI), Banque de France; calculs des auteurs. 118 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 représente plus de 40 % de la hausse moyenne des ratios de trésorerie durant la période. Cela signifie que l’explication par les coûts a une importance cruciale dans la récente accumu‑ lation de liquidités au sein des entreprises. L’impact significatif du coût de détention reste inchangé si nous incluons les effets fixes d’année (colonne 3) : plus de 25 % de la hausse moyenne des ratios de trésorerie s’expliquent par la baisse du coût de détention de liquidités. L’effet du coût de détention n’est identifié qu’avec les variations de la prime de risque au sein de l’entreprise. En d’autres termes, nos résultats ne sont pas identifiés par la tendance globale à la baisse du coût de financement découlant d’une politique monétaire expansionniste durant la période considérée, en raison des effets fixes d’année. Nous déduisons de la colonne 5 qu’une baisse de notre mesure alternative du coût du financement externe à court terme fait forte‑ ment augmenter l’accumulation de liquidités, même si cette mesure alternative exclut la part des actifs financiers liquides qui produisent des intérêts. L’impact négatif important du coût de détention sur les ratios de trésorerie reste valide et est numériquement comparable lorsque nous pondérons les observations au niveau de l’entreprise par l’actif total (colonne 7). Cela permet de tirer des conclusions sur « l’évolution macroéconomique » de la trésorerie : selon l’estimation présentée, la variation de la valeur moyenne du coût de détention enregistrée entre 2011 et 2016 explique ici aussi environ 40 % de l’augmentation moyenne des ratios de trésorerie sur la période. Nos résultats sont aussi robustes à une définition élargie du ratio de trésorerie, dans laquelle la trésorerie au numérateur inclut également les valeurs mobilières et les actions propres, en plus des comptes en espèces et des dépôts bancaires (colonnes 2, 4, 6 et 8). Pour finir, nos résultats restent inchangés – voire même sont renforcés – par le cylindrage de notre panel (voir annexe 2, tableau A2‑3, colonnes 3 et 4). Nous introduisons dans ces régressions un ensemble de variables variant dans le temps : une augmentation de la trésorerie va de pair avec une diminution du fonds de roulement net (de la trésorerie) et avec une augmentation du béné‑ fice annuel de l’entreprise. Nous incluons des variables de contrôle afin de saisir le niveau des frictions financières subies par les entreprises. Les résultats confirment largement l’existence Tableau 3 – Variables Variable Description Ratio liquidités/actif (définition restrictive) Liquidités (CF dans les déclarations fiscales) divisées par l’actif total consolidé au niveau du groupe Ratio liquidités/actif (définition élargie) Actifs financiers liquides (CF + CD dans les déclarations fiscales) divisés par l’actif total consolidé au niveau du groupe Coût de détention Coût du financement à court terme au niveau de l’entreprise (en fonction du Z-Score), moins revenus tirés des actifs financiers à court terme (définis à l’équation (1)) Coût de la dette à court terme Coût du financement à court terme au niveau de l’entreprise (en fonction du score SAFE) Z-Score Z-Score fondé sur les ratios fonds de roulement net / actif, EBIT/actif, bénéfices non distribués / actif et fonds propres / actif, tels que définis par Altman (1983) – les centiles sont construits à partir des distributions annuelles Dette financière / Actif Dette financière consolidée (DS + DT + DU dans les déclarations fiscales) divisée par l’actif total consolidé au niveau du groupe – la dette financière intra-groupe est entièrement exclue Ratio de distribution Dividende versé par la tête de groupe divisé par les résultats après impôts consolidés ln(Actif) Logarithme de l’actif total consolidé au niveau du groupe Bénéfice/Actif Bénéfices non distribués divisés par l’actif total consolidé au niveau du groupe Part des actifs corporels Actifs corporels divisés par l’actif total consolidé au niveau du groupe Écart type(EBIT) Écart type au niveau de l’entreprise dans le niveau des bénéfices avant intérêts et impôts sur la période d’observation, mesurant la volatilité des flux de trésorerie (divisé par 1 000 pour faciliter la présentation) Besoins de couverture Corrélation entre les opportunités d’investissement et les flux de trésorerie de l’entreprise, calcu‑ lée comme étant la corrélation entre la médiane des dépenses en recherche et développement au niveau de l’industrie et le bénéfice de l’entreprise βs r, Élasticités secteur-région des faillites d’entreprises par rapport au cycle économique, telles que défi‑ nies et estimées dans l’équation (2) et présentées dans le tableau 2 – plus les βs r, sont négatives et plus le secteur-région est sensible au cycle économique, c’est-à-dire plus le nombre de faillites d’entreprises est élevé en période de ralentissement économique Note : pour plus de détails, voir annexe 1 et des statistiques descriptives pour ces variable en annexe 3. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 119 L’accumulation de liquidités par les sociétés non financières en France d’un lien négatif entre la facilité d’accès au financement externe à la marge extensive (c’est‑à‑dire l’ampleur des contraintes finan‑ cières subies par l’entreprise) et l’accumulation de liquidités. Les entreprises dont les ratios de distribution de dividendes sont plus élevés (ce qui reflète souvent de faibles contraintes financières, comme susmentionné) présentent généralement des ratios de trésorerie moins élevés. Hadlock & Pierce (2010) montrent que plus la taille de l’actif total est grande, moins l’entreprise est susceptible de subir des contraintes financières. En conséquence, l’impact négatif de la taille de l’entreprise sur la trésorerie, qui est statistique‑ ment significatif, indique que les entreprises qui jouissent d’un meilleur accès au financement externe du fait de contraintes financières moins importantes détiennent moins de liquidités. La trésorerie réagit différemment à une hausse de l’endettement selon la taille de l’entreprise. La forte corrélation positive entre l’endettement et l’accumulation de liquidités, après pondéra‑ tion des observations au niveau de l’entreprise par la taille l’actif total, suggère qu’un meil‑ leur accès au financement externe a stimulé l’accumulation de liquidités (colonnes 7 et 8). Ce résultat confirme et élargit les conclusions de Khder & Rousset (2017). Parallèlement, l’analyse après consolidation montre que si la corrélation positive entre l’endettement et l’accumulation de liquidités est forte pour les grands pseudo‑groupes consolidés, des régres‑ sions semblables sur les unités légales qui les composent ne font pas ressortir une telle corrélation (voir l’annexe 2, tableau A2‑1, colonne 3). Une hausse du ratio retardé dette financière / actif total présente une corrélation positive avec une augmentation du ratio de trésorerie (tableau A2‑2, colonnes 1 et 2) pour les moyennes et les grandes entreprises, mais une corrélation négative forte pour les petites et les moyennes (id., colonne 3). Pour les grandes entreprises, l’impact du coût de détention sur l’accumulation de liquidités n’est plus fortement négatif. Cela pourrait s’expliquer par la nature du Score Z’’ au cœur du coût de détention, qui vise à prédire les faillites d’entreprises, et constitue donc un indicateur du coût du financement externe plus précis pour les petites entreprises que pour les grandes. Dans un dernier test de robustesse, nous esti‑ mons ce modèle pour des sous‑échantillons ne comprenant que des pseudo‑groupes, ou que des unités légales indépendantes, ou que Tableau 4 – Modèle avec effets fixes d’entreprise (variable dépendante : ratio liquidités/actif) (1) (2) (3) (4) (5) (6) (7) (8) définition (restreinte) (élargie) (restreinte) (élargie) (restreinte) (élargie) (restreinte) (élargie) Coût de détention (-1) -0.0102*** (0.0001) -0.0100*** (0.0001) -0.0059*** (0.0007) -0.0078*** (0.0010) -0.0092*** (0.0001) -0.0084*** (0.0001) Coût de la dette à court terme (-1) -0.0084*** (0.0001) -0.0076*** (0.0001) Fonds de roule‑ ment net / Actif -0.0676*** (0.0011) -0.0761*** (0.0011) -0.0664*** (0.0041) -0.0754*** (0.0036) -0.0767*** (0.0003) -0.0863*** (0.0003) -0.0559*** (0.0003) -0.0546*** (0.0004) Dette financière / Actif (-1) -0.0020*** (0.0007) -0.0023*** (0.0007) -0.0012 (0.0010) -0.0019 (0.0013) 0.0004 (0.0003) -0.0014*** (0.0003) 0.0098*** (0.0002) 0.0020*** (0.0002) Bénéfice/Actif 0.0412*** (0.0010) 0.0444*** (0.0010) 0.0408*** (0.0028) 0.0442*** (0.0034) 0.0343*** (0.0004) 0.0370*** (0.0004) 0.0038*** (0.0005) -0.0458*** (0.0007) ln(Actif) -0.0475*** (0.0008) -0.0416*** (0.0008) -0.0457*** (0.0013) -0.0407*** (0.0017) -0.0360*** (0.0003) -0.0316*** (0.0003) -0.0060*** (0.0001) -0.0020*** (0.0002) Ratio de distribution -0.0065*** (0.0003) -0.0042*** (0.0003) -0.0043*** (0.0012) -0.0032** (0.0015) -0.0065*** (0.0002) -0.0042*** (0.0002) -0.0023*** (0.0002) -0.0023*** (0.0002) Effets fixes Entreprise Entreprise Entreprise & année Entreprise & année Entreprise Entreprise Entreprise Entreprise Clustering Entreprise Entreprise Entreprise & année Entreprise & année Aucun Aucun Aucun Aucun Pondération Aucune Aucune Aucune Aucune Aucune Aucune Taille de l’actif Taille de l’actif Échantillon Complet Complet Complet Complet Complet Complet Complet Complet Observations 2 473 753 2 473 753 2 473 753 2 473 753 2 124 721 2 124 721 2 473 753 2 473 753 R2 0.82 0.86 0.82 0.86 0.83 0.87 0.88 0.91 R2 ajusté 0.74 0.80 0.74 0.80 0.75 0.81 0.83 0.86 Note : *p<0.1, **p<0.05, ***p<0.01. Les variables sont définies au tableau 3. Les écarts type robustes sont présentés entre parenthèses. Source : Insee (Esane/LIFI), Banque de France; calculs des auteurs. 120 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 des unités légales appartenant à des groupes d’entreprises (annexe 2, tableau A2‑2). La principale conclusion de cette analyse est que les comportements d’accumulation de liquidités sont affectés par les variations du coût de déten‑ tion au sein des unités légales indépendantes et des pseudo‑groupes, plus ou moins pour toutes les tailles d’entreprises. Parmi les très petites et petites entreprises, l’impact de la baisse du coût de détention semble être plus marqué pour les unités légales indépendantes que pour les unités légales appartenant à un groupe d’entreprises. Ce premier ensemble de régressions présenté au tableau 4 souligne le rôle clé des explications par les coûts pour rendre compte des tendances récemment observées au niveau macroéconomique. La sous‑section suivante explore ces dimensions de façon plus approfondie. 4.2. Régression de panel avec effets fixes sectoriels En raison des effets fixes d’entreprise, nous ne pouvons pas, dans le premier ensemble de régressions, estimer les coefficients des élasticités des faillites sectorielles‑locales au cycle économique αs r, , car ils ne varient pas dans le temps. Pour cette raison, nous effec‑ tuons des régressions similaires en remplaçant les effets fixes d’entreprise par des effets fixes de secteur et région23. Ces derniers sont néces‑ saires pour tenir compte de caractéristiques sectorielles et régionales ne variant pas dans le temps, qui pourraient autrement engen‑ drer un biais dans l’estimation des élasticités secteur‑région. Cette nouvelle spécification permet également d’estimer l’effet d’autres caractéristiques au niveau de l’entreprise qui ne varient pas dans le temps et qui n’avaient pas pu être identifiées avec les régressions précé‑ dentes, présentées dans la littérature comme des déterminants importants du niveau de la trésorerie, comme la volatilité des bénéfices (Bates et al., 2009). Les résultats de l’estimation avec les effets fixes secteur‑année24 correspondent à ceux obtenus lorsque nous n’exploitons que les variations au sein de l’entreprise (tableau 5). Nous constatons un effet négatif statistiquement significatif des différentes mesures du coût de détention sur l’accumulation de liquidités. S’agissant des caractéristiques ne variant pas dans le temps introduites dans ces régressions, le coefficient estimé est statistiquement significatif avec les signes attendus. Nous constatons que les entre‑ prises caractérisées par un EBIT plus volatil durant la période observée détiennent de plus gros volumes de liquidités. Les coefficients associés à notre nouvelle mesure βs r, sont négatifs et statistiquement significatifs. Ce résultat suggère que plus les faillites d’entreprises sont sensibles au cycle économique (ce qui signifie des βs r, plus négatives) ou, en d’autres termes plus il y a d’opportunités d’investissement à des prix bradés, et plus les entreprises accumulent de liquidités. Les effets estimés de cette variable sont notables. Avec ce coefficient négatif associé aux βs r, (tableau 5 colonne 1), les élasticités βs r, en Île‑de‑France expliquent 5 pp de l’écart entre les ratios de trésorerie des sociétés du secteur des services aux entreprises et des entreprises manufacturières. Incidemment, l’effet reste inchangé si nous incluons les effets fixes année (colonne 3). Dans le test de robustesse (colonne 2), notre mesure alternative des opportunités d’investissement βs r, présente, comme l’on pouvait s’y attendre, une corrélation négative forte avec le ratio de trésorerie et a un impact final25 sur le ratio de trésorerie du même ordre de grandeur que dans la spécification de base (colonne 1). Pour un autre test de robustesse, nous effectuons une régression dans laquelle les observations au niveau de l’entreprise sont pondérées par la taille de l’actif total (colonne 4) : le coefficient des élasticités βs r, est négatif et significatif, et dix fois plus élevé que celui obtenu dans la régression de base. Cela montre que les élasticités sectorielles régionales des faillites d’entreprises sont plus fortes pour les grandes entreprises et sont donc susceptibles de jouer un rôle au niveau macroéconomique. Cela suggère également que les grandes entreprises sont plus susceptibles de se protéger contre le risque de manquer des opportunités d’investissement en accumulant des liquidités. À ce stade, un biais de sélection ne peut pas être exclu dans notre cadre empirique. Notre conclusion selon laquelle les entreprises tendent à accumuler plus de liquidités dans les secteurs et les régions où les défaillances d’entreprises 23. Les secteurs sont définis selon la Nomenclature d’activités française à 5 chiffres et les régions sont définies selon la réforme territoriale de 2014. 24. Si nous incluons les effets fixes secteur-année au lieu des effets fixes secteur, afin de saisir les chocs variant dans le temps au niveau du secteur (tels que les chocs de demande sectoriels), nos résultats restent également inchangés. 25. L’estimation est en apparence beaucoup moins élevée que dans la mesure de référence des opportunités d’investissement de la colonne 1, mais cette mesure alternative des opportunités d’investissement n’est pas normalisée par le nombre d’entreprises du secteur-région et est donc supé‑ rieure en termes absolus. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 121 L’accumulation de liquidités par les sociétés non financières en France sont très sensibles au cycle économique pourrait découler d’un biais de l’échantillon en faveur des entreprises qui ont survécu : celles connais‑ sant les plus grandes difficultés financières et détenant moins de trésorerie ont peut‑être fait faillite, sortant ainsi de notre échantillon. Pour corriger ce biais de sélection il faudrait un instru‑ ment valide pour la probabilité de retrait de l’échantillon qui n’influence pas le volume des liquidités et des dettes (Heckman, 1979). Or, nous n’en avons pas. Toutefois, si nous estimons notre modèle avec un échantillon cylindré ou quasi cylindré26 (annexe 2, tableau A2‑3, colonnes 1 et 2), nous constatons que l’effet des élasticités régionales sectorielles sur l’accumulation de liquidités reste inchangé, voire est renforcé, si l’on ne tient compte que des entreprises qui ont survécu : le biais de sélection semble ne pas avoir d’importance de premier ordre. 4.3. Séparer les différents mécanismes saisis par les élasticités locales sectorielles βs r, Nous passons maintenant avec le tableau 6 à l’interprétation de l’effet important de nos élas‑ ticités sectorielles locales βs r, des défaillances d’entreprises par rapport au cycle économique sur l’accumulation de liquidités. L’effet des βs r, mis en évidence jusqu’à présent pourrait en effet relever de deux canaux différents : ‑ celui des besoins de couverture du risque de manquer des opportunités d’investissement. Certaines entreprises pouvant se permettre d’accumuler des liquidités lorsque les conditions sont favorables le font parce qu’elles prévoient de subir des contraintes financières ou une baisse de leurs bénéfices lorsque les conditions seront défavorables et souhaitent exploiter les opportunités d’investissement qui pourraient se matérialiser dans leur secteur ou leur région en cas de ventes d’urgence d’actifs en période de ralentissement ; ‑ celui des besoins de couverture du risque d’illiquidité et de faillite. Certaines entreprises peuvent accumuler des liquidités afin d’éviter les défaillances et les faillites quelles que soient les opportunités d’investissement. 26. Le panel quasi cylindré inclut les entreprises présentes dans la base de données lors de toutes les années, sauf au plus une. Tableau 5 – Modèle avec effets fixes sectoriels (variable dépendante : ratio liquidités (définition restreinte)/actif) (1) (2) (3) (4) Coût de détention (-1) -0.0102*** (0.0001) -0.0102*** (0.0001) -0.0083*** (0.0001) -0.0058*** (0.0001) Fonds de roulement net / Actif -0.0418*** (0.0002) -0.0418*** (0.0002) -0.0399*** (0.0002) -0.0975*** (0.0003) Dette financière / Actif (-1) -0.0093*** (0.0002) -0.0093*** (0.0002) -0.0091*** (0.0002) 0.0058*** (0.0001) Écart-type(EBIT) 0.0253*** (0.0007) 0.0253*** (0.0007) 0.0251*** (0.0007) 0.0001*** (0.00002) Bénéfice/Actif 0.0298*** (0.0004) 0.0298*** (0.0004) 0.0306*** (0.0004) 0.0935*** (0.0008) ln(Actif) -0.0323*** (0.0001) -0.0323*** (0.0001) -0.0318*** (0.0001) -0.0087*** (0.0001) β_{s,r} (niveau de référence) -0.0051** (0.0022) -0.0052** (0.0022) -0.0407*** (0.0015) β_{s,r} (alternative) -0.00004*** (0.00001) Ratio de distribution 0.0323*** (0.0003) 0.0323*** (0.0003) 0.0340*** (0.0003) 0.0262*** (0.0003) Actifs corporels / Actif -0.2605*** (0.0009) -0.2605*** (0.0009) -0.2605*** (0.0009) -0.2050*** (0.0006) Effets fixes Secteur & région Secteur & région Secteur & région & année Secteur & région Clustering Aucun Aucun Aucun Aucun Poids Aucun Aucun Aucun Taille de l’actif Échantillon Complet Complet Complet Complet Observations 2 151 394 2 151 573 2 151 394 2 151 394 R2 0.15 0.15 0.15 0.29 R2 ajusté 0.15 0.15 0.15 0.29 Note : *p<0.1, **p<0.05, ***p<0.01. Les variables sont définies au tableau 3. Source : Insee (Esane/LIFI), Banque de France; calculs des auteurs. 122 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Nous pensons que les élasticités régionales sectorielles βs r, capturent principalement les besoins de couverture du risque de manquer des opportunités d’investissement. Pour séparer les contributions de ces deux canaux, nous obser‑ vons tout d’abord qu’ils ont des conséquences différentes selon la spécificité des actifs d’un secteur donné. D’un côté, si les besoins de couverture du risque de manquer des opportu‑ nités d’investissement dominent, plus les actifs sont spécifiques au secteur et plus une entreprise détenant une trésorerie importante peut profiter des actifs vendus en urgence par ses concur‑ rents dans le même secteur et la même région. En conséquence, les entreprises accordent plus d’importance à la trésorerie dans les secteurs où la spécificité des actifs est marquée. De l’autre côté, si les besoins de couverture du risque d’illiquidité dominent, l’impact de nos élasticités sectorielles locales ne devrait dépendre que de façon margi‑ nale de la spécificité des actifs. La facilité avec laquelle les actifs utilisés dans un secteur donné peuvent être déployés dans d’autres secteurs constitue selon nous un bon indicateur de la spécificité des actifs de ce secteur ; en cela, nous suivons Kim & Kung (2016). Ici, nous séparons, à l’aide d’une indicatrice « forte spécificité des actifs », les secteurs dans lesquels les actifs sont les moins faciles à déployer dans d’autres secteurs, selon Kim & Kung (2016)27. L’effet de nos élasticités βs r, sur la trésorerie apparaît beaucoup plus important (environ dix fois plus) dans les secteurs où les actifs sont les plus spéci‑ fiques (tableau 6 colonne 1) : une forte élasticité sectorielle locale des faillites d’entreprises au cycle économique déclenche une accumula‑ tion de liquidités presque exclusivement dans les secteurs où les actifs sont spécifiques. Cela suggère que les βs r, capturent principalement les besoins de couverture du risque de manquer des opportunités d’investissement et non ceux liés au risque d’illiquidité. Dans le tableau 6, les colonnes 2 et 3 contrastent l’effet des besoins de couverture du risque de manquer des opportunités d’investissement et l’effet de l’option réelle (Pindyck, 1991 et Bloom, 2009), selon laquelle lorsqu’un inves‑ tissement est irréversible, l’entreprise le remet à plus tard si les conditions sont incertaines, et donne plus d’importance aux liquidités en raison de la possibilité qu’elles représentent pour inve‑ stir plus tard. Dans la colonne 2, nous montrons que l’incertitude liée à la politique, mesurée par l’indice Economic Policy Uncertainty Index (Baker et al., 2016), a un effet positif important sur la trésorerie, dans la lignée de la théorie de l’option réelle28. L’effet de nos élasticités βs r, sur les liquidités reste cependant inchangé (tant en significativité qu’en ordre de grandeur, cf. tableau 5, colonne 1) si l’on inclut l’indice d’incertitude liée à la politique économique. De plus, nous constatons qu’une plus forte incertitude liée à la politique économique n’engendre pas nécessairement une plus forte accumulation de liquidités dans les secteurs où la spécificité des actifs est la plus importante (le terme d’interaction est même fortement négatif, tableau 6 colonne 3)29. La conclusion est la suiv‑ ante : l’effet plus important de nos élasticités βs r, sur l’accumulation de liquidités dans les secteurs où la spécificité des actifs est importante ne peut vraisemblablement pas être attribué au canal de l’option réelle, et en conséquence nos élasticités βs r, mesurent principalement les besoins de couverture du risque de manquer des opportu‑ nités d’investissement et non l’option réelle. Dans la colonne 6, nous introduisons une interaction entre nos élasticités et le quintile de la taille. Rappelons que la taille (de l’actif total) est souvent considérée comme représentant les contraintes financières (ainsi que l’âge – voir Hadlock & Pierce, 2010) : plus l’entreprise est grande et plus il lui est facile d’accéder au financement externe. Nous constatons que l’effet des élasticités βs r, sur l’accumulation de liquidités est plus important dans les quatrième et cinquième quintiles de taille de l’actif, soit les 40 % d’entreprises les plus grandes. Pour ces grandes entreprises, le coefficient négatif et significatif associé aux élasticités reflète princi‑ palement les besoins de couverture du risque de manquer des opportunités d’investissement. En revanche, dans les quintiles de taille inférieurs, les entreprises sont petites et celles des secteurs et des régions où les faillites sont extrêmement sensibles au cycle économique (c’est‑à‑dire lorsque les élasticités βs r, sont plus négatives) sont généralement plus fragiles (parce qu’elles n’ont pas le temps de constituer des réserves de liquidités et parce que les conditions commerci‑ ales dans lesquelles elles évoluent sont volatiles). Le principal objectif de ces entreprises de plus petite taille est de se protéger contre le risque d’illiquidité et de faillite. 27. L’indicatrice « forte spécificité des actifs » passe à 1 pour les quinze secteurs (parmi 53) où les actifs sont les moins faciles à déployer dans d’autres secteurs, selon l’indice de Kim & Kung. Voir Kim & Kung (2016), tableau 1 : [Usines textiles, fabricants de semi‑conducteurs et de com‑ posant électroniques, fabricants de produits en plastique et en caout‑ chouc, etc.]. 28. Cet effet est le plus prononcé dans les secteurs où les investissements sont les plus irréversibles. 29. Cela semble contraire à la théorie de l’option réelle, qui suggère que les entreprises tendent à accumuler plus de liquidités dans les secteurs où les investissements sont extrêmement spécifiques (et sont donc plus susceptibles d’être irréversibles) et en période d’incertitude accrue. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 123 L’accumulation de liquidités par les sociétés non financières en France Tableau 6 – Modèle avec effets fixes sectoriels – analyse complémentaire (variable dépendante : ratio liquidités (définition restreinte)/actif) (1) (2) (3) (4) (5) Coût de détention (-1) -0.0083*** -0.0100*** -0.0100*** -0.0087*** -0.0065*** (0.0001) (0.0001) (0.0001) (0.0001) (0.0001) Fonds de roulement net / Actif -0.0399*** -0.0415*** -0.0415*** -0.0402*** -0.0389*** (0.0002) (0.0002) (0.0002) (0.0002) (0.0003) Dette financière / Actif (-1) -0.0091*** -0.0093*** -0.0093*** -0.0093*** -0.0084*** (0.0002) (0.0002) (0.0002) (0.0002) (0.0002) Écart-type(EBIT) 0.0251*** 0.0253*** 0.0253*** 0.0235*** 0.0232*** (0.0007) (0.0007) (0.0007) (0.0007) (0.0008) Bénéfice/Actif 0.0306*** 0.0300*** 0.0300*** 0.0371*** 0.0275*** (0.0004) (0.0004) (0.0004) (0.0004) (0.0004) ln(Actif) -0.0318*** -0.0322*** -0.0322*** -0.0447*** -0.0308*** (0.0001) (0.0001) (0.0001) (0.0003) (0.0001) β_{s,r} -0.0027 -0.0052** -0.0027 (0.0023) (0.0022) (0.0023) Incertitude liée à la politique 0.0001*** 0.0001*** (0.000004) (0.000004) Ratio de distribution 0.0340*** 0.0321*** 0.0321*** 0.0344*** 0.0340*** (0.0003) (0.0003) (0.0003) (0.0003) (0.0003) Actifs corporels / Actif -0.2606*** -0.2607*** -0.2607*** -0.2607*** -0.2639*** (0.0009) (0.0009) (0.0009) (0.0009) (0.0010) β_{s,r}*forte spécificité des actifs -0.0477*** -0.0470*** (0.0077) (0.0077) Incertitude liée à la politique*forte spécificité des actifs -0.00004** (0.00002) β_{s,r}*quintile de taille 1 0.0160*** (0.0023) β_{s,r}*quintile de taille 2 0.0196*** (0.0023) β_{s,r}*quintile de taille 3 0.0043* (0.0022) β_{s,r}*quintile de taille 4 -0.0197*** (0.0023) β_{s,r}*quintile de taille 5 -0.0556*** (0.0023) Besoin de couverture*quintile de taille 1 0.0012** (0.0006) Besoin de couverture*quintile de taille 2 -0.0071*** (0.0006) Besoin de couverture*quintile de taille 3 -0.0099*** (0.0006) Besoin de couverture*quintile de taille 4 -0.0142*** (0.0006) Besoin de couverture*quintile de taille 5 -0.0224*** (0.0007) Effets fixes Secteur & région & année Secteur & région Secteur & région Secteur & région & année Secteur & région & année Clustering Aucun Aucun Aucun Aucun Aucun Poids Aucun Aucun Aucun Aucun Aucun Échantillon Complet Complet Complet Complet Complet Observations 2 151 394 2 151 394 2 151 394 2 151 394 1 814 221 R2 0.15 0.15 0.15 0.16 0.15 R2 ajusté 0.15 0.15 0.15 0.16 0.15 Note : *p<0.1, **p<0.05, ***p<0.01. Les variables sont définies au tableau 3. Source : Insee (Esane/LIFI), Banque de France; calculs des auteurs. 124 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Pour finir, nous incluons dans la régression la mesure des besoins de couverture du risque de manquer des opportunités d’investissement d’Acharya et al. (2007). Cet indicateur alternatif correspond à la corrélation entre les opportunités d’investissement et les flux de trésorerie des entreprises. Il est calculé comme la corrélation entre la médiane des dépenses en R&D au niveau du secteur30 et les bénéfices des entreprises (cf. revue de littérature). Premièrement, dans la lignée des conclusions d’Acharya et al. (2007), nous documentons le fait que plus la corrélation entre les opportunités d’investissement et les flux de trésorerie est faible (l’indicateur des besoins de couverture est donc négatif) et plus le ratio de trésorerie est élevé (tableau 6 colonne 5). Cette hausse du ratio de trésorerie est statistiquement significative dans la quasi‑totalité des catégories de taille de l’actif. Deuxièmement, l’impact des besoins de couverture sur l’accumulation de liquidités augmente de façon monotone avec la taille des actifs : les entreprises de plus grande taille (qui subissent habituellement moins de contraintes financières) et dont les besoins de couverture sont plus élevés (c’est‑à‑dire dont l’indicateur du besoin de couverture est plus négatif) tendent à accumuler plus de liquidités. Ce résultat, qui s’écarte légèrement de l’affirmation d’Acharya et al. selon laquelle seules les entre‑ prises dont les contraintes financières sont plus importantes et dont les besoins de couverture sont plus élevés choisissent d’accumuler des liquidités plutôt que de réduire leur dette, suggère que les entreprises qui peuvent se permettre de conserver des liquidités (si elles subissent moins de contraintes financières, par exemple) le font si elles estiment que des opportunités d’investissement pourraient survenir lorsque leurs flux de trésorerie seront amoindris. Cela suggère également que, pour bien comprendre les comportements en matière d’accumulation de liquidités, il est essentiel de tenir compte du besoin de couverture du risque de manquer des opportunités d’investissement. * * * Dans le présent article, nous explorons les sources des liquidités accumulées par les sociétés non financières et les déterminants de la forte hausse des ratios de liquidités et d’actifs finan‑ ciers liquides récemment observée en France. Pour documenter le fait que la baisse du coût de détention des liquidités explique largement les tendances récentes de hausse des liquidités, nous exploitons les variations du coût de détention de liquidités au niveau de l’entreprise, nées du coût hétérogène du financement à court terme. Nous apportons également des résultats robustes montrant que les contraintes financières et les besoins de couverture sont des déterminants clés de l’accumulation de liquidités au niveau de l’entreprise. À partir d’une mesure originale des corrélations entre les flux de trésorerie et les opportunités d’investissement, qui sont approchées par les élasticités sectorielles locales des défaillances d’entreprises par rapport au cycle économique, nous documentons le fait que les besoins de couverture du risque de manquer des opportunités d’investissement expliquent l’écart prononcé constaté entre les niveaux de liquidités dans les différentes régions et les différents secteurs. Ces résultats ont des implications importantes en termes de poli‑ tique, en particulier pour la stabilité financière. Notamment, ils suggèrent non seulement que le niveau courant des liquidités pourrait changer de manière significative avec un retournement de la tendance du coût supporté par les entreprises pour leurs dettes à court terme qui détermine le coût de détention des liquidités, mais aussi que les réserves de liquidités des entreprises sont susceptibles de freiner les mécanismes de vente d’urgence à prix bradé face à une crise qui approche, car les entreprises semblent avoir accumulé des liquidités en prévision des opportunités d’investissement qui se matériali‑ seront lors du ralentissement économique. Cela suggère que l’accumulation de liquidités par les entreprises est un stabilisateur économique actif. Cette question pourrait être approfondie dans des recherches ultérieures. 30. Nous exploitons l’enquête sur la recherche et le développement du ministère français de l’Enseignement supérieur et de la Recherche. Le sec‑ teur est défini au niveau A88. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 125 L’accumulation de liquidités par les sociétés non financières en France BIBLIOGRAPHIE Acharya, V. V., Almeida, H. & Campello, M. (2007). Is cash negative debt? A hedging perspective on corpo‑ rate financial policies. Journal of Financial Intermediation, 16(4), 515–554. https://doi.org/10.1016/j.jfi.2007.04.001 Adler, K., Ahn, M. J. & Dao, M. C. (2019). Innovation and Corporate Cash Holdings in the Era of Globalization. International Monetary Fund. https://www.imf.org/en/Publications/WP/Issues/2019/01/18/Innovation-and-Corporate-Cash-Holdings-in-theEra-of-Globalization-46494 Almeida, H., Campello, M. & Weisbach, M. S. (2004). The cash flow sensitivity of cash. The Journal of Finance, 59(4), 1777–1804. https://doi.org/10.1111/j.1540-6261.2004.00679.x Altman, E.I. (1983). Corporate Financial Distress: A Complete Guide to Predicting, Avoiding, and Dealing With Bankruptcy. Wiley Interscience, John Wiley and Sons Antoun de Almeida, L., Batini N., Tressel T. & Voigts S. (2018). France: selected issues. IMF Country Report No. 18/244. https://www.imf.org/en/Publications/CR/Issues/2018/07/26/France-Selected-Issues-46127 Azar, J. A., Kagy, J. F. & Schmalz, M. C. (2016). Can changes in the cost of carry explain the dynamics of cor‑ porate “cash” holdings? The Review of Financial Studies, 29(8), 2194–2240. https://doi.org/10.1093/rfs/hhw021 Baker, S. R., Bloom, N. & Davis, S. J. (2016). Measuring economic policy uncertainty. The Quarterly Journal of Economics, 131(4), 1593–1636. https://doi.org/10.1093/qje/qjw024 Bates, T. W., Kahle, K. M. & Stulz, R. M. (2009). Why do US firms hold so much more cash than they used to? The Journal of Finance, 64(5), 1985–2021. https://doi.org/10.1111/j.1540-6261.2009.01492.x Bates, T. W., Chang, C. H. & Chi, J. D. (2018). Why has the value of cash increased over time? Journal of Financial and Quantitative Analysis, 53(2), 749–787. http://dx.doi.org/10.2139/ssrn.1975491 Begenau, J. & Palazzo, B. (2017). Firm selection and corporate cash holdings. NBER Working Paper N° w23249. https://doi.org/10.1016/j.jfineco.2020.09.001 Bloom, N. (2009). The impact of uncertainty shocks. Econometrica, 77(3), 623–685. https://doi.org/10.3982/ECTA6248 Boileau, M. & Moyen, N. (2016). Corporate cash holdings and credit line usage. International Economic Review, 57(4), 1481–1506. https://doi.org/10.1111/iere.12205 Brown, J. R. & Petersen, B. C. (2011). Cash holdings and R&D smoothing. Journal of Corporate Finance, 17(3), 694–709. https://doi.org/10.1016/j.jcorpfin.2010.01.003 Campbell, J. Y., Lettau, M., Malkiel, B. G. & Xu, Y. (2001). Have individual stocks become more volatile? An empirical exploration of idiosyncratic risk. The Journal of Finance, 56(1), 1–43. https://doi.org/10.1111/0022-1082.00318 Deroyon, J. (2015). De nouvelles données issues du profilage des groupes : une part accrue de l’industrie, des entreprises plus performantes, mais une capacité à financer l’investissement et un endettement plus dégradés. In: Insee, Les entreprises en France 2015. https://www.insee.fr/fr/statistiques/1906511?sommaire=1906539 Dichev, I. D. & Tang, V. W. (2008). Matching and the changing properties of accounting earnings over the last 40 years. The Accounting Review, 83(6), 1425–1460. https://doi.org/10.2308/accr.2008.83.6.1425 Erickson, T. & Whited, T. M. (2000). Measurement error and the relationship between investment and q. Journal of Political Economy, 108(5), 1027–1057. https://www.journals.uchicago.edu/doi/abs/10.1086/317670 Falato, A., Kadyrzhanova, D. & Sim, J. (2013). Rising intangible capital, shrinking debt capacity, and the US corporate savings glut. Available at SSRN: http://dx.doi.org/10.2139/ssrn.3198030 Fama, E. F. & French, K. R. (2002). Testing trade‑off and pecking order predictions about dividends and debt. The Review of Financial Studies, 15(1), 1–33. https://doi.org/10.1093/rfs/15.1.1 Faulkender, M. W., Hankins, K. W. & Petersen, M. A. (2017). Understanding the rise in corporate cash: Precautionary savings or foreign taxes. The Review of Financial Studies, 32(9), 3299–3334. https://doi.org/10.1093/rfs/hhz003 Fazzari, S. M., Hubbard, R. G. & Petersen, B. C. (1988). Financing Constraints and Corporate Investment. Brookings Papers on Economic Activity, 19(1), 141–206. https://www.brookings.edu/wp-content/uploads/1988/01/1988a_bpea_fazzari_hubbard_petersen_blinder_ poterba.pdf Ferrando, A., Blank, S., Neugebauer, K., Siedschlag, I., Iudice, M., Altomonte, C., ... & Meinen, P. (2015). Assessing the financial and financing conditions of firms in Europe: the financial module in CompNet. ECB Working Paper No. 1836. Available at SSRN: https://ssrn.com/abstract=2641070 126 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Foley, C. F., Hartzell, J. C., Titman, S. & Twite, G. (2007). Why do firms hold so much cash? A tax‑based explanation. Journal of Financial Economics, 86(3), 579–607. https://doi.org/10.1016/j.jfineco.2006.11.006 Hadlock, C. J. & Pierce, J. R. (2010). New evidence on measuring financial constraints: Moving beyond the KZ index. The Review of Financial Studies, 23(5), 1909–1940. https://doi.org/10.1093/rfs/hhq009 Han, S. & Qiu, J. (2007). Corporate precautionary cash holdings. Journal of Corporate Finance, 13(1), 43–57. https://doi.org/10.1016/j.jcorpfin.2006.05.002 Heckman, J. J. (1979). Sample selection bias as a specification error. Econometrica: Journal of the Econometric Society, 47(1), 153–161. https://doi.org/10.2307/1912352 IMF (2019). Global Financial Stability Report, October 2019: Lower for Longer. https://www.imf.org/en/Publications/GFSR/Issues/2019/10/11/Global-Financial-Stability-Report-October2019-Lower-for-Longer-47080 Insee (2019). Productivité du travail et du capital : une mesure renouvelée au niveau de l'entreprise. In: Insee Références, Les entreprises en France. https://www.insee.fr/fr/statistiques/4255787?sommaire=4256020 Jensen, M. C. (1986). Agency costs of free cash flow, corporate finance, and takeovers. The American Economic Review, 76(2), 323–329. https://www.jstor.org/stable/1818789 Kalcheva, I. & Lins, K. V. (2007). International evidence on cash holdings and expected managerial agency problems. The Review of Financial Studies, 20(4), 1087–1112. https://doi.org/10.1093/rfs/hhm023 Keynes, J. M. (1936) 2007. The General Theory of Employment, Interest, and Money. Palgrave Macmillan. https://doi.org/10.1007/978-3-319-70344-2_1 Khder, M. B. & Rousset, C. (2017). Faut‑il s’inquiéter de la hausse de l’endettement des entreprises en France? Insee, Note de conjoncture décembre 2017. https://www.insee.fr/fr/statistiques/3292331?sommaire=3292415 Kim, H. & Kung, H. (2016). The asset redeployability channel: How uncertainty affects corporate investment. The Review of Financial Studies, 30(1), 245–280. https://doi.org/10.1093/rfs/hhv076 Lamont, O. (1997). Cash flow and investment: Evidence from internal capital markets. The Journal of Finance, 52(1), 83–109. https://doi.org/10.1111/j.1540-6261.1997.tb03809.x Lamont, O., Polk, C. & Saaá‑Requejo, J. (2001). Financial constraints and stock returns. The Review of Financial Studies, 14(2), 529–554. https://doi.org/10.1093/rfs/14.2.529 Lemmon, M. L. & Zender, J. F. (2010). Debt capacity and tests of capital structure theories. Journal of Financial and Quantitative Analysis, 45(5), 1161–1187. https://www.jstor.org/stable/27919560 Locorotondo, R., Dewaelheyns, N. & Van Hulle, C. (2014). Cash holdings and business group membership. Journal of Business Research, 67(3), 316–323. https://doi.org/10.1016/j.jbusres.2013.01.019 Pindyck, R. S. (1991). Irreversibility, Uncertainty, and Investment. Journal of Economic Literature, 29(3), 1110–1148. https://doi.org/10.3386/w3307 Pindyck, R. S. (2000). Irreversibilities and the timing of environmental policy. Resource and Energy Economics, 22(3), 233–259. https://doi.org/10.1016/S0928-7655(00)00033-6 Nikolov, B. & Whited, T. M. (2014). Agency conflicts and cash: Estimates from a dynamic model. The Journal of Finance, 69(5), 1883–1921. https://doi.org/10.1111/jofi.12183 Opler, T., Pinkowitz, L., Stulz, R. & Williamson, R. (1999). The determinants and implications of corporate cash holdings. Journal of Financial Economics, 52(1), 3–46. https://doi.org/10.1016/S0304-405X(99)00003-3 Shleifer, A. & Vishny, R. (2011). Fire sales in finance and macroeconomics. Journal of Economic Perspectives, 25(1), 29–48. https://doi.org/10.1257/jep.25.1.29 Whited, T. M. (1992). Debt, liquidity constraints, and corporate investment: Evidence from panel data. The Journal of Finance, 47(4), 1425–1460. https://doi.org/10.1111/j.1540-6261.1992.tb04664.x ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 127 L’accumulation de liquidités par les sociétés non financières en France ANNEXE 1_____________________________________________________________________________________________ LA MÉTHODE DE CONSOLIDATION Contrôle des opérations intra‑groupe Une variable au niveau du groupe n’est pas nécessairement la somme des variables de ses unités légales. Certaines variables peuvent être directement additionnées sur l’ensemble des unités légales d’un groupe, car elles n’incluent pas de flux intra‑groupe (à savoir des stocks intra‑groupe) ou parce que les opérations intra‑groupe se compensent si on les additionne sur l’ensemble du groupe. La consolidation peut donc être effectuée directement sur les valeurs déclarées par les unités légales pour les éléments suivants : - Emploi ; - Liquidités ; - Actifs financiers liquides autres que les liquidités ; - Capital fixe matériel et immatériel et investissements ; - Bénéfice, défini ici net des intérêts, impôts, amortissements et dividendes ; - EBIT (bénéfice avant intérêts et impôts). En revanche, certaines variables incluent des opérations intra‑groupe qui ne s’annulent pas si on les additionne sur l’ensemble du groupe, ce qui est susceptible de donner lieu à un double comptage. Citons par exemple le montant de l’encours de la dette financière. Il s’avère que l’endettement intra‑groupe a une importance critique en rai‑ son de sa récente augmentation, comme de Almeida et al. (2018) le prouvent. Pour consolider les variables qui ne peuvent pas être additionnées au niveau du groupe, notre approche est la suivante : (i) construire, au niveau de l’unité légale, une nouvelle variable cor‑ rigée des éléments intra‑groupe, (ii) procéder à un retraitement de consolidation sur ces variables « nettoyées » afin de construire la variable du pseudo‑groupe. Pour les variables qui ne peuvent pas être additionnées, l’étape (i) est exécutée comme suit : - Actif total : au niveau de l’unité légale, nous identifions à partir de l’actif total (moins les amortissements) les prêts intra‑groupe et les participations financières dans les unités légales, ainsi que les prêts y afférents ; - Dette financière : nous nous limitons aux obligations convertibles, à d’autres obligations et aux prêts accordés par des établissements de crédit. Cela exclut tous les prêts intra‑groupe ; - Dividendes : pour un groupe donné, nous ne conservons que le dividende versé par la tête de groupe car les autres unités légales ne détiennent pas la tête de groupe. Pour cette raison, la tête de groupe verse obligatoirement des dividendes aux actionnaires extérieurs. Score Z’’d’Altman (1983) Z’’score = 3.25 + 6.56 WorkingCapital + 3.26 Earnings + 6.72 EBIT + 1.05 Equity où Working Capital désigne le ratio fonds de roulement / actif total, Earnings désigne le ratio bénéfices non distribués accumulés / actif total, EBIT désigne le ratio EBIT / actif total et Equity désigne le ratio valeur comptable des fonds propres / actif total. Score SAFE de Ferrando et al. SAFE‑score = –1.88 + 0.86 Finlev + 0.28 ipf + 0.51 profitmargin – 0.21 collateral – 1.21 cashholdings – 0.05 ln (TotalAssets) où Finlev désigne le ratio dette financière / actif total, ipf (indice des pressions financières) désigne le ratio paiements d’intérêts / béné‑ fices, profitmargin désigne le ratio EBIT / chiffre d’affaires, collateral désigne le ratio immobilisations / actif total et cashholdings désigne le ratio trésorerie / actif total. Construction des élasticités locales sectorielles des fail‑ lites d’entreprises par rapport au cycle économique pour les pseudo‑groupes Pour un groupe donné, nous construisons les élasticités locales sec‑ torielles des faillites d’entreprises par rapport au cycle économique comme étant la moyenne pondérée de ces élasticités pour toutes les unités légales du groupe. Les poids sont calculés comme la part retardée de l’unité légale dans les actifs du groupe. 128 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 ANNEXE 2_____________________________________________________________________________________________ RÉGRESSIONS SUPPLÉMENTAIRES Tableau A2‑1 – Modèle avec effets fixes, par statut (variable dépendante : ratio liquidités/actif) Pseudo-groupes Unités légales indépendantes Unités légales dans un groupe Coût de détention lag1 × <10 -0.0023*** -0.0064*** -0.0033*** (0.0007) (0.0007) (0.0005) Coût de détention lag1 × 10-249 -0.0035*** -0.0059*** -0.0023*** (0.0007) (0.0008) (0.0008) Coût de détention lag1 × 250-4 999 -0.0028*** -0.0033 0.0003 (0.0010) (0.0023) (0.0020) Coût de détention lag1 × >5 000 -0.00001 0.0061 (0.0034) (0.0040) NWC / actif -0.0229*** -0.0774*** -0.0222*** (0.0048) (0.0052) (0.0015) Bénéfice / actif 0.0182*** 0.0428*** 0.0075*** (0.0042) (0.0033) (0.0004) ln(actif) -0.0334*** -0.0442*** -0.0412*** (0.0018) (0.0016) (0.0009) Ratio de distribution -0.0023 -0.0044*** -0.0019** (0.0018) (0.0012) (0.0009) Dette financière / actif × <10 -0.0052 -0.0046 0.0001 (0.0066) (0.0035) (0.0004) Dette financière / actif × 10-249 -0.0062* -0.0058 -0.0003 (0.0035) (0.0043) (0.0006) Dette financière / actif × 50-4 999 0.0102 0.0515 0.0128** (0.0089) (0.0472) (0.0065) Dette financière / actif × >5 000 0.0526** -0.0005 (0.0221) (0.0080) Effets fixes d’entreprise Oui Oui Oui Effets fixes sectoriel Non Non Non Effets fixes d’année Oui Oui Oui SE-Clustering Entreprise+année Entreprise+année Entreprise+année Observations 276 405 2 038 952 1 393 598 R2 0.86 0.82 0.79 R2 ajusté 0.78 0.74 0.70 Note : *p<0.1, **p<0.05, ***p<0.01. Les variables sont définies au tableau 3. Source : Insee (Esane/LIFI); calculs des auteurs. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 129 L’accumulation de liquidités par les sociétés non financières en France Tableau A2‑2 – Modèle avec effets fixes entreprise, par taille (variable dépendante : ratio liquidités (définition restreinte)/actif) Grandes entreprises (>5 000 ETP) Entreprises de taille intérmédiaire (250-4 999 ETP) PME (10-249 ETP) Coût de détention (-1) -0.0049 -0.0093*** -0.0116*** (0.0054) (0.0015) (0.0003) Fonds de roulement net / Actif -0.0095 -0.0212 -0.1193*** (0.0237) (0.0209) (0.0057) Dette financière / Actif (-1) 0.0176 0.0094 -0.0063*** (0.0170) (0.0105) (0.0017) Bénéfice/Actif -0.0392 0.0209 0.0887*** (0.0305) (0.0216) (0.0044) ln(Actif) -0.0208 -0.0051 -0.0001 (0.0203) (0.0090) (0.0017) Ratio de distribution -0.0223 -0.0044 -0.0023*** (0.0196) (0.0065) (0.0005) Effets fixes Entreprise Entreprise Entreprise Clustering Entreprise Entreprise Entreprise Pondération Aucune Aucune Aucune Observations 553 1 209 541 628 R2 0.81 0.86 0.87 R2 ajusté 0.74 0.79 0.81 Note : *p<0.1, **p<0.05, ***p<0.01. Les variables sont définies au tableau 3. Source : Insee (Esane/LIFI); calculs des auteurs. Tableau A2‑3 – Modèle avec un échantillon cylindré et un échantillon quasi cylindré (variable dépendante : ratio liquidités (définition restreinte)/actif) (1) (2) (3) (4) Coût de détention (-1) -0.0067*** -0.0062*** -0.0114*** -0.0125*** (0.0001) (0.0001) (0.0002) (0.0002) Fonds de roulement net / Actif -0.0433*** -0.0478*** -0.0708*** -0.0767*** (0.0003) (0.0003) (0.0013) (0.0016) Dette financière / Actif(-1) -0.0076*** -0.0078*** -0.0012* -0.0014* (0.0002) (0.0003) (0.0007) (0.0009) Écart-type(EBIT) 0.0133*** 0.0089*** (0.0007) (0.0008) Bénéfice/Actif 0.0409*** 0.0486*** 0.0467*** 0.0511*** (0.0005) (0.0006) (0.0013) (0.0014) ln(Actif) -0.0242*** -0.0214*** -0.0412*** -0.0339*** (0.0001) (0.0002) (0.0010) (0.0011) β_{s,r} (écart) -0.0097*** -0.0069** (0.0025) (0.0027) Ratio de distribution 0.0338*** 0.0331*** -0.0060*** -0.0054*** (0.0003) (0.0003) (0.0003) (0.0003) Actifs corporels / Actif -0.2495*** -0.2510*** (0.0011) (0.0012) Effets fixes Secteur & région & année Secteur & région & année Entreprise Entreprise Clustering Aucun Aucun Entreprise Entreprise Pondération Aucune Aucune Aucune Aucune Échantillon Au moins 6 ans Panel cylindré Au moins 6 ans Panel cylindré Observations 1 512 449 1 243 475 1 543 338 1 268 913 R2 0.14 0.14 0.79 0.80 R2 ajusté 0.14 0.14 0.73 0.74 Note : *p<0.1, **p<0.05, ***p<0.01. Les variables sont définies au tableau 3. Les colonnes 1 et 2 renvoient aux régressions du tableau 6, colonne 1, avec un échantillon quasi cylindré et un échantillon cylindré. Les colonnes 3 et 4 renvoient aux régressions du tableau 5, colonne 1, avec un échantillon quasi cylindré et un échantillon cylindré. Source : Insee (Esane/LIFI); calculs des auteurs. 130 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 ANNEXE 3_____________________________________________________________________________________________ Figure A3.I – Moments des ratios liquidités (définition élargie)/actif 0 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 2010 2011 2012 2013 2014 2015 2016 Moyenne Médiane p25 p75 Source: Insee (Esane/LIFI); calculs des auteurs. Tableau A3‑1 – Statistiques descriptives des variables Nom de la variable Nombre d’observations Nombre de valeurs Moyenne Écart type q10 q25 Médiane q75 q90 Liquidités/Actif 3 665 675 3 111 314 0.20 0.23 0.00 0.03 0.12 0.30 0.55 Coût de détention (-1) 3 665 675 794 329 3.20 1.77 1.38 2.04 2.75 3.80 5.99 Coût de la dette à court terme (-1) 3 665 675 454 3.31 1.82 1.38 2.09 2.84 3.95 6.34 Fonds de roulement net / Actif 3 665 675 3 304 077 0.07 0.75 -0.36 -0.10 0.05 0.26 0.50 Dette financière / Actif(-1) 3 665 675 1 899 255 0.16 0.96 0.00 0.00 0.03 0.20 0.44 Bénéfice/Actif 3 665 675 2 902 546 -0.02 0.40 -0.19 -0.01 0.02 0.10 0.19 ln(Actif) 3 665 675 1 776 417 5.89 1.75 3.82 4.93 5.90 6.89 7.96 Actifs corporels / Actif 3 665 675 2 873 422 0.14 0.20 0.00 0.01 0.06 0.18 0.40 Écart-type(EBIT) 3 665 675 904 318 150 4 730 5 13 30 71 172 β_{s,r} (niveau de référence) 3 665 675 285 356 -0.88 0.24 -1.09 -1.02 -0.88 -0.80 -0.69 β_{s,r} (alternative) 3 665 675 285 352 -43.89 44.31 -93.31 -59.48 -35.27 -14.16 0.00 Ratio de distribution 3 665 675 576 980 6.02 10 782 0.00 0.00 0.00 0.00 0.42 Incertitude liée à la politique 3 665 675 6 250 38 191 224 248 279 310 Besoins de couverture 3 665 675 531 896 -0.11 0.64 -0.93 -0.68 -0.20 0.43 0.86 Note : les variables sont définies au tableau 3. Source : Insee (Esane/LIFI). ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 131 Pouvoir de marché et part du travail Market Power and Labor Share Arthur Bauer* et Jocelyn Boussard** Résumé – Les tendances séculaires du pouvoir de marché et de la part du travail dans la valeur ajoutée ont des conséquences importantes sur les inégalités et l’efficacité de l’allocation des facteurs de production. Pour les analyser, nous exploitons une nouvelle base de données exhaus‑ tives sur les entreprises françaises entre 1984 et 2016. Nous documentons une hausse de la concentration depuis le début des années 1990. Malgré une stabilité de la part agrégée du travail, les plus grandes entreprises, dont la part du travail est plus faible, ont gagné des parts de marché, surtout dans les secteurs où la concentration a le plus augmenté. Le taux de marge (ratio du prix au coût marginal) de l’entreprise type, considéré ici comme un indicateur de son pouvoir de marché, a diminué mais la réallocation des parts de marché vers les plus grandes entreprises a fait augmenter le taux de marge agrégé. Nous ne constatons pas que la hausse de la concentra‑ tion s’accompagne d’un accroissement du pouvoir de marché des plus grandes entreprises. Nous montrons enfin qu’il est essentiel de tenir compte des réallocations entre entreprises pour bien comprendre comment les tendances du pouvoir de marché ont façonné la dynamique de la part globale du travail en France. Abstract – Secular trends in market power and labor share have important implications for inequality and allocative efficiency. Studying them requires comprehensive, detailed firm‑level data spanning several decades. Using a novel database on the universe of French firms between 1984 and 2016, we document a rise in concentration since the early 1990s. Despite a stability of the aggregate labor share, larger firms with lower labor shares gained market shares, especially in industries where concentration increased the most. The markup of the typical firm, considered here as a proxy of its market power, has decreased, but market shares reallocation toward lar‑ ger firms contributed to an increase in the aggregate markup. In particular, we do not find that the rise in concentration is accompanied by an increase in market power at the top. Finally, we show that taking into account reallocation across firms is essential to understand how the trends in market power have shaped the dynamics of the aggregate labor share in France. Codes JEL / JEL Classification : E10, E23, E25 Mots clés : part du travail, taux de marge, concurrence, fonction de production Keywords: labor share, markups, competition, production function *Insee et CREST (arthur.bauer@ensae.fr), **Commission européenne et CREST (boussard.jocelyn@ensae.fr) Remerciements – Nous remercions le département des études économiques, l’unité ressources documentaires et archivage et la direction des statistiques d’entreprises de l’Insee, et notamment Kim Anh Fabre, Pascal Lucas, Christelle Le Borgne et Emmanuel Gros, qui nous ont permis d’accéder aux données et de mieux les comprendre. Nous remercions Elizaveta Archanskaia, Sabien Dobbelaere, Dominique Goux, Maxime Gueuder, Francis Kramarz, Edouard Jousselin, Rémy Lecat, Margarita Lopez‑Forero, Jacques Mairesse, Rémi Monin, Ludovic Panon, Sébastien Roux, Olivier Simon, ainsi que les participants aux séminaires de l’Insee, de la Banque de France, de la DG‑ECFIN, du Collège de France et du CREST pour leurs commentaires utiles. Nous remercions enfin deux rapporteurs anonymes. Reçu en octobre 2018, accepté en avril 2020. Traduit de la version originale anglaise Citation: Bauer, A. & Boussard, J. (2020). Market Power and Labor Share. Economie et Statistique / Economics and Statistics, 520‑521, 125–146. https://doi.org/10.24187/ ecostat.2020.520d.2034 Rappel ‑ Les jugements et opinions exprimés par les auteurs n’engagent qu’eux mêmes, et non les institutions auxquelles ils appartiennent, ni a fortiori l’Insee. 132 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Les grandes entreprises productives, dites « superstars », gagnent des parts de marché dans de nombreuses économies développées et l’augmentation de leur pouvoir de marché, mesurée à partir soit de leur taux de marge (au sens de la finance d’entreprise, c'est-à-dire le ratio du prix de vente au coût marginal) soit de leur rentabilité, est au cœur de nombreux travaux récents. De Loecker et al. (2020) docu‑ mentent une hausse du pouvoir de marché des entreprises américaines situées dans le haut de la distribution des taux de marge, d’une ampleur suffisante pour avoir des conséquences macroéconomiques importantes. Selon eux, le taux de marge moyen pondéré a augmenté aux États‑Unis : supérieur de 21 % au coût marginal au début des années 1980, il l’est aujourd’hui d’environ 61 %. Autor et al. (2020) docu‑ mentent également une hausse du taux de marge moyen pondéré aux États‑Unis. Selon Gutiérrez & Philippon (2018), les marchés européens sont plus concurrentiels et présentent une concentra‑ tion moins importante, ainsi qu’un excédent de bénéfices moins élevé et de plus faibles barrières à l’entrée. Ces tendances séculaires sont‑elles spécifiques aux États‑Unis ? Nous utilisons des données administratives détaillées sur les entre‑ prises françaises afin de documenter l’évolution du pouvoir de marché et de la part du travail des entreprises en France. Ces évolutions ont des implications importantes pour les inégalités. L’une des principales consé‑ quences macroéconomiques de l’augmentation du pouvoir de marché est la chute de la part globale des revenus allant aux travailleurs. Sachant que le travail est réparti de façon beau‑ coup plus uniforme que le capital (Garbinti et al., 2018 ; Piketty et al., 2018) ou la propriété des entreprises (Bauer et al., 2018), toute diminution de la part agrégée du travail peut accentuer les inégalités. Des travaux importants montrent que la part agrégée du travail a effectivement diminué dans de nombreux pays (Karabarbounis & Neiman, 2014 ; Elsby et al., 2013 ; Grossman et al., 2018). Grâce à des données agrégées, Barkai (2020) et Boussard & Lee (2020) montrent que les parts du travail et du capital ont diminué aux États‑Unis et dans de nombreuses économies développées, tandis que les mesures de la part des profits ont augmenté. Si l’on examine de plus près les données au niveau de l’entreprise, Kehrig & Vincent (2018) et Autor et al. (2020) montrent que la part du travail de l’entreprise type a en réalité augmenté et que la baisse agrégée découle d’une redistribution des parts de marché des entreprises ayant une part du travail élevée vers celles où elle est faible. Les tendances du pouvoir de marché ont également des conséquences importantes mais ambigües sur l’efficacité de l’allocation des facteurs de production. Baqaee & Fahri (2020) montrent que la redistribution des parts de marché vers les entreprises dont les taux de marge sont élevés, comme le présentent Autor et al. (2020), fait augmenter l’efficacité mais qu’une dispersion accrue des taux de marge, comme le présentent De Loecker et al. (2020), fait dimi‑ nuer l’efficacité. Le pouvoir de marché a lui aussi des conséquences dynamiques importantes mais ambiguës : si une moindre concurrence peut engendrer un certain sous‑investissement de la part des entreprises (Gutiérrez & Philippon, 2017), le lien entre la concurrence et l’innova‑ tion dépend quant à lui du niveau initial de la concurrence (Aghion et al., 2005). Pour identifier les causes possibles de ces tendances agrégées, comme par exemple l’évo‑ lution des conditions de concurrence ou les changements technologiques, il est essentiel de comprendre les transformations microstructu‑ relles sous‑jacentes. Par exemple, Bonfiglioli et al. (2019) et Panon (2020) montrent que les entreprises nationales sont en concurrence sur des marchés de plus en plus mondialisés, ce qui réduit leurs taux de marge mais profite aux entreprises de plus grande taille ; Melitz (2003) et Mayer et al. (2014) montrent que la concurrence internationale engendre une redis‑ tribution des parts de marché vers les entreprises les plus productives. Des travaux récents (Autor et al., 2020 ; Van Rennen, 2018) arguent que le changement technologique, comme une concur‑ rence accrue entre les différentes plateformes des marchés numériques, a pu engendrer une réallocation depuis les petites entreprises vers les grandes, qui pourrait mener à la domination d’un nombre restreint d’entreprises. Selon Lashkari et al. (2019), l’essor des technologies de l’infor‑ mation, et la baisse de leur prix, a profité de façon disproportionnée aux entreprises de plus grande taille. Nous ancrons notre analyse en France pour étudier le lien entre les variations de la concen‑ tration sectorielle et les résultats enregistrés par les entreprises au niveau individuel, et apportons des éléments d’explication de la source des variations du pouvoir de marché. La France est un cas intéressant parce que, contrairement aux États‑Unis, la part du travail y semble stable ou croissante sur les quelques dernières décennies (voir la figure I). Nous documentons les principales tendances macroéconomiques en France, dans la lignée des travaux sur d’autres économies développées. La décomposition des ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 133 Pouvoir de marché et part du travail variations de la part du travail en France depuis les années 1990 fait apparaître une redistribution importante des parts de marché des entreprises où la part du travail est élevée vers celles où elle est faible, qui sont souvent plus grandes. Cette redistribution est corrélée à une hausse de la concentration sectorielle, mesurée à l’aide d’indicateurs variés. Toutefois, les parts du travail ont en moyenne augmenté pour toutes les entreprises, quelle que soit leur position dans la distribution initiale, ce qui a compensé l’impact de la redistribution et explique pourquoi la part globale du travail est restée plus ou moins stable durant cette période en France. Pour évaluer l’impact de la dynamique du pouvoir de marché des entreprises sur la divergence des évolutions de la part du travail au niveau de l’entreprise en France et aux États‑Unis, contrai‑ rement à l’impact d’autres facteurs tels que le changement technologique, nous estimons les taux de marge au niveau de l’entreprise et calcu‑ lons les élasticités de la production à l’aide d’une fonction de production flexible autorisant des variations du produit marginal des facteurs de production dans l’ensemble des entreprises et sur différentes périodes. Nous suivons De Loecker & Warzynski (2012) en estimant tout d’abord les élasticités de la valeur ajoutée au travail et au capital, au niveau de l’entreprise, puis calculons les taux de marge en supposant que les entre‑ prises minimisent leurs coûts et qu’elles peuvent ajuster la quantité de travail. Nous utilisons des données administratives uniques et exhaustives couvrant l’univers des entreprises françaises. Nous ne constatons pas que la hausse de la concentration se soit traduite par un accrois‑ sement du pouvoir de marché au niveau de l’entreprise. Nous constatons une forte hétéro‑ généité des taux de marge et remarquons qu’ils augmentent en fonction de la taille de l’entre‑ prise. Nous constatons également que la hausse des parts du travail des entreprises découle en grande partie de la baisse de leurs taux de marge. Dans l’ensemble, les entreprises dont les taux de marge sont élevés ont gagné des parts de marché tandis que le taux de marge de l’entreprise type a diminué, ce qui suggère à la fois une allocation des facteurs de production plus efficace et une diminution du pouvoir de marché des entreprises. Nous montrons que ces deux caractéristiques de la redistribution sont fortement corrélées à la hausse de la concentration au niveau sectoriel. Notre article contribue à la littérature macro‑ économique documentant plusieurs tendances importantes qui se sont récemment propagées dans les économies développées. Plusieurs articles récents documentent une concentration sectorielle croissante, ainsi qu’une dispersion accrue des résultats des entreprises au sein de l’industrie concernée (Andrews et al., 2016 ; Berlingieri et al., 2017 ; Song et al., 2018 ; Card et al., 2013). Parallèlement, de nombreux signes indiquent une diminution mondiale de la part du travail dans de nombreux secteurs (Elsby et al., 2013 ; Karabarbounis & Neiman, 2014, 2018 ; Grossman et al., 2018 ; Barkai, 2020 ; Boussard & Lee, 2020). Nous montrons que la concentra‑ tion et le pouvoir de marché des entreprises à fort pouvoir de marché ne sont pas nécessairement corrélés même si, au niveau agrégé, la redistri‑ bution des parts de marché vers les entreprises dont les taux de marge sont élevés contribue à l’augmentation du taux de marge agrégé. Nos résultats, selon lesquels (i) les taux de marge ont diminué au niveau de l’entreprise et (ii) la redistribution des parts de marché vers les entre‑ prises dont les taux de marge sont élevés (qui reflète une hausse de la concentration) contribue à l’augmentation du taux de marge agrégé, sont conformes à ceux d’Autor et al. (2020). Toutefois, en France, la baisse des taux de marge au niveau de l’entreprise est plus importante et l’effet de la redistribution ne la compense pas1 . Cette différence correspond également aux constats de Gutiérrez & Philippon (2018), selon lesquels les marchés européens sont devenus plus concurrentiels que les marchés américains. La suite de l’article s’articule comme suit. La section 1 présente le cadre théorique, la section 2 présente la stratégie d’estimation des taux de marge au niveau de l’entreprise, la section 3 présente les données, la section 4 revient sur les évolutions de la part du travail et la concen‑ tration en France et la section 5 présente nos résultats sur le taux de marge des entreprises en France. 1. Cadre théorique Cette section présente un cadre théorique général permettant de relier les variations de la part globale du travail aux variations du pouvoir de marché, de l’élasticité des facteurs de production et de la part de marché au niveau de l’entre‑ prise. Prenons une industrie avec N entreprises indexées i . Dans la lignée de résultats empi‑ riques et dans l’esprit des travaux séminaux de Melitz (2003) et Hopenhayn (1992), nous 1. Cette différence peut s’expliquer, entre autres, par le fait que le pou‑ voir de marché des entreprises françaises est plus sensible à la cause sous‑jacente, par exemple si elles sont plus exposées à la mondialisation ou à la concurrence sur les plateformes en ligne que les entreprises amé‑ ricaines, ou si l’écart entre les entreprises les plus productives et les moins productives est plus resserré en France qu’aux États‑Unis. 134 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 supposons que les entreprises se distinguent par leur productivité exogène Ωit et ont accès à une technologie de production commune ( ). , définie comme suit : Y L it = it it Kit ( ) Ω , , qu’elles utilisent pour produire la valeur ajoutée Yit , en utilisant un facteur travail variable Lit et un stock de capital Kit. Nous supposons que l’ajustement du stock de capital est soumis au coût a ( ). , qui ne dépend que du niveau actuel et du niveau précédent du capital et non pas – hypothèse importante – des niveaux des facteurs de production variables. La somme des coûts actualisés de l’entreprise est la suivante :   Z X Z Z  X it it it it it ( ) = ( ) +  ( )   min +  , β 1 slc  Ωit it Yit ( ) ,X = où  ( ). est le coût total de l’entreprise, Xit = L K it it ( ) , désigne les facteurs de production et Zit désigne les variables qui sont exogènes aux choix de l’entreprise à l’instant t, comme le stock de capital de la période précédente, la producti‑ vité et les prix des facteurs de production. Le Lagrangien associé au côté droit de l’équation de Bellman est le suivant :   ( ) X Z it , , ξ β it Y W it , , it = + itL r it it ( ) K K it + a i ( ) t i K F t i −1 + +t i   Z t i + t it it i Yt  ( )    1 − ξ Ω ( ) ( ) ,X −   ( ) X Z it , , ξ β it Y W it , , it = + itL r it it ( ) K K it + a i ( ) t i K F t i −1 + +t i   Z t i + t it it i Yt  ( )    1 − ξ Ω ( ) ( ) ,X − où Wit est le salaire, rit est le coût d’utilisation du capital, Fit est un coût fixe exogène et ξit est le multiplicateur de Lagrange. Les conditions du premier ordre considérées aux valeurs (Xit * et ξit * ) des facteurs de productions et du multiplicateur de Lagrange qui correspondent au choix optimal impliquent que : ∇L Y ( ) X Z it it it it = * * , , ξ , 0 (1) où ∇ désigne le vecteur gradient des dérivées partielles s’agissant des facteurs de production. Si l’on applique l’équation (1) au facteur travail flexible, on obtient la condition de minimisa‑ tion des coûts suivante, qui relie le salaire et le produit marginal du travail : ∂ ∂ ( ) = − ∂ ∂ ( ) =   L Y W L X Z it it it it it it it Xit * * * * , , ξ ξ , , Ω 0 S’agissant du facteur travail L, l’élasticité de la production θl i, t peut donc être exprimée, comme suit : θ Ω ξ l it it it it it it it it it L Y L W L Y , ≡ , ∂ ∂ ( ) = * * * *  X 1 (2) En utilisant les conditions de premier ordre de l’équation (1) pour exprimer le choix optimal des facteurs de production Xit * et ξit * en tant que fonctions de la production Yit et des variables exogènes Zit, nous obtenons le coût total optimal en tant que fonction de la production et des variables exogènes :   * * Y Y it it it it it it ( ) , , Z X = ( ) ( ) Z Z, Au niveau optimal, le Lagrangien est égal au coût total et il ressort du théorème de l’enveloppe que le coût marginal est égal au multiplicateur de Lagrange ξit * : ∂ ∂ ( ) = ∂ ∂ ( ) = ∂ ∂ ( ) =    * * * * * Y Y Y Y Y it it it it it it Yit it it , , Z Z X Z , , ξ ξ , ∂ ∂ ( ) = ∂ ∂ ( ) = ∂ ∂ ( ) =    * * * * * Y Y Y Y Y it it it it it it Yit it it , , Z Z X Z , , ξ ξ , En supprimant l’exposant * à des fins de simpli‑ fication pour désigner la valeur des variables considérées au choix optimal de l’entreprise, nous définissons le taux de marge comme étant le rapport entre le prix de la valeur ajoutée de l’entreprise Pit et son coût marginal : µ ξ it it it P = (3) Le taux de marge, souvent utilisé pour mesurer le pouvoir de marché au niveau de l’entreprise, représente le pouvoir de fixation des prix de l’entreprise. Comme De Loecker & Warzynski (2012) le font remarquer, cette expression résiste à divers modèles statiques de fixation des prix et ne dépend pas d’un format spécifique de concur‑ rence tarifaire entre les entreprises. Toutefois, le taux de marge en lui‑même dépend de la nature précise de cette concurrence entre les entreprises. En outre, il ressort des équations (2) et (3) que le taux de marges se définit comme étant l’élasticité de la production au facteur travail, divisée par la part de ces coûts du travail dans le revenu total de l’entreprise, soit la part du travail λit 2 : µ θ θ λ it l it it it it it l it it P Y W L = ≡ , , (4) Par la suite, nous relions la part agrégée du travail aux taux de marge et aux élasticités de la production3 au facteur travail au niveau de l’entreprise. Premièrement, nous définissons la part agrégée du travail Λt comme la moyenne pondérée par la valeur ajoutée des parts du travail au niveau de l’entreprise : Λt i it it i it it i it it W L P Y ≡ = S ∑ ∑ ∑ λ (5) 2. À noter que l’équation (4) ne s’applique qu’aux facteurs de production pouvant être ajustés librement, tout au moins à la marge, et que les prix des facteurs de production sont extérieurs aux choix des entreprises. La section C2 de l’Annexe en ligne examine le signe des distorsions découlant du relâchement de l’une de ces hypothèses. Le lien vers l’Annexe en ligne est à la fin de l’article. 3. En toute rigueur, il s’agit de la valeur ajoutée. On utilise indifféremment les deux termes dans la suite. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 135 Pouvoir de marché et part du travail où S P Y P Y it it it i it it = ∑ est la part de marché de l’entre‑ prise i. Grâce à l’équation (4), nous savons que la part du travail est le produit de l’élasticité de la production au travail et de l’inverse du taux de marge : λ θ it = l it i µ t − , 1 (6) Nous décomposons l’élasticité de la produc‑ tion au facteur travail θl i, t en une composante découlant des rendements d’échelle, qui indique l’ampleur de l’expansion de la production lorsque tous les facteurs de production augmentent de façon proportionnelle, et en une composante découlant de l’intensité relative en travail par rapport au capital du processus de production : θ θ l i, , t l it θ θ l i, , t k it θl i, t = + /( ) × Intensité en travail     ( ) + θ α≡ γ k i, t it it Rendements d'échelle    (7) notant que, lorsque αit est élevé, le processus de production présente une forte intensité en travail par rapport au capital. Il ressort des équations (5), (6) et (7) que la part agrégée du travail peut être exprimée en tant que fonction de l’intensité en travail, des rendements d’échelle et des taux de marge au niveau de l’entreprise : Λt i it it it it = ∑S − α γ µ 1 (8) Nous calculons le taux de marge agrégé Mt comme la moyenne harmonique pondérée par la valeur ajoutée au niveau de l’entreprise : M P Y P Y S t i it it it i it it i ≡ it it         =       ∑ ∑ ∑ − − − − µ µ 1 1 1 1 2. Procédure d’estimation Dans cette section, nous décrivons la procédure suivie pour estimer les élasticités de la valeur ajoutée au travail et au capital au niveau de l’entreprise. Combinées aux parts de travail et aux parts de marché au niveau de l’entreprise observées dans les données, elles nous permettent de calculer la contribution des taux de marge, de l’intensité en travail et des rendements d’échelle à la part agrégé du travail4 . Pour estimer le taux de marge à partir des données sur la production des entreprises, nous utilisons l’équation (4). Ce cadre est particu‑ lièrement approprié pour analyser l’évolution des taux de marge sur le long terme, car il ne nécessite pas d’observer les caractéristiques au niveau du consommateur pour estimer les élasticités de la demande. Deuxièmement, il ne formule d’hypothèse ni sur le comportement de fixation des prix des entreprises ni sur les conditions de concurrence. Il ne requiert que deux hypothèses : les entreprises minimisent les coûts de production et elles ajustent librement au moins un facteur de production variable. Nos données permettent d’observer directement les parts des facteurs de production de chaque entreprise, mais les élasticités de la valeur ajoutée sont inobservées. Dans la mesure où ces élasticités peuvent varier dans le temps et d’une entreprise à l’autre, nous estimons une fonction de production flexible avec un nombre minimal de restrictions paramétriques. Nous supposons ci‑après que les entreprises de la branche j emploient la même technologie f j ( ). , en utilisant le travail et le capital pour générer de la valeur ajoutée. Nous supposons également que la productivité est neutre au sens de Hicks et évolue selon un processus de Markov de type AR(1). Pour l’entreprise i dans la branche j, notre modèle empirique est construit selon : y f k l it = j it it it it ( ) , + + ω ε (9) ω ρ ω η ν ξ it jt it j j it = + + +t −1 (10) où yit désigne le logarithme de la valeur ajoutée de l’entreprise i au moment t et où l it et kit sont les logarithmes de l’emploi et du stock de capital. La productivité ωit est neutre au sens de Hicks, εit est une erreur de mesure indé‑ pendante et identiquement distribuée et ξit est l’innovation du processus de productivité, égale‑ ment indépendante et identiquement distribuée. La productivité de long terme η j et une tendance temporelle ν j sont supposées communes aux entreprises d’une même branche j. Si nous ne pouvons pas utiliser les moindres carrés ordinaires pour l’équation (9), c’est parce que, entre autres, nous n’observons pas la productivité ωit , mais les entreprises disposent d’informations sur leur productivité lorsqu’elles choisissent leurs facteurs de production. ωit est donc corrélé à kit et à l it et les estimations par les moindres carrés ordinaires sont biaisées. Nous faisons ci‑après les hypothèses standard suivantes quant à l’instant où les entreprises prennent leurs décisions : Hypothèse 1 (Ensemble des informations dispo‑ nibles) – L’ensemble des informations disponibles de l’entreprise à l’instant t, c’est‑à‑dire It , inclut les chocs de productivité actuels et passés ωiτ τ t { } =0 mais exclut les chocs de productivité futurs ωiτ τ t { } = + + 1 ∞ . Les erreurs de mesure µit vérifient 4. Nous faisons abstraction des liens intrants/extrants en prenant une fonction de production en termes de valeur ajoutée. Baqaee & Fahri (2020) montrent que les liens intrants/extrants jouent un rôle important dans la propagation des chocs de productivité et Grassi (2017) montre qu’ils sont importants pour le pouvoir de marché en cas de concurrence oligopolistique. 136 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020  µ I it t [ ] | = 0. Le processus de productivité défini à l’équation (10) est connu des entreprises et est stochastiquement croissant en ωit−1. Hypothèse 2 (Choix relatifs aux facteurs de production) – Les facteurs travail et capital utilisés à l’instant t sont choisis en tenant compte de l’ensemble des informations disponibles It . Ces hypothèses sont simples : les entreprises n’observent pas ωit avant l’instant t, mais le processus de Markov définit ce que l’entre‑ prise sait de la distribution des futurs chocs de productivité. Pour tenir compte de la producti‑ vité non observée, nous adoptons une méthode d’estimation en panel dynamique (Blundell & Bond, 2000). Nous utilisons la structure AR(1) du processus de productivité pour écrire la valeur ajoutée actuelle comme suit : y y f k l f k l t u it = + jt it j it it jt j it it j j it ρ ρ − − 1 1 ( ) ( ) , , − ( ) −1 + − η ν + y y f k l f k l t u it = + jt it j it it jt j it it j j it ρ ρ − − 1 1 ( ) ( ) , , − ( ) −1 + − η ν + où l’erreur composée uit = +it it − it− ξ ε ρε 1 est de moyenne nulle conditionnellement à l’ensemble des informations disponibles It−1 en raison des hypothèses 1 et 2. En conditionnant par un ensemble d’instruments inclus dans It−1, nous estimons les paramètres de la fonction de production et du processus de productivité par la méthode des moments généralisée en deux étapes. Nos conditions de moment peuvent s’écrire comme suit : E u I E y y f k l f k l it t it jt it j it it jt j it it | , , [ ] − − = − − − − ( ) ( ) − ( ) 1 1  ρ ρ 1 1 − −    η ν j jt I| t−1 = 0 E u I E y y f k l f k l it t it jt it j it it jt j it it | , , [ ] − − = − − − − ( ) ( ) − ( ) 1 1  ρ ρ 1 1 − −    η ν j jt I| t−1 = 0 (11) Nous supposons que la technologie f j ( ). de la branche j est une fonction de production translog du capital et du travail : f k l l k l k l j t t l jt it k jt it ll jt it kk jt it lk jt i , , , , , , ( ) = + β β + + β β + β 2 2 t it k f k l l k l k l j t t l jt it k jt it ll jt it kk jt it lk jt i , , , , , , ( ) = + β β + + β β + β 2 2 t it k et nous utilisons les valeurs passées ωit−1, lit−1, mit−1, kit−1 et des combinaisons d’ordre supé‑ rieur de ces termes, une tendance temporelle t et une constante comme instruments dans l’équation (11). À partir des estimations des paramètres de la fonction de production, nous calculons l’élasticité de la production du travail et du capital au niveau de l’entreprise i durant l’année t comme suit : θ β l it l j l β β l j it lk j it l k , , = + 2 , , + θ β k it k j k β β k j it lk j it k l , , = + 2 , , + À partir de l’équation (7), nous obtenons l’inten‑ sité en travail et les rendements d’échelle au niveau de chaque entreprise. Des études antérieures estimant les taux de marge sur des données similaires se sont parfois appuyées sur la méthode dite de la variable proxy. Cette méthode repose sur une estimation non paramétrique de la productivité non observée ωit à partir des variables observées, avec l’hypothèse selon laquelle une variable proxy, soit l’investis‑ sement (Olley & Pakes, 1996) soit la demande de facteurs intermédiaires (Levinsohn et al., 2003 ; Ackerberg et al., 2015), est une fonction inversible des autres facteurs de production et de la productivité et seulement de ces variables. Toutefois, cette approche n’est pas valide si la variable proxy est également une fonction d’un choc non observé, comme par exemple un choc de coût sur tous les facteurs de production, ou encore un choc de demande. Définissons la demande de facteurs intermédiaires mit comme une fonction du capital, du travail, de la produc‑ tivité et d’un choc non observé dit : m m k l d it = it it it it ( ) ω , , , Si l’on suppose que cette fonction est inversible en ωit et si l’on utilise l’équation (9), on peut écrire la valeur ajoutée yit comme une fonction inconnue des facteurs de production et du choc non observé : y f k l m k l d g m k l d it = j it it it it it it it it it it it ( ) , , + ( ) , , + = ( , , , ω ε1, ) + ε1,it y f k l m k l d g m k l d it = j it it it it it it it it it it it ( ) , , + ( ) , , + = ( , , , ω ε1, ) + ε1,it Si l’on ignore le choc non observé et si l’on utilise l’hypothèse 1 selon laquelle εit est indé‑ pendant des facteurs de production choisis, on obtient une estimation paramétrique g  it de g ( ). prenant la forme d’un polynôme de haut degré en mit , kit et l it , mais qui ne dépend pas de dit : yit it = + g it   ε où les résidus ε it sont corrélés à dit . Dans la pratique, lorsque nous appliquons cette procédure, nous remarquons que les résidus ne sont pas indépendants et identiquement distribués. Comme Doraszelski & Jaumandreu (2019) l’ont récemment remarqué, dit , tout comme ωit , devrait également être considéré comme étant potentiellement corrélé au terme d’erreur. Dans ce cas, les instruments utilisés à la deuxième étape de la méthode de la variable proxy ne sont pas cohérents avec les hypothèses identificatrices. 3. Données Notre analyse empirique s’appuie sur plusieurs sources de microdonnées produites par l’Insee, qui couvrent l’univers des entreprises françaises durant la période 1984‑2016. Ces données sont, entre autres, l’une des principales sources ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 137 Pouvoir de marché et part du travail utilisées pour préparer les comptes nationaux. Nos données, rassemblées à partir des déclara‑ tions fiscales de toutes les entreprises françaises, fournissent des informations sur le bilan et les comptes de résultat au niveau de chaque entre‑ prise, ainsi que sur l’emploi, la branche dans laquelle l’entreprise évolue, le type d’entité juridique (micro‑entreprise, société uniperson‑ nelle ou société à responsabilité limitée) et le régime fiscal auquel elle est rattachée (régime de la micro‑entreprise, régime simplifié ou régime normal). Pour la période allant de 1984 à 2007, nos données sont tirées du Système unifié de statis‑ tiques d’entreprises (SUSE), rassemblant des informations auprès d’entreprises rattachées à deux régimes fiscaux : le bénéfice réel normal (BRN) et le régime simplifié d’imposition (RSI). Ces fichiers nous permettent de faire la différence entre les paiements liés au travail, aux matières premières ou à d’autres facteurs de production intermédiaires et aux investisse‑ ments. Ils fournissent des informations sur la valeur comptable du capital de l’entreprise et sur sa masse salariale. Pour cette raison, ils ont été largement utilisés dans les études passées sur les entreprises françaises (voir par exemple di Giovanni et al., 2014 ; Caliendo et al., 2015). À partir de 2008, nous utilisons les données du dispositif d’élaboration des statistiques annuelles d’entreprises (ESANE), né de l’unification de SUSE et des enquêtes annuelles d’entreprises qui étaient auparavant menées chaque année dans divers secteurs. En raison d’un certain chevau‑ chement entre les informations des déclarations fiscales et celles des enquêtes, l’Insee applique un processus algorithmique pour rapprocher les informations discordantes. Pour construire notre panel d’entreprises, nous excluons des données ultérieures à 2008 les entreprises rattachées au régime micro‑BIC5 . De plus, nous limitons notre analyse aux unités légales disposant d’un numéro d’identification unique et valide6 . Nous nous concentrons sur le secteur marchand, hors agriculture, car notre échantillon ne couvre pas assez bien les entreprises de ce secteur7 . Nous excluons également l’immobilier et la finance, secteurs où la notion de fonction de production est difficile à appréhender, alors que nous nous intéressons au partage de la valeur ajoutée entre les travailleurs et les détenteurs du capital et des entreprises à travers le prisme du processus de production. Notre échan‑ tillon compte 5.7 millions d’entreprises, dont 3.7 millions ont au moins un employé. Pour finir, nous utilisons des données de la base de données EU‑KLEMS (Van Ark, 2017) au niveau de la branche pour disposer des informations sur les prix des investissements et de la production, nécessaires pour déflater la valeur ajoutée et les stocks de capital. D’autres détails sur les données sont fournis à l’annexe 1. 3.1. Vue d’ensemble des données Le tableau 1 décrit les principales variables utilisées dans notre analyse empirique. Notre échantillon de 3.7 millions d’entreprises comptant au moins un employé couvre plus 5. Il s’agit d’un régime extrêmement simplifié introduit en 2008, qui s’ap‑ plique aux très petites entreprises dont le chiffre d’affaires total ne dépasse pas 170 000 euros (secteur immobilier ou commercial) ou 70 000 euros (autres secteurs). Ce régime est largement utilisé par les travailleurs indé‑ pendants qui ne déclarent ni capital ni employés. 6. Une entreprise est définie comme étant une unité légale disposant d’un numéro d’identification unique (SIREN). Dans le dispositif ESANE, les uni‑ tés légales qui appartiennent au même groupe sont rassemblées et leurs comptes sont consolidés (Deroyon, 2015). Nous ne consolidons pas et considérons ces unités légales comme séparées. 7. Les secteurs marchands excluent les administrations publiques et les services publics de la santé et de l’éducation. La faible couverture de l’agriculture dans notre échantillon vient de ce que les entreprises de ce secteur sont pour la plupart rattachées à un régime fiscal exclu des régimes micro‑BIC, BRN et RSI. Tableau 1 – Statistiques descriptives Observations Moyenne Médiane Écart type Chiffre d’affaires 27 543 090 2 642.6 284.6 77 556.3 Production brute 27 517 472 1 818.5 203.7 69 157.5 Valeur ajoutée 27 517 472 730.0 111.3 32 121.5 Coûts du travail 27 517 428 507.8 81.0 18 092.5 Part du travail 27 334 884 75.1 74.1 33.6 Emploi 27 360 292 14.1 3.0 471.6 Consommation intermédiaire 27 517 477 1 088.5 80.2 46 270.4 Investissements 19 814 136 185.1 4.0 19 200.4 Valeur comptable du capital 27 507 848 1 305.8 76.0 168 003.0 Note : le tableau présente les principales statistiques descriptives des entreprises de l’échantillon. Les moyenne, médiane et écart type sont exprimés en milliers d’euros, à l’exception de la catégorie ‘Emploi’ qui correspond au nombre de salariés en équivalent temps plein et la part du travail exprimée en pourcentage de la valeur ajoutée. Source et champ: Insee, SUSE et ESANE; l'échantillon rassemble toutes les entreprises constituées en société au sein des secteurs marchands, à l'exception de l'agriculture, de la finance et de l'immobilier, avec un emploi supérieur à zéro. 138 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 de 33 années et 27 millions d’observations entreprise‑année. Le chiffre d’affaires moyen est de 2.6 millions d’euros, le nombre moyen d’em‑ ployés de 14 et la valeur moyenne du stock de capital de 1.3 million d’euros. Ces données sont extrêmement asymétriques : le niveau médian du chiffre d’affaires est de 285 000 euros, le nombre médian d’employés est de 3 et la valeur médiane du stock de capital est de 76 000 euros. Cela provient du caractère quasi exhaustif des données, qui incluent un grand nombre de petites entreprises. Parmi les entreprises dont la valeur des investissements n’est pas manquante, la valeur moyenne déclarée est de 185 000 euros et l’investissement médian est de 4 000 euros, ce qui reflète en partie le fait que l’investissement tend à être réalisé « par lot »8 . La part moyenne du travail au sein de notre échantillon, calculée comme le rapport entre la somme de la masse salariale et des cotisations sociales et la valeur ajoutée, est de 75 %, proche de la médiane de 74 %9 . 3.2. Part agrégée du travail La figure I présente le rapport entre la rémunéra‑ tion des employés, cotisations sociales incluses, et la valeur ajoutée totale calculée à partir des données macro et micro de 1984 à 2016. La part agrégée du travail de notre échantillon d’entre‑ prises est inférieure à la part du travail moyenne non pondérée. Comme nous le discutons dans la section 4, les entreprises de plus grande taille affichent une part du travail moins élevée, ce qui fait baisser la part du travail moyenne pondérée. Dans l’échantillon des entreprises comptant au moins un employé, qui est retenu dans toute la suite de l’article, la part agrégée du travail diminue de 69.3 % en 1984 à 64.7 % en 2000, puis augmente et retrouve un niveau proche de son niveau initial, atteignant 69.1 % en 2016. Au niveau agrégé, cette part est de 67.1 % en moyenne sur la période. Les données agrégées incluent également, en principe, les entreprises qui ne comptent aucun employé. Inclure ces entre‑ prises dans notre estimation de la part agrégée sur les microdonnées réduit la part agrégée du travail d’environ 1 point de pourcentage : elle est de 66.1 % de la valeur ajoutée en moyenne sur la période et présente la même courbe en forme de U. Cette tendance au niveau agrégé diffère fortement de la diminution de la part du travail constatée aux États‑Unis par Autor et al. (2020) et Kehrig & Vincent (2018), ou dans d’autres travaux qui arguent que la France, à l’instar de nombreuses autres économies développées, a connu elle aussi une diminution de la part du travail sur le long terme (par exemple Grossman et al., 2018 ; Karabarbounis & Neiman, 2014). En raison de la courbe en forme de U de la part du travail, tant pour les données micro que pour 8. La moyenne de l’investissement moyen par entreprise sur l’ensemble des années est de 140 000 euros et la médiane de l’investissement moyen par entreprise sur l’ensemble des années est de 8 000 euros. 9. La section C1 de l’Annexe en ligne montre que nos données sont très représentatives de l’économie de marché, représentant 87 % des coûts du travail totaux et 84 % de la valeur ajoutée totale, avec très peu de variations au fil du temps. Figure I – Part globale du travail en France, 1984‑2016 0.58 0.60 0.62 0.64 0.66 0.62 0.64 0.66 0.68 0.70 0.72 1984 1988 1992 1996 2000 2004 2008 2012 2016 Microdonnées, toutes entreprises (axe de gauche) Microdonnées, entreprises avec employés (axe de gauche) Macrodonnées, entreprises constituées en société, y.c. agriculture, immobilier et finance (axe de gauche) Macrodonnées, entreprises constituées ou non en société, hors agriculture, immobilier et finance (axe de droite) Note : la part du travail est mesurée par le rapport entre la rémunération des employés, cotisations sociales incluses, et la valeur ajoutée totale des secteurs marchands. Voir section 3 pour des informations détaillées sur les différentes mesures. Source et champ : cf. tableau 1. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 139 Pouvoir de marché et part du travail les données macro, nous pensons que les conclu‑ sions établissant un recul séculaire en France sont erronées. Comme notre échantillon exclut les entreprises des secteurs de l’agriculture, de l’immobilier et de la finance, nous ne disposons pas de données agrégées pour la France sur ce champ ; toute‑ fois, la part globale du travail obtenue avec nos données est très proche de celle que nous pouvons mesurer sur un champ semblable, en termes de niveaux comme de tendances. La comptabilité nationale française fournit des comptes d’exploitation détaillés pour des secteurs d’activité plus larges que nos données dans diverses dimensions. La figure I montre la part du travail de l’ensemble des entreprises constituées en société, y compris dans l’agri‑ culture, l’immobilier et la finance. Avant 2000, le niveau moyen de la part du travail dans ces entreprises, tel que publié par l’Insee, correspond à la part agrégée du travail de notre échantillon, y compris des entreprises qui ne comptent aucun employé (65.4 %). Ce niveau moyen est d’abord légèrement supérieur (71.6 %) aux estimations sur notre échantillon (68.4 %) en 1984, puis légèrement inférieur en 2000 (63.4 % contre 64.1 % sur notre échantillon). Après 2000 toutefois, la part du travail dans les entreprises constituées en société augmente de 2 points de pourcentage mais celle de notre échantillon augmente de 4 points de pourcentage. La figure I montre également la part du travail totale (entreprises constituées en société ou non) à l’exclusion des secteurs de l’agriculture, de l’immobilier et de la finance. Les entreprises non constituées en société comptent princi‑ palement des travailleurs indépendants et très peu de travailleurs salariés. En conséquence, la part du travail totale publiée par l’Insee est inférieure : 61 % en moyenne sur la période contre 66.1 % avec nos données comprenant toutes les entreprises. Néanmoins, après 2000, et malgré cet écart entre les niveaux, l’augmen‑ tation de la part du travail totale mesurée pour la même composition sectorielle que celle de nos données correspond à l’augmentation de 4 points de pourcentage que nous observons dans nos données. Cet écart entre la part du travail observée dans le secteur des entreprises constituées en société et celle des secteurs marchands, hors agriculture, immobilier et finance, peut s’expliquer, entre autres, comme Cette et al. (2019) le suggèrent, par la crois‑ sance de la part du secteur immobilier (où la part du travail est proche de zéro) en termes de valeur ajoutée totale, qui a eu un impact négatif sur la part agrégée du travail des entreprises constituées en société, surtout durant le boom immobilier apparu après 2000. 4. Concentration et part du travail Dans cette section, nous réexaminons certains aspects importants de la concentration et des parts du travail en France. Nous constatons notamment que la hausse de la concentration y est associée à une hausse des parts du travail au niveau de l’entreprise, ainsi qu’à une redistribu‑ tion des parts de marché vers les entreprises de plus grande taille et où la part du travail est faible. 4.1. Hausse de la concentration La figure II montre la variation cumulée depuis 1984 de la moyenne, pondérée par le chiffre d’affaires, des indices de concentration secto‑ riels, chaque indice mesurant la concentration des chiffres d’affaires au niveau de chaque groupe de la nomenclature d’activités française niveau 3 (NAF niveau 3 ensuite). La part du chiffre d’affaires des entreprises appartenant au premier percentile et aux cinq premiers percen‑ tiles de chiffre d’affaires au sein de chaque branche a fortement augmenté depuis 1984 en moyenne, respectivement, de 9 et 7 points de pourcentage. Les ratios de concentration, qui correspondent aux parts des quatre et vingt plus grandes entreprises au sein de chaque branche, ont suivi une tendance différente avant 1995 mais ont augmenté de près de 4 points de pour‑ centage chacun en moyenne depuis cette date10. Globalement, nous constatons que les ratios de concentration et les parts des quantiles supé‑ rieurs ont augmenté dans plus de la moitié des 211 branches depuis 1995 : la hausse médiane des deux ratios de concentration se chiffre à 2 points de pourcentage et la hausse médiane des parts des percentiles supérieurs à 1 % et à 5 % se chiffre respectivement à 4 et 5 points de pourcentage11. Ces résultats sont en ligne avec les éléments empiriques rassemblés aux États‑Unis et dans d’autres pays de l’OCDE (CEA, 2016 ; Autor et al., 2020 ; Andrews et al., 2016). 4.2. Redistribution des parts du travail Dans la suite de Kehrig & Vincent (2018), nous décomposons les variations de la part agrégée 10. La médiane des branches (NAF à trois chiffres) compte environ 900 entreprises au cours d’une année donnée mais, dans la mesure où 25 % des branches comptent plus de 5 000 entreprises et où 25 % d’entre elles en comptent moins de 200, le nombre d’entreprises des tranches supé‑ rieures de 1 % et de 5 % varie grandement d’une branche à l’autre. La taille médiane de l’industrie manufacturière à trois chiffres est d’environ 500 et celle de l’industrie non manufacturière à trois chiffres est de 3 600. 11. La section C5 de l’Annexe en ligne détaille les résultats pour les indus‑ tries manufacturières et non manufacturières. 140 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 du travail afin de mieux comprendre si elles découlent de variations au niveau de l’entre‑ prise ou d’effets de composition. La figure III représente, pour chaque décile de la part du travail, la part du travail moyenne pondérée par la valeur ajoutée et la part de la valeur ajoutée dans la valeur ajoutée de la branche correspon‑ dant aux entreprises du décile concerné, pour les cinq premières et les cinq dernières années de l’échantillon. Les entreprises du décile inférieur de la part du travail de leur branche représentent 12 % de la valeur ajoutée de leur branche avant 1990, contre 16 % après 2010. La hausse des parts des différentes branches se confirme dans quatre des cinq déciles inférieurs de la part du travail, tandis que les cinq déciles supérieurs de Figure III – Répartition des parts du travail et de la valeur ajoutée 0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 0 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 10 20 30 40 50 60 70 80 90 100 Part de la valeur ajoutée Part moyenne du travail 1984-1989, part de la valeur ajoutée 2011-2016, part de la valeur ajoutée 1984-1989, part du travail 2011-2016, part du travail Note : les lignes illustrent la répartition brute des parts du travail sur l’ensemble des entreprises (échelle sur l’axe de droite). Les barres illustrent la part de la valeur ajoutée des entreprises de chaque décile non pondéré par la part du travail (échelle sur l’axe de gauche). Pour tenir compte des différences spécifiques à chaque branche dans la distribution jointe de la part du travail et de la valeur ajoutée, la moyenne de ces répartitions est calculée dans toutes les branches (NAF niveau 3), puis pondérée par la part de chaque branche dans la valeur ajoutée totale par période de cinq ans. Source et champ : cf. tableau 1. Figure II – Variation cumulée de la concentration des chiffres d’affaires -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04 0.05 -0.06 -0.04 -0.02 0 0.02 0.04 0.06 0.08 0.10 1984 1988 1992 1996 2000 2004 2008 2012 2016 Part des entreprises du 1 % le plus élevé (axe de gauche) Part des entreprises du 5 % le plus élevé (axe de gauche) Part des 4 plus grandes entreprises (axe de droite) Part des 20 plus grandes entreprises (axe de droite) Note : la figure montre la variation cumulée de la concentration des chiffres d’affaires dans les branches (NAF niveau 3). Les variations de la concentration entre différentes branches sont pondérées par la part de chaque branche dans le chiffre d’affaires total. Source et champ : cf. tableau 1. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 141 Pouvoir de marché et part du travail la part du travail représentent tous une moindre part de la valeur ajoutée de la branche dans la période 2011‑2016 que durant la période 1984‑1989. Les courbes illustrent la translation vers le haut de la distribution non pondérée des parts du travail : la part du travail moyenne de chaque décile est plus élevée après 2010 qu’avant 1990. Les barres verticales illustrent la hausse de la part de marché des entreprises où la part du travail est faible durant les trente dernières années. Afin de quantifier l’impact de ces dynamiques sur la part globale du travail, nous calculons les contributions aux variations de la part agrégée du travail de la redistribution entre les branches, de la redistribution entre les entreprises au sein de chaque branche et des parts du travail au sein des entreprises12. La figure IV présente les résultats de cette décomposition. La redistribution entre les branches ne joue qu’un rôle minime dans les variations de la part agrégée du travail. En revanche, la redistribution vers les entreprises dont la part du travail est faible a fait baisser la part agrégée du travail de 5 points de pourcentage au total depuis 1984. Cet impact est compensé par une translation vers le haut de la distribution de la part du travail, qui a fait augmenter la part agrégée du travail de 5 points de pourcentage. Comme Kehrig & Vincent (2018) le soulignent, cette décomposition regroupe les entreprises par quantiles de part du travail, ce qui nous permet de comparer deux distributions en équilibre statique. Elle est conceptuellement différente de la décomposition habituelle intra‑entreprise/ inter‑entreprises, car elle exclut l’impact de l’entrée ou de la sortie d’entreprises. Nous nous concentrons sur l’évolution à long terme de la distribution jointe des parts du travail et des parts de marché et non pas sur le rôle de l’entrée d’entre‑ prises ou de la trajectoire de certaines entreprises en particulier (voir l’Annexe en ligne C3). 4.3. Corrélation entre la hausse de la concentration et la redistribution des parts du travail Nous montrons maintenant que les variations de la concentration sectorielle sont liées à ces tendances de la part du travail. Nous estimons le lien, au niveau de chaque branche, entre les variations de la concentration et celles de la part du travail, avec la régression suivante : ∆ ∆ λ ψ ε jt = + λ Concjt FEt j + t , (12) où ∆Concjt est la variation, sur dix ans, du niveau de concentration de la branche j, représenté par la part du chiffre d’affaires des percentiles supérieurs à 1 % et à 5 %, FEt est un ensemble d’effets fixes temporels permettant de tenir compte des chocs spécifiques à chaque année et ∆λ jt est l’évolution de la part du travail de la branche j sur dix ans. Le tableau 2 présente les résultats. 12. Les détails de cette décomposition sont présentés à l’annexe 2. Figure IV – Décomposition de la part globale du travail -0.10 -0.09 -0.08 -0.07 -0.06 -0.05 -0.04 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 1984 1988 1992 1996 2000 2004 2008 2012 2016 Intra-branches & intra-quantiles Intra-branches & inter-quantiles Inter-branches Agrégé (intra & inter branches) Note : la figure présente les résultats de la décomposition de la part globale du travail décrite à l’annexe 2. Les quantiles de la part du travail sont calculés chaque année au sein des branches (NAF niveau 3). Source et champ : cf. tableau 1. 142 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Les deux premières colonnes montrent que la variation de la concentration sectorielle est négativement corrélée à la variation des parts du travail au niveau des branches. Ce lien est fort et reste valide pour tous les indicateurs de concentration. Nous constatons qu’une hausse de la concentration de 10 points de pourcentage est associée à une baisse comprise entre 0.7 et 1.1 de la part du travail moyenne pondérée de la branche. Ces résultats sont semblables à ceux documentés pour les États‑Unis (Autor et al., 2020). Nous examinons ensuite deux composantes de la variation de la part du travail sur dix ans : la contribution des effets de composition à la varia‑ tion de la part du travail, examinée au paragraphe précédent, et l’évolution de la part du travail moyenne des entreprises appartenant aux 5 % d’entreprises dont la part du travail est la plus faible au sein de chaque branche. Nous faisons de ces composantes la variable dépendante de l’équation (12). Nous constatons que les plus fortes hausses de la concentration sont associées à une contribution plus négative des effets de composition à la part agrégée du travail. Tous les coefficients sont négatifs et significatifs. Nous constatons égale‑ ment une corrélation positive entre la variation de la concentration et celle de la part du travail moyenne des entreprises où la part du travail est faible, définies comme celles dont la part se situe dans le quantile de 5 % du bas de la distri‑ bution de leur branche (NAF niveau 3). Dans la littérature, ces entreprises sont parfois appelées « hyper productives » (Kehrig & Vincent, 2018) ou « superstars » (Autor et al., 2020). Comme nous allons le montrer, les entreprises où la part du travail est faible sont généralement de plus grande taille dans notre échantillon. Ces résultats suggèrent que la corrélation négative entre la part du travail et la concentration ne découle pas d’une diminution de la part du travail des entre‑ prises dites « superstars » liée à l’augmentation de leurs parts de marché. 4.4. Part du travail et taille des entreprises En réalité, nous montrons que la corrélation négative entre la concentration et la redistri‑ bution vers les entreprises où la part du travail est faible découle en grande partie d’un lien décroissant de façon monotone (en moyenne) entre la part du travail et la taille de l’entreprise. Nous estimons la régression suivante : λ ε it FEsize FEjt it it = + + (13) où FEsizeit est un ensemble d’indicatrices repré‑ sentant la classe de taille de l’entreprise i au sein de la branche j en termes d’emploi à la date t et où FEjt est un ensemble d’effets fixes résultant d’une interaction de la branche (NAF niveau 3) j et de l’année. La figure V présente les résultats de cette régression, en considérant aussi bien la part du travail dans la valeur ajoutée que dans la production brute. Par rapport aux entreprises qui ne comptent que dix à vingt employés, les Tableau 2 – Corrélations entre les variations de la concentration et des parts du travail au niveau de la branche Part du travail de la branche Entre quantiles de part du travail À l’intérieur des quantiles inférieurs de la part du travail Part des entreprises du -0.0777 -0.0457 0.0097 1 % le plus élevé (0.0123) (0.0112) (0.0099) Part des entreprises du -0.1102 -0.1288 0.0092 5 % le plus élevé (0.0167) (0.0150) (0.0135) Observations 4 666 4 673 4 665 4 660 4 661 4 664 R2 0.0341 0.0347 0.0290 0.0405 0.0281 0.0292 Part des 4 plus grandes -0.0728 -0.0602 0.0772 entreprises (0.0147) (0.0133) (0.0119) Part des 20 plus grandes -0.1113 -0.1196 0.0615 entreprises (0.0168) (0.0152) (0.0137) Observations 4 649 4 648 4 645 4 645 4 651 4 650 R2 0.0320 0.0388 0.0325 0.0401 0.0366 0.0340 Note : chaque estimation est le résultat d’une estimation par les moindres carrés ordinaires au niveau des branches (NAF niveau 3), avec des effets fixes d’année. La variable dépendante des colonnes ‘Part du travail de la branche’ est la variation à long terme de la part agrégée du travail de la branche, mesurée par le rapport entre la somme des rémunérations du travail et des cotisations sociales, et la somme des valeurs ajoutées des entreprises de chaque branche. La variable dépendante des colonnes ‘Entre les quantiles de la part du travail’ et ‘À l’intérieur des quantiles inférieurs de la part du travail’ est la contribution de la variation de part agrégée du travail de la branche, selon la décomposition décrite à l’annexe 2, où les quantiles inférieurs sont les percentiles inférieurs à 5 %. Les variables indépendantes sont les variations de la part d’entreprises dont le chiffre d’affaires se situe dans les 1 % et 5 % les plus élevés et des 4 et 20 plus grandes entreprises. Source et champ : cf. tableau 1. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 143 Pouvoir de marché et part du travail entreprises de plus grande taille tendent à affi‑ cher une part du travail moins importante, même après contrôle des effets fixes de l’industrie et de l’année. Ce lien décroissant est monotone à tous les niveaux d’emploi. Les parts du travail des entreprises comptant 50 à 100 employés sont en général inférieures de 2 points de pourcentage à celles des entreprises qui n’en comptent que dix à vingt, pour la même branche et la même année. Pour les entreprises comptant 2 500 à 5 000 employés, l’écart passe à 5 points de pourcentage pour la part du travail dans la valeur ajoutée et à 7 points de pourcentage pour la part du travail dans la production. 5. Résultats de l’estimation Dans cette section, nous présentons tout d’abord les résultats de notre procédure d’estimation puis montrons comment les taux de marge ont évolué en France au niveau agrégé et au niveau de l’entreprise. Nous documentons des faits supplémentaires sur le pouvoir de marché et la concentration, ainsi que l’impact des variations du pouvoir de marché sur la part agrégée du travail, par rapport à d’autres facteurs technologiques. 5.1. Fonction de production Le tableau 3 présente les résultats d’une esti‑ mation glissante de la fonction de production, pour les 27 branches couvertes par nos données. Ces estimations sont obtenues tout d’abord en estimant les paramètres de la fonction de production β β j l ∈{ } , , j k β βj ll j , , β β kk j lk j , ; ; ; ; dans la branche j sur des échantillons à intervalles glissants de onze ans, puis en faisant la moyenne, pour chaque entreprise et chaque année, des différentes élasticités de la production estimées, selon les estimations obtenues sur des échantil‑ lons incluant cette année13 : β β jt n j glissant t n = =− + ∑1 11 5 5 où β j t est le paramètre estimé sur l’échantillon limité aux années t‑5 à t+5. Pour les cinq années au début et à la fin de notre échantillon, la moyenne est calculée à partir d’un plus petit nombre d’estimations. Les élasticités de la production peuvent également varier d’une entreprise à l’autre au sein d’un même secteur. Pour différents secteurs, nous présentons la moyenne et l’écart type des élasticités14. Dans la mesure où les rendements d’échelle varient d’une entreprise à l’autre, il est possible que de nombreuses entreprises au sein d’une même branche affichent des rendements d’échelle croissants alors que les rendements d’échelle moyens estimés de la branche sont proches de 1. En moyenne, l’élasticité de la production du travail se chiffre à 0.72 dans nos données. 13. Nous estimons la production pour chacun des 27 secteurs. Chaque secteur comprend plusieurs branches de la NAF niveau 3. La section C5 de l’Annexe en ligne présente les résultats de l’estimation non glissante. 14. Nous notons que quelques secteurs semblent présenter une élasti‑ cité du capital moyenne négative ou des rendements d’échelle faibles. La section C5 de l’Annexe en ligne présente les élasticités de la production médianes, qui sont moins influencées par les valeurs aberrantes. Figure V – Part du travail et taille -0.09 -0.08 -0.07 -0.06 -0.05 -0.04 -0.03 -0.02 -0.01 0 -0.07 -0.06 -0.05 -0.04 -0.03 -0.02 -0.01 0 20-50 50-100 100-250 250-500 500-1000 1000-2500 2500-5000 +5000 Part du travail (valeur ajoutée) Part du travail (production) Part moyenne du travail (valeur ajoutée) par rapport aux entreprises de 10-20 salariés Part moyenne du travail (production) par rapport aux entreprises de 10-20 salariés Note : la figure présente la part du travail moyenne conditionnelle, par taille d’entreprise, avec un intervalle de confiance à 99 %. Les moyennes sont conditionnelles à un ensemble d’effets fixes flexibles construit à partir de l’interaction des branches (NAF niveau 3) et de l’année. Source et champ : cf. tableau 1. 144 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 5.2. Taux de marge agrégé La partie gauche de la figure VI présente les variations des taux de marge moyens, pondérés par la valeur ajoutée et non pondérés, de toutes les entreprises de notre échantillon. Le taux de marge moyen non pondéré est inférieur au taux de marge moyen pondéré car les entreprises dont la valeur ajoutée est plus importante présentent en général un taux de marge plus élevé. Nous constatons que le taux de marge moyen non pondéré a diminué en France entre 1984 et 2016. Globalement, le taux de marge moyen non pondéré est passé de 1.3 à 1.0. Le taux de marge pondéré par la valeur ajoutée a quant à lui augmenté de 1.4 à 1.615. La partie droite de la figure VI montre la décomposition du taux de marge moyen pondéré entre les composantes intra‑quantiles et inter‑ quantiles de taux de marge. Elle montre combien il est important, pour interpréter la variation globale, de tenir compte des effets spécifiques à chaque branche et de séparer les contributions respectives des variations des parts de la valeur ajoutée à taux de marge constant, ou des varia‑ tions du taux de marge à parts de marché des entreprises constantes. La décomposition du taux de marge agrégé est le reflet de celle de la part agrégée du travail et montre que la composante intra‑quantiles a contribué négativement à l’évolution du taux de marge, tandis que la composante inter‑quan‑ tiles a contribué positivement. La contribution de la redistribution des parts entre les branches est négligeable. Les entreprises dont les taux de marge sont relativement plus élevés au sein de branches définies de manière étroite ont gagné des parts de marché, tandis que le taux de marge de l’entreprise type a légèrement diminué. 15. La section C5 de l’Annexe en ligne examine les résultats des indus‑ tries manufacturières et non manufacturières. La section C4 de l’Annexe en ligne discute d’autres méthodes d’estimation (non glissante et suivant la méthode de substitution d’Ackerberg et al., 2015). Tableau 3 – Élasticités moyennes de la production, estimation glissante θl θk Observations θl θk Observations Industries extractives 0.611 (0.199) 0.289 (0.162) 45 698 Gaz et électricité 0.697 (0.190) 0.236 (0.174) 22 243 Industries agro-alimentaires 0.754 (0.052) 0.127 (0.104) 1 277 913 Eau, assainissement, déchets 0.630 (0.178) 0.204 (0.146) 118 249 Textiles 0.553 (0.221) 0.135 (0.157) 282 598 Construction 0.611 (0.175) 0.078 (0.087) 4 969 117 Travail du bois, industries du papier et imprimerie 0.794 (0.110) 0.044 (0.104) 552 510 Commerce de gros et de détail 0.762 (0.175) 0.093 (0.145) 8 502 337 Cokéfaction et raffinage 0.533 (0.391) 0.251 (0.258) 2 472 Transport et entreposage 0.840 (0.156) 0.045 (0.148) 988 348 Industrie chimique 0.806 (0.143) 0.163 (0.122) 62 567 Hébergement et restauration 0.592 (0.174) 0.181 (0.133) 3 076 031 Industrie pharmaceutique 0.898 (0.359) 0.072 (0.286) 11 657 Édition, audiovisuel et diffusion 1.077 (0.245) -0.001 (0.215) 309 540 Caoutchouc et plastiques 0.763 (0.159) 0.125 (0.176) 245 896 Télécommunications 1.048 (0.242) -0.035 (0.217) 25 191 Métallurgie 0.719 (0.128) 0.111 (0.095) 545 742 Activités informatiques et services d’information 0.921 (0.140) 0.002 (0.140) 324 622 Produits informatiques, électroniques et optiques 0.747 (0.084) 0.095 (0.068) 110 072 Services juridiques, de comptabilité et d’ingénierie 0.843 (0.164) -0.020 (0.150) 1 499 590 Équipements électriques 0.766 (0.136) 0.127 (0.101) 50 476 Recherche-développement scientifique 0.856 (0.259) 0.015 (0.230) 30 461 Machines et équipements 0.808 (0.137) 0.094 (0.069) 161 603 Publicité et études de marché 0.867 (0.269) -0.067 (0.140) 406 636 Matériel de transport 0.834 (0.180) 0.121 (0.156) 71 000 Services administratifs et de soutien 0.757 (0.126) 0.039 (0.165) 1 401 753 Autres industries manufacturières 0.745 (0.129) 0.042 (0.080) 650 254 Total 0.724 (0.193) 0.086 (0.143) 25 744 576 Note : les colonnes θl et θk présentent l’élasticité de la production estimée moyenne en chaque facteur de production pour la fonction de production translog pour toutes les entreprises. Les écarts type (et non pas les erreurs-type) des élasticités de la production, dans l’ensemble des entreprises du même secteur, sont indiqués entre parenthèses. Source et champ : cf. tableau 1. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 145 Pouvoir de marché et part du travail Figure VI – Taux de marge global 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1984 1988 1992 1996 2000 2004 2008 2012 2016 -0.05 -0.03 -0.01 0.01 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 1984 1988 1992 1996 2000 2004 2008 2012 2016 Pondéré Non pondéré Intra-branches & intra-quantiles Intra-branches & inter-quantiles Inter-branches Agrégé (intra & inter branches) (a) Niveau (b) Décomposition Note : la partie gauche présente les niveaux du taux de marge moyen pondéré et non pondéré selon l’estimation glissante d’une fonction translog de production en termes de valeur ajoutée. La partie droite présente les résultats de la décomposition du taux de marge agrégé décrite dans l’annexe 2. Les quantiles de taux de marge sont calculés chaque année au sein des branches (NAF niveau 3). Source et champ : cf. tableau 1. 5.3. Taux de marge et concentration Comme pour la part du travail, nous examinons si la hausse observée de la concentration est corrélée aux variations du taux de marge, au niveau agrégé ou le long de la distribution des taux de marge. Pour cela, nous estimons le lien, au niveau de la branche, entre l’évolution à long terme de la concentration et du taux de marge agrégé dans chaque branche, ou de ses contri‑ butions. Nous estimons la régression suivante : ∆ ∆ µ ψ ε jt = + µ Concjt FEt j + t (14) où ∆µ jt est la variation du niveau du taux de marge agrégé du secteur j sur dix ans, ou l’une de ses contributions selon la décomposition décrite à l’annexe 2. Le tableau 4 présente les résultats de l’estima‑ tion de l’équation (14). Les deux premières colonnes montrent qu’il existe un lien à long terme positif et significatif entre l’évolution du taux de marge agrégé et l’évolution de la concen‑ tration au niveau des groupes de la nomenclature d’activités françaises. Ce lien est important et reste valide pour tous les indicateurs de la concentration. Toujours comme pour la part du travail, nous nous demandons si ce résultat découle d’une corrélation entre la hausse de la concentration et la redistribution des parts de la valeur ajoutée des entreprises dont les taux de marge sont faibles vers celles dont les taux de marge sont élevés. Les coefficients de la troisième et de la quatrième colonne du tableau 4 sont les résultats de l’estimation de l’équation (14), où la variable dépendante est la composante inter‑quantiles de l’évolution du taux de marge agrégé. Dans les deux dernières colonnes, la variable dépendante est la composante intra‑quantiles des entreprises dont les taux de marge sont élevés, définies comme celles dont le taux de marge se situe dans les 5 % les plus élevés de leur branche. On constate une corrélation positive entre la hausse de la concentration et la composante inter‑quan‑ tiles de l’évolution du taux de marge agrégé. Cela signifie que cette composante inter‑quantiles a plus contribué à l’augmentation de la marge agrégée dans les branches où la concentration est devenue plus prononcée. Les cinquième et sixième colonnes du tableau 4 n’apportent aucun élément prouvant que la hausse de la concentration est corrélée à une augmentation des taux de marge dans les quantiles supérieurs. Les corrélations avec les variations des parts du chiffre d’affaires parmi les 1 % et 5 % les plus élevés ne sont pas fortement positives, les corrélations avec les variations des parts des quatre et vingt plus grandes entreprises sont toutes négatives et sont significatives au seuil de 5 % quand la concentration est mesurée par la part des quatre plus grandes entreprises16. 16. Voir la section C5 de l’Annexe en ligne pour des résultats sur le champ des industries manufacturières ou non manufacturières. 146 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Le fait que les taux de marges des entreprises à taux de marge élevé n’apparaissent pas corrélés à la hausse de la concentration correspond aux théories selon lesquelles les entreprises à productivité élevée et taux de marge élevé bénéficient davantage de chocs positifs (tels que des chocs de la demande d’exportation) que les entreprises moins productives, et se développent sans augmenter leurs taux de marge (voir par exemple Aghion et al., 2019). Toutefois, cela contraste avec les résultats documentés pour les États‑Unis par De Loecker et al. (2020), selon lesquels les taux de marge en haut de la distribution ont contribué à hauteur d’un tiers à l’augmentation globale des taux de marge moyens pondérés. Néanmoins, De Loecker et al. (2020) ne démontrent pas que l’augmentation des taux de marge de ces entreprises est corrélée, au niveau de la branche, avec le phénomène de redistribution des parts de marché ou avec la hausse de la concentration. 5.4. Taux de marge et taille des entreprises Comme pour la part du travail, nous vérifions si les taux de marge augmentent en fonction de la taille de l’entreprise, ceci afin de mieux comprendre la corrélation entre la part croissante des plus grandes entreprises dans le chiffre d’af‑ faires total de chaque branche et la redistribution des parts de marché vers les entreprises dont les taux de marge sont élevés. Nous estimons la régression suivante : µ ε it FEsize FEjt it it = + + (15) où FEsizeit est un ensemble d’indicatrices repré‑ sentant la classe de taille de l’entreprise i au sein de la branche j en termes d'emploi à la date t et où FEjt est un ensemble d’interactions d’effets fixes de la branche (NAF niveau 3) j et l’année. La figure VII présente les résultats de cette régression. Nous constatons que les taux de marge estimés sont plus élevés parmi les entre‑ prises de plus grande taille. Les entreprises comptant plus de 5 000 employés affichent, en moyenne, des taux de marge supérieurs de 30 points de pourcentage à ceux des entreprises qui ne comptent que dix à vingt employés, et ce dans la même branche et la même année. Ce lien croissant s’observe à tous les niveaux d’emploi, tant pour les taux de marge obtenus avec des estimations glissantes que non glissantes. Le taux de marge est défini à l’équation (4) comme étant le rapport entre l’élasticité de la production au facteur travail et la part du travail. Il est important de souligner que, dans la mesure où l’élasticité de la production au travail varie d’une entreprise à l’autre, le taux de marge n’est pas parfaitement corrélé à la part du travail et le lien positif entre le taux de marge d’une entre‑ prise et sa taille ne découle donc pas directement du lien négatif entre sa part du travail et sa taille, que nous avons examiné à la sous-section 4.4. 5.5. Lien entre les parts du travail et les taux de marge Dans cette sous‑section, nous revenons à la part du travail et nous nous demandons si les Tableau 4 – Corrélations entre les variations de la concentration et du taux de marge au niveau du secteur Taux de marge agrégé du secteur Entre les quantiles de taux de marge À l’intérieur des quantiles supérieurs de taux de marge Part des entreprises du 0.2640 0.0790 0.0092 1 % le plus élevé (0.0257) (0.0245) (0.0145) Part des entreprises du 0.3577 0.1460 0.0400 5 % le plus élevé (0.0353) (0.0337) (0.0199) Observations 4 660 4 660 4 654 4 654 4 663 4 663 R2 0.0569 0.0586 0.0120 0.0140 0.0168 0.0177 Part des 4 plus grandes 0.2098 0.0995 -0.0536 entreprises (0.0321) (0.0298) (0.0175) Part des 20 plus grandes 0.1702 0.1101 -0.0242 entreprises (0.0372) (0.0346) (0.0202) Observations 4 647 4 646 4 644 4 644 4 650 4 650 R2 0.0482 0.0447 0.0108 0.0112 0.0172 0.0173 Note : chaque estimation est le résultat d’une estimation par les moindres carrés ordinaires au niveau des branches (NAF niveau 3) avec des effets fixes d’année. La variable dépendante des colonnes ‘Taux de marge agrégé de la branche’ est la variation à long terme du taux de marge agrégé de chaque branche. La variable dépendante des colonnes ‘Entre les quantiles de taux de marge’ et ‘À l’intérieur des quantiles supérieurs de taux de marge’ est la contribution du taux de marge agrégé de la branche, selon la décomposition décrite à l’annexe 2, où les quantiles supérieurs sont les percentiles supérieurs à 5 %. Les taux de marge sont calculés à l’aide d’une estimation glissante d’une fonction de production translog. Les variables indépendantes sont les variations de la part du chiffre d’affaires des entreprises du 1 % et 5 % les plus élevés et des 4 et 20 entreprises les plus grandes. Source et champ : cf. tableau 1. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 147 Pouvoir de marché et part du travail variations de la part du travail au niveau de l’entreprise découlent principalement des taux de marge (les parts du travail augmentent‑elles parce que les taux de marge diminuent ?) ou bien de la technologie (les parts du travail augmen‑ tent‑elles parce que l’intensité en travail a augmenté dans la production ?). Premièrement, nous constatons qu’il existe un lien négatif clair entre les parts du travail et les taux de marge au niveau des entreprises en France. Nous estimons la régression suivante : λ φµ ε it = +it FEijt + it (16) où µit est la marge de l’entreprise i durant l’année t, λit est la part du travail et FEijt est un ensemble d’effets fixes, au niveau soit de l’industrie soit de l’entreprise, et de l’année. Le tableau 5 présente les résultats et montre que les entreprises dont les taux de marge sont élevés affichent des parts du travail plus faibles, dans l’ensemble des branches et entre les entreprises d’une même branche. Nous constatons également que la part du travail d’une entreprise diminue à mesure que son taux de marge augmente. La valeur absolue du coefficient φ varie d’environ Figure VII – Marge et taille 0 0.05 0.10 0.15 0.20 0.25 0.30 0.35 20-50 50-100 100-250 250-500 500-1000 1000-2500 2500-5000 +5000 Taux de marge (estimations non glissantes) Taux de marge (estimations glissantes) Taux de marge moyen, par rapport aux entreprises de 10-20 salariés Note : la figure présente le taux de marge moyen, par taille d’entreprise, avec un intervalle de confiance de 99 %. Les moyennes sont conditionnelles à un ensemble d’effets fixes flexibles construit à partir de l’interaction des branches (NAF niveau 3) et de l’année. Source et champ : cf. tableau 1. Tableau 5 – Corrélation entre la part du travail et le taux de marge Variable dépendante : part du travail Pas de taille limite Plus de 50 employés Pas d’effets fixes Effets fixes branche Effets fixes entreprise Pas d’effets fixes Effets fixes branche Effets fixes entreprise Taux de marge -0.3173 -0.3520 -0.3370 -0.4070 -0.4351 -0.4797 (0.0041) (0.0022) (0.0027) (0.0054) (0.0035) (0.0044) Observations 25 554 561 25 554 533 25 092 587 808 003 807 805 789 488 R2 0.407 0.489 0.761 0.493 0.582 0.805 Plus de 100 employés Plus de 1 000 employés Pas d’effets fixes Effets fixes branche Effets fixes entreprise Pas d’effets fixes Effets fixes branche Effets fixes entreprise Taux de marge -0.3842 -0.4163 -0.4554 -0.3270 -0.3709 -0.3912 (0.0053) (0.0041) (0.0053) (0.0050) (0.0077) (0.0125) Observations 398 301 398 018 390 768 26 684 25 305 24 839 R2 0.483 0.594 0.814 0.471 0.710 0.892 Note : chaque estimation est le résultat d’une estimation par les moindres carrés ordinaires de la part du travail au niveau de l’entreprise sur les taux de marge, pour quatre échantillons : toutes les entreprises, entreprises de plus de 50 employés, entreprises de plus de 100 employés et entreprises de plus de 1 000 employés. Les taux de marge sont calculés par l’estimation glissante d’une fonction de production translog. Toutes les colonnes incluent les effets fixes de l’année. Les erreurs type sont clusterisées au niveau de la branche et de l’année. Source et champ : cf. tableau 1. 148 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 0.3 à 0.5 selon l’estimation : pour toute augmen‑ tation de 10 points de pourcentage du taux de marge de l’entreprise, sa part du travail diminue de 3 points de pourcentage. Pour finir, comme le montre le coefficient de détermination de la régression sans effets fixes, l’hétérogénéité des taux de marge explique 45 % de l’hétérogé‑ néité des parts du travail dans l’ensemble des entreprises. Les différentes parties du tableau montrent que ce lien reste valide statistiquement et quantitativement pour différents groupes de taille. Pour extrapoler à l’économie globale ces résultats obtenus au niveau de l’entreprise, il faut garder à l’esprit le fait que, dans ce contexte, l’entreprise représentative n’existe pas. Rappelons que les équations (6) et (7) montrent, au niveau d’une entreprise indivi‑ duelle, la part du travail comme le produit de l’intensité de travail, des rendements d’échelle et de l’inverse du taux de marge λ α γ µ   it = it it it − 1 mais cela n’est plus valide au niveau agrégé. À partir de l’équation (8), nous décomposons maintenant les variations de la part agrégée du travail entre les contributions de l’intensité en travail, des rendements d’échelle et des taux de marge, soit en appliquant l’approche de l’« entreprise représentative » et en calculant les contributions des moyennes pondérées de chaque composante de la part agrégée du travail (en ignorant donc la redistribution entre les entreprises), soit en isolant la contribution de la redistribution et en calculant les contribu‑ tions des moyennes non pondérées de chaque composante17. La partie gauche de la figure VIII présente les résultats de la décomposition pour l’entreprise représentative. La variation totale de la part agrégée du travail entre 1984 et 2016 est faible et positive et, si l’on ignore l’impact de la redis‑ tribution, le taux de marge agrégé a contribué négativement à la part agrégée du travail. Cela correspond aux précédentes constatations selon lesquelles le taux de marge agrégé a augmenté entre 1984 et 2016. La somme des contribu‑ tions de l’intensité en travail et des rendements d’échelle – en d’autres termes, la contribution moyenne pondérée de l’élasticité de la produc‑ tion au travail – est positive, ce qui suggère que l’« intensité en travail » a augmenté au sein de l’économie française durant la période. Toutefois, si l’on tient compte de la redistri‑ bution, on constate des différences dans les déterminants sous‑jacents de la dynamique de la part globale du travail en France. La partie droite de la figure VIII présente les résultats de la décomposition en isolant la contribution de la redistribution. Cette contribution est néga‑ tive et très importante, comme nous l’avons montré aux figures IV et III. Les taux de marge au niveau des entreprises ont contribué posi‑ tivement à la part agrégée du travail, tandis que les rendements d’échelle et l’intensité de travail au niveau de l’entreprise ont contribué négativement. 17. Voir l’annexe 3 pour les détails de la décomposition. Figure VIII – Contributions à l’évolution de la part agrégée du travail -0.10 -0.08 -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06 0.08 0.10 -0.20 -0.15 -0.10 -0.05 0.00 0.05 0.10 0.15 0.20 Décomposition Décomposition Covariance Taux de marge Rendements d’échelle Intensité du travail Part agrégée du travail (a) Entreprise représentative (b) Avec redistribution Redistribution Note : la figure présente la décomposition de la variation de la part agrégée du travail entre 1984 et 2016, sur la base d’une estimation translog non glissante et glissante de la fonction de production pour la valeur ajoutée. Voir l’annexe 3 pour des informations détaillées. Source et champ : cf. tableau 1. ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 149 Pouvoir de marché et part du travail * * * Dans cet article, nous ne constatons aucune hausse du pouvoir de marché en France : les taux de marge au niveau de l’entreprise ont en moyenne diminué et la hausse de la concen‑ tration n’est pas corrélée à l’augmentation des taux de marge du haut de la distribution. En revanche, ces évolutions sont corrélées à la redistribution importante des parts de marché vers les entreprises où la part du travail est faible et dont les taux de marge sont élevés, ce qui a fait augmenter le taux de marge agrégé. Dans la mesure où ces entreprises sont généralement de plus grande taille, cette redistribution se traduit par une hausse de la concentration. Cette redistribution des parts de marché vers les grandes entreprises est cohérente avec de nombreux résultats montrant que les écarts se creusent entre les entreprises (Decker et al., 2016a, 2016b, 2016c ; Andrews et al., 2016 ; Karahan et al., 2019). Toutefois, la hausse de la concentration constatée en parallèle avec la relative stabilité des taux de marge au niveau des entreprises des quantiles supérieurs soulève des questions sur l’interprétation de la concentration, au‑delà de l’exemple français. La redistribution des parts de marché vers les grandes entreprises et l’augmentation de la part du travail au sein des entreprises pourraient toutes les deux s’expliquer par un renforcement de la concurrence de type winner‑takes‑most, comme le montrent Autor et al. (2020) : à mesure que les consommateurs deviennent plus sensibles aux prix pratiqués par les entreprises, les entreprises les plus produc‑ tives et de plus grande taille gagnent des parts de marché mais leur pouvoir de marché individuel diminue. Ce renforcement de la concurrence pourrait découler de la concurrence internatio‑ nale (Bonfiglioli et al., 2019 ; Panon, 2020). Toutefois, comme nos résultats restent valides sur de larges secteurs de l’économie française, y compris l’industrie non manufacturière, des facteurs autres que la concurrence internationale pourraient être en jeu. Par exemple, des facteurs technologiques tels que l’émergence de plate‑ formes en ligne et de sites de comparaison de prix pourraient expliquer pourquoi le pouvoir de marché a diminué au niveau de l’entreprise. L’explication classique d’un renforcement de la concurrence donne lieu à de nombreuses prédic‑ tions cohérentes avec les faits empiriques mis en évidence ici. Nous ne nous prononçons pas sur la source du pouvoir de marché, et notamment ne tentons pas de dire pourquoi il existe un lien croissant entre la taille d’une entreprise et ses taux de marge : l’élasticité‑prix de la demande peut diminuer avec la quantité, ou bien les grandes entreprises peuvent être suffisamment grandes pour influencer le prix d’équilibre et agir de façon stratégique en conséquence. Toutefois, dans les deux cas, tout renforcement de la concurrence a un impact ambigu sur les taux de marges des grandes entreprises : à taille constante, l’intensification de la concurrence tend à faire diminuer le taux de marge des plus grandes entreprises, mais, en raison de la redis‑ tribution des parts de marché, ces entreprises croissent et leur taux de marge augmente. En termes qualitatifs, il est donc possible d’observer une augmentation des taux de marge des plus grandes entreprises, comme De Loecker et al. (2020) l’ont constaté aux États‑Unis, ou bien leur stabilité ou leur diminution, comme nous le constatons en France. Lien vers les Annexes en ligne : https://insee.fr/fr/statistiques/fichier/4997853/ES-520-521_BauerBoussard_Annexes_en_ligne.pdf 150 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 BIBLIOGRAPHIE Ackerberg, D., Caves, K. & Frazer, G. (2015). Identification Properties of Recent Production Function Estimators. Econometrica, 83(6), 2411–2451. https://doi.org/10.3982/ECTA13408. Aghion, P., Bloom, N., Blundell, R., Griffith, R. & and Howitt, P. (2005). Competition and innovation: an inverted‑U relationship. The Quarterly Journal of Economics, 120(2), 701–728. https://doi.org/10.1093/qje/120.2.701 Aghion, P., Bergeaud, A., Boppart, T., Klenow, P. J. & Li, H. (2019). A Theory of Falling Growth and Rising Rents. Federal Reserve Bank of San Francisco, Working Paper N°2019‑11 https://doi.org/10.24148/wp2019‑11 Andrews, D., Criscuolo, C. & Gal, P. (2016). The Best versus the Rest: The Global Productivity Slowdown, Technology Divergence across Firms and the Role of Public Policy. OECD Productivity Working Paper N°5. https://doi.org/10.1787/63629cc9-en Autor, D., Dorn, D., Katz, L.F., Patterson, C. & Van Reenen, J. (2020). The Fall of the Labor Share and the Rise of Superstar Firms. The Quarterly Journal of Economics, 135(2), 645–709. https://doi.org/10.1093/qje/qjaa004 Baqaee, D.R. & Farhi, E. (2020). Productivity and Misallocation in General Equilibrium. The Quarterly Journal of Economics, 135(1), 105–163. https://doi.org/10.1093/qje/qjz030 Bauer, A., Garbinti, B. & Georges‑Kot, S. (2018). Financial Constraints and Self‑Employment in France, 1945‑2014. Insee, Document de travail N° G018/08. https://www.insee.fr/en/statistiques/3640484 Barkai, S. (2020). Declining Labor and Capital Shares, Journal of Finance, 75(5), 2421–2463. https://doi.org/10.1111/jofi.12909 Berlingieri, G., Blanchenay, P. & Criscuolo, C. (2017), The great divergence(s). OECD Science, Technology and Industry Policy Papers N°39, OECD Editions, Paris, https://doi.org/10.1787/953f3853‑en. Blundell, R. & Bond, S.(2000). GMM Estimation with persistent panel data: an application to production func‑ tions. Econometric Reviews, 19(3), 321–340, 2000. https://doi.org/10.1080/07474930008800475 Bonfiglioli, A., Crinò, R & Gancia, G. (2019). Concentration in International Markets: Evidence from US Imports. CEPR Discussion Paper N°13566. https://ssrn.com/abstract=3346357 Boussard, J. & Lee, R. (2020). Competition, Profit Share and Concentration. Insee, Document de travail N°G2020/04. https://www.insee.fr/en/statistiques/4651858 Caliendo, L., Monte, F. & Rossi‑Hansberg, E. A. (2015). The Anatomy of French Production Hierarchies. Journal of Political Economy, 123(4), 1–75. https://doi.org/10.1086/681641 Card, D., Heining, J. & Kline, P. (2013). Workplace Heterogeneity and the Rise of West German Wage Inequality. The Quarterly Journal of Economics, 128(3), 967–1015. https://doi.org/10.1093/qje/qjt006 CEA (2016). Benefits of competition and indicators of market power. Council of Economic Advisers, Issue Brief, 2016. https://obamawhitehouse.archives.gov/sites/default/files/page/files/20160414_cea_competition_issue_brief.pdf Cette, G., Koehl, L. & Philippon, T. (2019). The Labor Schare in the Long Term: A Decline? Economie et Statistique / Economics and Statistics, 510‑511‑512, 35–51. https://doi.org/10.24187/ecostat.2019.510t.1993 De Loecker, J., Eeckhout, J. & Unger, G. (2020). The Rise of Market Power and the Macroeconomic Impli‑ cations. The Quarterly Journal of Economics, 135(2), 561–644. https://doi.org/10.1093/qje/qjz041 De Loecker, J. & Warzynski, F. (2012). Markups and Firm‑Level Export Status. American Economic Review, 102(6), 2437–2471. https://doi.org/10.1257/aer.102.6.2437 Decker, R. A., Haltiwanger, J., Jarmin, R. S. & Miranda, J. (2016a). Where has all the skewness gone? The decline in high‑growth (young) firms in the U.S, European Economic Review, Elsevier, vol. 86(C), pages 4–23. https://doi.org/10.1016/j.euroecorev.2015.12.013 Decker, R. A., Haltiwanger, J., Jarmin, R. S. & Miranda, J. (2016b). The Secular Decline in Business Dyna‑ mism in the U. S. American Economic Review: Papers & Proceedings, 106(5), 203–207. http://dx.doi.org/10.1257/aer.p20161050 Decker, R. A., Haltiwanger, J., Jarmin, R. S. & Miranda, J. (2016c). Declining Business Dynamism: What We Know and the Way Forward. American Economic Review, 106 (5), 203–07. http://doi.org/10.1257/aer.p20161050 Deroyon, J. (2015). De nouvelles données issues du profilage des groupes. In: Insee Références, Les entreprises en France, 39–52. https://www.insee.fr/fr/statistiques/1906511?sommaire=1906539 Di Giovanni, J., Levchenko, A. A. & Méjean, I. (2014). Firms, Destinations, and Aggregate Fluctuations. Econometrica, 82(4), 1303–1340. https://doi.org/10.3982/ECTA11041 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 151 Pouvoir de marché et part du travail Doraszelski, U. & Jaumandreu, J. (2019). Using Cost Minimization to Estimate Markups. https://faculty.wharton.upenn.edu/wp‑content/uploads/2019/07/robust_markups20190625.pdf Elsby, M. W. L., Hobijn, B. & Sahin, A. (2013). The decline of the US labor share. Brookings Papers on Economic Activity, Fall(2), 1–63. https://www.brookings.edu/wp‑content/uploads/2016/07/2013b_elsby_labor_share.pdf Garbinti, B., Goupille‑Lebret, J. & Piketty, T. (2018). Income inequality in France, 1900‑2014: Evidence from Distributional National Accounts (DINA). Journal of Public Economics, 162(C), 63–77. https://doi.org/10.1016/j.jpubeco.2018.01.012 Gutiérrez, G. & Philippon, T. (2017). Investmentless growth: An empirical investigation. Brookings Papers on Economic Activity, Fall(1), 89–190. https://www.brookings.edu/wp‑content/uploads/2018/02/gutierreztextfa17bpea.pdf Gutiérrez, G. & Philippon, T. (2018). How EU Markets Became Free: A Study of Institutional Drift. National Bureau of Economic Research, Working Paper N°24700. https://www.nber.org/papers/w24700 Grassi, B. (2017). IO in I‑O: Competition and Volatility in Input‑Output Networks. https://sites.google.com/site/grassibasile/home/research/job‑market‑paper Grossman, G. M., Helpman, E., Oberfield, E. & Sampson, T. (2018). The Productivity Slowdown and the Declining Labor Share. Society for Economic Dynamics, 2018 Meeting Paper N°169. https://economicdynamics.org/meetpapers/2018/paper_169.pdf Hopenhayn, H. A. (1992). Entry, Exit, and firm Dynamics in Long Run Equilibrium. Econometrica, 60(5), 1127–1150. https://doi.org/10.2307/2951541 Karabarbounis, L. & Neiman, B. (2014). The Global Decline of the Labor Share. The Quarterly Journal of Economics, 129(1), 61–103. https://doi.org/10.1093/qje/qjt032 Karabarbounis, L. & Neiman, B. (2018). Accounting for Factorless Income. National Bureau of Economic Research, Working Paper N°24404. https://www.nber.org/papers/w24404 Karahan, F. Pugsley, B. & Sahin, A. (2019). Demographic Origins of the Startup Deficit. Federal Reserve Bank of New York, Staff Reports N°888. https://www.newyorkfed.org/medialibrary/media/research/staff_reports/sr888.pdf Kehrig, M. & Vincent, N. (2018). The Micro‑Level Anatomy of the Labor Share Decline. National Bureau of Economic Research, Working Paper N°25275. https://www.nber.org/papers/w25275 Lashkari, D., Bauer, A. & Boussard, J. (2019). Information Technology and Returns to Scale. Banque de France Working Paper N°737, 2019. https://publications.banque‑france.fr/en/information‑technology‑and‑returns‑scale Levinsohn, J., Petrin, A. & Levinsohn, J. (2003). Estimating Production Functions Using Inputs to Control for Unobservables. Review of Economic Studies, 70(2), 317–341. https://doi.org/10.1111/1467‑937X.00246 Mayer, T., Melitz, M. J. & Ottaviano, G. I. P. (2014). Market size, competition, and the product mix of expor‑ ters. American Economic Review, 104(2), 495–536. https://doi.org/10.1257/aer.104.2.495 Melitz, M. J. (2003). The Impact of Trade on Intra‑Industry Reallocations and Aggregate Industry Productivity. Econometrica, 71(6), 1695–1725. https://doi.org/10.1111/1468‑0262.00467 Olley, G. S. & Pakes, A. (1996). The Dynamics of Productivity in the Telecommunications Equipment Industry. Econometrica, 64(6), 1263–1297. https://doi.org/10.2307/2171831 Panon, L. (2020). Labor Share, Foreign Demand and Superstar Exporters. https://ludovicrwpanon.github.io/ludovicpanon/JMP_Panon.pdf Piketty, T., Saez, E. & Zucman, G. (2018). Distributional national accounts: Methods and estimates for the United States. The Quarterly Journal of Economics, 133(2), 553–609. https://doi.org/10.1093/qje/qjx043 Song, J, Price, D. J., Guvenen, F., Bloom, N. & von Wachter, T. (2018). Firming Up Inequality. The Quarterly Journal of Economics, 134(1), 1–50. https://doi.org/10.1093/qje/qjy025 Van Ark, B. & Jäger, K. (2017). Recent Trends in Europe’s Output and Productivity Growth Performance at the Sector Level, 2002‑2015. International Productivity Monitor, 33(1), 8–23. http://www.csls.ca/ipm/33/vanArk_Jager.pdf Van Reenen, J. (2018). Increasing Differences between firms: Market Power and the Macro‑Economy. Center for Economic Performance, Working Paper N°1576 http://cep.lse.ac.uk/pubs/download/dp1576.pdf 152 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Nomenclature d’activités française La classification des branches d’activité a évolué entre 1985 et 2016. De 1985 à 1993, la classification en vigueur était la Nomenclature d’activités et de produits (NAP). Elle est devenue la Nomenclature d’activités française (NAF) en 1993, puis NAF rév. 1 en 2003 puis enfin NAF rév. 2 en 2008. Il n’existe pas de correspondance bijec‑ tive entre ces nomenclatures. Pour cette raison, nous avons décidé de relier chaque code NAP au code NAF qui lui est le plus souvent associé. De même, nous relions chaque code NAF au code NAF rév. 1 qui lui est le plus souvent associé, et chaque code NAF rév. 1 au code NAF rév. 2 qui lui est le plus souvent associé. Ainsi, nous pouvons attribuer à chaque entreprise, pour chaque année, le code de la nomenclature NAF rév. 2 de son secteur ou sa branche. Définitions des variables Nos données fournissent des informations sur les ventes totales de biens, de services et de marchandises, ainsi que sur les variations de la production stockée et de la production immobilisée. S’agissant des facteurs de production, elles fournissent la valeur comptable du capital corporel et incorporel, la masse salariale et les cotisations sociales, ainsi que le coûts des matériaux, marchandises et autres facteurs intermédiaires. Toutes les données relatives au chiffre d’affaires, au coût des variations des stocks et au coût des facteurs de production sont enregistrées séparément pour les marchandises et les autres facteurs de production. Nous suivons les définitions de la comptabilité nationale : nous définissons la production comme étant la somme de la production immobilisée, des variations de stocks et des ventes, à l’exclusion du coût des marchandises, et nous définis‑ sons les facteurs intermédiaires comme étant la somme des dépenses en matériaux minorées des variations des stocks et d’autres facteurs de production externes. Sur la base de ces définitions, la production brute inclut la marge nette réalisée sur les marchandises vendues et non pas les ventes brutes de marchandises. Il est important de souligner que nos données incluent également le coût des services externes achetés dans les facteurs intermédiaires. Nos micro‑ données sont libellées en prix courants et nous n’observons pas les prix des facteurs intermédiaires et du capital, ni les prix à la produc‑ tion, au niveau de l’entreprise. Nous déflatons les valeurs nominales de la production brute, des facteurs intermédiaires et du stock de capital au niveau des secteurs NA38, à l’aide d’indices de prix des investissements et des extrants des comptes nationaux annuels publiés par l’Insee en septembre 2018. Nettoyage des données Nous excluons les micro‑entreprises et les entreprises profilées des données de la période 2008‑2016. Les observations entreprise‑année avec des parts du travail très élevées ou négatives, qui découlent d’observations de valeur ajoutée très faible ou négative par rapport à la moyenne de l’entreprise sur l’ensemble des années, sont rempla‑ cées par la part du travail moyenne de l’entreprise sur l’ensemble des années. Les mesures de concentration sont calculées à partir des chiffres d’affaires de l’ensemble de l’échantillon d’entreprises, tandis que la décomposition de la part du travail et toutes les analyses ultérieures sont menées sur l’échantillon des entreprises comptant au moins un employé salarié. Les paramètres de la fonction de produc‑ tion translog sont estimés sur un plus petit échantillon d’entreprises affichant un chiffre d’affaires supérieur à 1 million et une valeur ajou‑ tée, une consommation intermédiaire et un stock de capital positifs. Nous excluons également de notre estimation les entreprises de l’échantillon pour lesquelles le salaire, la productivité du travail ou le capital par employé se situent au‑dessus ou en‑dessous de 0.1 % dans la distribution. ANNEXE 1_____________________________________________________________________________________________ DONNÉES ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 153 Pouvoir de marché et part du travail Décomposition entre branches Soit k K ∈{ } 1,, une classification des branches (par exemple niveau 3 de la nomenclature dans les micro‑données) et soit M une mesure agrégée (part du travail ou taux de marge). Parallèlement, soit Sk et Mk respectivement le poids de la branche dans la valeur ajoutée totale ou le chiffre d’affaires total et la mesure moyenne agrégé de la branche. Définissons pour toute variable X : ∆X X t t ≡ − X X t t − − 1 1 ≡ + ( ) X X t t 1 2 , , et ∆T T X X ≡ − X0 où T est la dernière période et 0 est la première période. Notre première décomposition est la suivante(i) : ∆ ∆ T ∆ t T k kt kt t T k M M ≡ + Skt = = ∑∑ ∑∑ 1 1 S au sein des branches    Mkt entre les branchess     (B.1) Cela nous permet d’établir la mesure dans laquelle la variation agré‑ gée du taux de marge ou de la part du travail découle d’une varia‑ tion des parts des branches ou d’une variation au sein d’une même branche, quelle que soit la composition sectorielle de l’économie. Décomposition dans la branche Nous voulons décomposer les variations au niveau de la branche entre variations de la distribution des taux de marge ou des parts de travail au niveau de l’entreprise et variations des taux de marge ou des parts de travail des entreprises d’un quantile donné. Supposons que y y ∈  y    ; désigne un niveau spécifique de la part du travail ou du taux de marge. Nous pouvons écrire la valeur de moyenne de la mesure au niveau de la branche comme suit : M S y M y dy kt y y ≡ kt ( ) kt ( ) ∫ (B.2) où S y kt ( ) est la fonction de densité de la distribution de la mesure. Dans une version discrète, S y kt ( ) représente les parts de marché des entreprises de la branche k dont la part du travail ou le taux de marge est proche de y et M y kt ( ) désigne le la mesure moyenne pondérée (part du travail ou taux de marge) des entreprises dont le la mesure est proche de y dans la branche k à l’instant t . Nous pouvons maintenant décomposer(ii) ∆ ∆ M S y M y dy S∆ y kt y y kt kt y y = ( ) ( ) + kt ( ) ∫ ∫ intra‑quantiles      M y dy kt ( ) inter‑quantiles      (B.3) Nous récapitulons maintenant la variation de la mesure agrégée de la composante intra‑branche entre les composantes suivantes : 1. La composante inter‑quantiles : t T k kt y y S Skt kt y M y dy = ∑∑ ∫ ( ) ( ) 1 ∆ 2. La composante intra‑quantiles : t T k kt y y S Skt kt y M y dy = ∑∑ ∫ ( ) ( ) 1 ∆ _____________________ (i) Tout simplement parce que : ∆ ∆ ( ) S Mt t = + S Mt t ∆S Mt t et ∆ ∆ T t T ( ) SM = ( ) S Mt t = ∑1 (ii) Comme le précisent Kehrig & Vincent (2018), cette décomposition est conceptuellement différente de la décomposition habituelle « à l’intérieur de l’entreprise / entre les entreprises ». Soit Ωkt l’ensemble des entreprises actives au moment t , Ωkt l’ensemble des entreprises communes en t et en t −1, soit Ωkt + l’ensemble des nouvelles entreprises au moment t et Ωkt − l’ensemble des entreprises existantes en t et en t +1. Nous pouvons écrire : ∆ ∆ M S kt M S∆ i it it au sein des entreprises i it t kt ≡ + ∈ ∈ ∑ ∑ − − Ω Ω    M S it M S entre les entreprises i it it i it    kt kt + − ∈ ∈ − + − ∑ ∑− Ω Ω 1 1 1 Mit entrées nettes −              où, ici aussi, les parts sont calculées au sein de la branche. ANNEXE 2_____________________________________________________________________________________________ DÉCOMPOSITIONS 154 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 Dans un premier temps, nous n’isolons pas la contribution de la redis‑ tribution à la part globale du travail et écrivons la moyenne pondérée pour une variable donnée Z : t i it it Z S Z RF [ ] ≡∑ (C.1) où RF désigne « l’entreprise représentative ». Dans un second temps, nous tenons compte de la contribution de la redistribution et écrivons la moyenne non pondérée pour une variable donnée Z : t t i it Z N Z WR [ ] ≡ ∑ 1 (C.2) où Nt est le nombre total d’entreprises et WR correspond à « avec redistribution ». L’équation 8 peut être réécrite à partir de l’équation (C.1), qui décom‑ pose la part globale du travail entre le taux de marge, l’intensité de travail et les rendements d’échelle de l’entreprise représentative : Λt t = t t t t     = [ ]× [ ]×     + − −     RF RF RF RF RF αγµ α γ µ COV 1 1 (C.3) ou à partir de l’équation (C.2), qui décompose la part globale du tra‑ vail en ajoutant un terme de correspondant à la redistribution et défini comme étant l’écart entre la part du travail moyenne pondérée et non pondérée : Λt t = t t t t     −    ( ) + [ ]× [ ]×   − − −      RF WR WR WR WR αγµ αγµ α γ µ 1 1 1   +COV WR t Λt t = t t t t     −    ( ) + [ ]× [ ]×   − − −      RF WR WR WR WR αγµ αγµ α γ µ 1 1 1   +COV WR t (C.4) où, dans les deux cas, COV R t rassemble tous les termes de cova‑ riance. Ce terme est positif lorsque les entreprises avec une forte intensité en travail ont également des rendements d’échelle élevés et des taux de marge faibles. Pour chaque R R ∈( ) F W, R , cette quantité est définie ainsi : COV cov cov R R R R t t = ( ) + t t [ ] ( ) − − α γ, ,µ α γ µ, 1 1  + [ ] ( ) +     ( ) − −   t t t t R R R RF γ α cov c , , µ µ ov α γ 1 1 où, pour tous les ensembles de variables ( ) X s s S∈ : cov RF RF RF t s s S t s S t s t s ( ) X X ∈ X ∈ ( ) = −    ( )        ∏  En définissant comme ci‑dessus Xt et ∆X X t t = − ( ) Xt−1 comme suit : X X t t = + ( ) X X t t − − = − ( ) X X t t 1 2 1 1 ,∆ nous pouvons décomposer la variation du produit des espérances des équations (C.3) et (C.4) en contributions de la variation de l’auto‑ matisation, des rendements d’échelle et des taux de marge : ∆ ∆     t t t    t t t t R R R R R R α γ µ α [ ]× [ ]×  γ µ γ    = [ ] [ ]×     + [ ] − − 1 1 3 2 ×    ( ) − ′ t R Contribution de l intensité en travail µ 1      ∆ ∆     t t t    t t t t R R R R R R α γ µ α [ ]× [ ]×  γ µ γ    = [ ] [ ]×     + [ ] − − 1 1 3 2 ×    ( ) − ′ t R Contribution de l intensité en travail µ 1      + [ ] [ ]×     + [ ]×    ( ) ∆ − −     t t t t t R R R R R Contributio γ α µ α µ 3 2 1 1 n des rendements d é′ chelle      +     ( ) [ ]× [ ] + [ ]× [ ] − ∆     t t t t t R R R R R Contribution de µ α γ α γ 1 3 2 s taux de marge     (C.5) pour R R ∈( ) F W, R . En ajoutant à la décomposition de l’équa‑ tion (C.5) la variation du terme de covariance et du terme de redistri‑ bution si R W= R , nous obtenons la décomposition de la variation de la part agrégée du travail ∆Λt . ANNEXE 3_____________________________________________________________________________________________ PART DU TRAVAIL, TAUX DE MARGE ET TECHNOLOGIE ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 155 Au sommaire des précédents numéros / In Previous Issues N° 517-518-519 (2020) – AU-DELÀ ET AUTOUR DU PIB : QUESTIONS A LA COMPTABILITÉ NATIONALE / BEYOND AND AROUND GDP: QUESTIONS TO NATIONAL ACCOUNTING º Préface – Comptabilité nationale : retour sur des questions anciennes, plus quelques nouvelles / Preface – National Accounting: Old Questions Revisited, Plus Some New Ones – Diane Coyle • Construire des indicateurs de la croissance inclusive et de sa soutenabilité : que peuvent offrir les comptes nationaux et comment les compléter ? / Building Indicators for Inclusive Growth and its Sustainability: What Can the National Accounts Offer and How Can They Be Supplemented? – Didier Blanchet & Marc Fleurbaey • Compléter le PIB : quelques contributions récentes de la statistique sociale / Supplementing GDP: Some Recent Contributions from Official Social Statistics – Jérôme Accardo • Vers un système de comptes nationaux distributifs : méthodes et estimations des inégalités mondiales avec les données WID.world / Towards a System of Distributional National Accounts: Methods and Global Inequality Estimates from WID.world – Facundo Alvaredo, Lucas Chancel, Thomas Piketty, Emmanuel Saez & Gabriel Zucman • Pourquoi et comment mesurer le capital humain dans la comptabilité nationale ? / Why and How Should Human Capital be Measured in National Accounts? – Nicolas Canry • Coût social du réchauffement climatique et indicateurs de soutenabilité : les enseignements d’une application à la France / The Social Cost of Global Warming and Sustainability Indicators: Lessons from an Application to France – Jean-Marc Germain & Thomas Lellouch • Une comparaison de déflateurs pour les services de télécommunications / A Comparison of Deflators for Telecommunications Services Output – Mo Abdirahman, Diane Coyle, Richard Heys & Will Stewart • Les services gratuits issus de l’économie numérique : faut-il, et comment, les valoriser ? / Free Services from the Digital Economy: Do We Need to Measure Their Value and How? – Alexandre Bourgeois • L’énigme de la croissance du PIB irlandais en 2015 : tentatives de réponse / Irish GDP Growth in 2015: A Puzzle and Propositions for a Solution – Marie-Baïanne Khder, Jérémi Montornès & Nicolas Ragache • La cohérence dans une économie mondialisée : harmonisation du traitement de la R&D dans les comptes nationaux et la balance des paiements en Irlande / Consistency in a Globalised Economy: Aligning the Treatment of R&D in the Irish National Accounts and Balance of Payments – Niamh Holton, Margaret Kinsella, Oisín Mangan, Shaun McLaughlin & Patrick Quill • Quelle signification pour le concept de produit intérieur dans des économies mondialisées ? / What Should the Concept of Domestic Production Mean in Globalized Economies? – Didier Blanchet N° 514-515-516 (2020) – JEUNES ET TRANSITIONS VERS L’ÂGE ADULTE / YOUTH AND TRANSITIONS TO ADULTHOOD º Introduction – En transition vers l’âge adulte / In Transition to Adulthood – Olivier Galland • Les itinéraires biographiques des jeunes adultes en France : évolutions des différenciations sociale et sexuée sur longue période / The Life Courses of Young Adults in France: Changes in Social and Gender Differentiation over the Long Period – Nicolas Robette • Inégalités de niveau de vie entre jeunes adultes – Une approche individualisée / Inequality of Resources among Young Adults: An Individualised Approach – Laura Castell & Sébastien Grobon • Le soutien financier aux jeunes par les transferts sociaux et fiscaux – Scénarios de défamilialisation / Financial Support for Young Adults Through Tax and Social Transfers – Defamilialisation Scenarios – Adélaïde Favrat, Vincent Lignon & Muriel Pucci • Argent et sentiments. Une interprétation des déterminants de l’aide financière des parents aux jeunes adultes / Money and Feelings: An Interpretation of the Factors of Financial Support from Parents to Young Adults – Marie-Clémence Le Pape, Mickaël Portela & Élise Tenret • Les décisions des jeunes dans la transition vers la vie adulte en France : l’influence de facteurs familiaux / Young People’s Decisions in the Transition to Adulthood in France: Influence of Family Factors – Audrey Rose Menard & Vincent Vergnat • À quoi rêvent les jeunes salariés ? Qualité du travail, aspirations professionnelles et souhaits de mobilité des moins de 30 ans / What do Young Employees Dream of? Quality of Work, Career Aspirations and Desire for Mobility among the Under 30s – Christine Fournier, Marion Lambert & Isabelle Marion-Vernoux •Risque d’exclusion sociale et ressources des jeunes NEET / Risk of Social Exclusion and Resources of Young NEETs – Claire Bonnard, Jean-Francois Giret & Yann Kossi • Inégalités des chances dans le recours aux soins des jeunes adultes en France / Inequalities of Opportunity in the Use of Health Care by Young Adults in France – Doriane Mignon & Florence Jusot • Les opinions des jeunes adultes sur le rôle social de l’État ont-elles changé depuis la crise de 2008 ? / Did the 2008 Crisis Change Young Adults’ Views on the Social Role of the State? – Adrien Papuchon N° 513 (2019) – VARIA • Les supporters français de football sont-ils sensibles à l’incertitude du résultat ? / Are French Football Fans Sensitive to Outcome Uncertainty? – Luc Arrondel & Richard Duhautois 156 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS N° 520-521, 2020 • Les discriminations dans l’accès au logement en France : un testing sur les aires urbaines métropolitaines / Discriminations in Access to Housing: A Test on Urban Areas in Metropolitan France – Julie Le Gallo, Yannick L’Horty, Loïc du Parquet & Pascale Petit • Les liens entre taux d’épargne, revenu et incertitude : une analyse à partir de l’enquête Budget de famille 2011 / The Links between Saving Rates, Income and Uncertainty: An Analysis based on the 2011 Household Budget Survey – Céline Antonin • Quatre décennies d’achats alimentaires : évolutions des inégalités de qualité nutritionnelle en France, 1971-2010 / Four Decades of Household Food Purchases: Changes in Inequalities of Nutritional Quality in France, 1971-2010 – France Caillavet, Nicole Darmon, Flavie Létoile & Véronique Nichèle • L’élasticité-prix de la demande d’électricité en France / Price Elasticity of Electricity Demand in France – Stéphane Auray, Vincenzo Caponi & Benoît Ravel N° 510-511-512 (2019) – NUMÉRO SPÉCIAL 50ème ANNIVERSAIRE / 50th ANNIVERSARY SPECIAL ISSUE º Éditorial / Editorial – Jean-Luc Tavernier º Cinquante ans de résumés d’Economie et Statistique / Fifty Years of Abstracts in the Journal Economie et Statistique – Julie Djiriguian & François Sémécurbe º Préface – Les temps ont changé / Preface – Times Have Changed – Daniel Cohen • Évolutions de la part du travail dans les pays de l’OCDE au cours des deux dernières décennies / Labour Share Developments in OECD Countries Over the Past Two Decades – Mathilde Pak, Pierre-Alain Pionnier & Cyrille Schwellnus • La part du travail sur le long terme : un déclin ? / The Labor Share in the Long Term: A Decline? – Gilbert Cette, Lorraine Koehl & Thomas Philippon • Croissance économique et pouvoir d’achat des ménages en France : les principales évolutions depuis 1960 / Economic Growth and Household Purchasing Power in France: Key Changes Since 1960 – Didier Blanchet & Fabrice Lenseigne • Inégalités de revenus et de richesse en France : évolutions et liens sur longue période / Income and Wealth Inequality in France: Developments and Links over the Long Term – Bertrand Garbinti & Jonathan Goupille-Lebret • Les grandes transformations du marché du travail en France depuis le début des années 1960 / The Major Transformations of the French Labour Market Since the Early 1960s – Olivier Marchand & Claude Minni • Égalité professionnelle entre les femmes et les hommes en France : une lente convergence freinée par les maternités / Gender Equality on the Labour Market in France: A Slow Convergence Hampered by Motherhood – Dominique Meurs & Pierre Pora • Quarante ans d’évolution de l’offre et de la demande de travail par qualification – Progrès technique, coût du travail et transformation sociale / Forty Years of Change in Labour Supply and Demand by Skill Level – Technical Progress, Labour Costs and Social Change – Dominique Goux & Éric Maurin • Intelligence artificielle, croissance et emploi : le rôle des politiques / Artificial Intelligence, Growth and Employment: The Role of Policy – Philippe Aghion, Céline Antonin & Simon Bunel • Quelle valeur donner à l’action pour le climat ? / What Value Do We Attach to Climate Action? – Alain Quinet • Inférence causale et évaluation d’impact / Causal Inference and Impact Evaluation – Denis Fougère & Nicolas Jacquemet • L’émergence et la consolidation des modèles de microsimulation en France / The Emergence and Consolidation of Microsimulation Methods in France – François Legendre N° 509 (2019) – BIG DATA ET STATISTIQUES 2ème PARTIE / BIG DATA AND STATISTICS PART 2 º Introduction – La chaîne de valeur des données de caisse et des données moissonnées sur le Web / Introduction – The Value Chain of Scanner and Web Scraped Data – Jens Mehrhoff • Les données de caisse : avancées méthodologiques et nouveaux enjeux pour le calcul d’un indice des prix à la consommation / Scanner Data: Advances in Methodology and New Challenges for Computing Consumer Price Indices – Marie Leclair, Isabelle Léonard, Guillaume Rateau, Patrick Sillard, Gaëtan Varlet & Pierre Vernédal • Mesure de l’inflation avec des données de caisse et un panier fixe évolutif / Inflation Measurement with Scanner Data and an Ever Changing Fixed Basket – Can Tongur • Comparaison des indices de prix des vêtements et des chaussures à partir de données de caisse et de données moissonnées sur le Web / Comparing Price Indices of Clothing and Footwear for Scanner Data and Web Scraped Data – Antonio G. Chessa & Robert Griffioen • Écarts spatiaux de niveaux de prix entre régions et villes françaises avec des données de caisse / Spatial Differences in Price Levels between French Regions – Isabelle Léonard, Patrick Sillard, Gaëtan Varlet & Jean-Paul-Zoyem Economie et Statistique / Economics and Statistics Objectifs généraux de la revue Economie et Statistique / Economics and Statistics publie des articles traitant de tous les phénomènes économiques et sociaux, au niveau micro ou macro, s’appuyant sur les données de la statistique publique ou d’autres sources. Une attention particulière est portée à la qualité de la démarche statistique et à la rigueur des concepts mobilisés dans l’analyse. Pour répondre aux objectifs de la revue, les principaux messages des articles et leurs limites éventuelles doivent être formulés dans des termes accessibles à un public qui n’est pas nécessairement spécialiste du sujet de l’article. Soumissions Les propositions d'articles, en français ou en anglais, doivent être adressées à la rédaction de la revue (redaction-ecostat@insee.fr), de préférence en format MS-Word. Il doit s'agir de travaux originaux, qui ne sont pas soumis en parallèle à une autre revue. Un article standard fait environ 11 000 mots en français (y compris encadrés, tableaux, figures, annexes et bibliographie, non compris éventuelles annexes en ligne). Aucune proposition initiale de plus de 12 500 mots (11 500 pour les soumissions en anglais) ne sera examinée. La soumission doit comporter deux fichiers distincts : • Un fichier d’une page indiquant : le titre de l’article ; le prénom et nom, les affiliations (maximum deux), l’adresse e-mail et postale de chaque auteur ; un résumé de 160 mots maximum (soit environ 1 050 signes espaces compris) qui doit présenter très brièvement la problématique, indiquer la source et donner les principaux axes et conclusions de la recherche ; les codes JEL et quelques mots-clés ; d’éventuels remerciements. • Un fichier anonymisé du manuscrit complet (texte, illustrations, bibliographie, éventuelles annexes) indiquant en première page uniquement le titre, le résumé, les codes JEL et les mots-clés. Les propositions retenues sont évaluées par deux à trois rapporteurs (procédure en « double-aveugle »). Les articles acceptés pour publication devront être mis en forme suivant les consignes aux auteurs (accessibles sur https://www.insee.fr/fr/ information/2410168). Ils pourront faire l’objet d’un travail éditorial visant à améliorer leur lisibilité et leur présentation formelle. Publication Les articles sont publiés en français dans l’édition papier et simultanément en français et en anglais dans l'édition électronique. Celle-ci est disponible, en accès libre, sur le site de l’Insee, le jour même de la publication ; cette mise en ligne immédiate et gratuite donne aux articles une grande visibilité. La revue est par ailleurs accessible sur le portail francophone Persée, et référencée sur le site international Repec et dans la base EconLit. Main objectives of the journal Economie et Statistique / Economics and Statistics publishes articles covering any micro- or macro- economic or sociological topic, either using data from public statistics or other sources. Particular attention is paid to rigor in the statistical approach and clarity in the concepts and analyses. In order to meet the journal aims, the main conclusions of the articles, as well as possible limitations, should be written to be accessible to an audience not necessarily specialist of the topic. Submissions Manuscripts can be submitted either in French or in English; they should be sent to the editorial team (redaction-ecostat@insee.fr), preferably in MS-Word format. The manuscript must be original work and not submitted at the same time to any other journal. The standard length of an article is of about 10,000 words (including boxes if needed, tables and figures, appendices, bibliography, but not counting online appendices if any). Manuscripts of more than 11,500 words will not be considered. Submissions must include two separate files: • A one-page file providing: the title of the article; the first name, name, affiliation-s (at most two), e-mail et postal addresses of each author; an abstract of maximum 160 words (about 1050 characters including spaces), briefly presenting the question(s), data and methodology, and the main conclusions; JEL codes and a few keywords; acknowledgements. • An anonymised manuscript (including the main text, illustrations, bibliography and appendices if any), mentioning only the title, abstract, JEL codes and keywords on the front page. Proposals that meet the journal objectives are reviewed by two to three referees (“double-blind” review). The articles accepted for publication will have to be presented according to the guidelines for authors (available at https://www.insee.fr/en/ information/2591257). They may be subject to editorial work aimed at improving their readability and formal presentation. Publication The articles are published in French in the printed edition, and simultaneously in French and in English in the online edition. The online issue is available, in open access, on the Insee website the day of its publication; this immediate and free online availability gives the articles a high visibility. The journal is also available online on the French portal Persée, and indexed in Repec and EconLit. Economics Statistics AND Economie StatistiqueET N° 520-521 - 2020 ISBN 978-2-11-151277-1 - ISSN 0336-1454 - ECO 520-521 Parution décembre 2020 - PRIX : 17,20 € Prochain numéro / Next issue Varia 9 782111 512771 N° 520-521 - 2020 ECONOMIE ET STATISTIQUE / ECONOMICS AND STATISTICS