Přehled projektu

Celková analytická logika systému

Cílem této datové pipeline je vytvořit vstupní data o výdajích z ESI fondů pro makroekonomické modely QUEST a HERMIN za období 2014-2020.

Výsledkem je rozpad výdajů na kraje, čtvrletí a kategorie QUEST/HERMIN.

Vycházíme z dat o projektech, platbách (ŽOP) a z očištěných dat o geolokaci projektů. Základním vstupem jsou sestavy z MSSF, od SZIF (pro PRV) a data o geolokaci projektů mimo PRV od MMR (výstup předchozího projektu.)

Sekundárně se zde také replikuje kompilace dat za období 2007-13. To se děje na základě skriptu z roku 2017, překlopeného do funkcí využitých v targets pipeline. Narozdíl od roku 2017 integrujeme i data o ekonomické kategorii výdajů, nově vygenerovaná z MS 2007 v roce 2021.

Data a rozhodnutí

MSSF a PRV

Zdroje

data ke všem OP kromě PRV pochází ze sestav data-input/sestavy 20210528. Nejsou zde data o příhraniční spolupráci. Název adresáře obsahuje datum, ke kterému jsou v sestavách aktuální data
- E001 Identifikace projektu: rozpad projektu na SC a ekonomické kategorie intervence
- E005 Kategorizace_oblast: oblasti intervence podle nařízení
- E003 Finance celkem: více finančních řezů, co řádek, to projekt
- E004 Žádosti o platbu: co řádek, to platba s datem
lokalizace projektů běžných OP:
- využíváme výstup předchozího projektu MMR - Arrow dataset v adresáři data-input/esif-projekty-obce
data k PRV pochází od MZe a jsou výrazně jednodušší:
- jediná tabulka
- co řádek, to projekt, včetně financí a NUTS3 (každý projekt má jen jednu NUTS3)

Dodatečně do pipeline vstupují data za období 2007-13, pro nové odhadnutí HERMINu za 2007-13:

původní data z roku 2017 o dělení projektů na NUTS3, platbách podle let a prioritních tématech (obdoba oblastí intervencí v období 2014-20)
nově vygenerovaná data o ekonomické činnosti, kam projekt spadá (nově vygenerování v roce 2021 ze starého MS)

Technické zádrhele u vstupních sestav

mezi verzí z ledna 2021 a května 2021 se mírně změnila struktura XLSX souborů - na začátku se změnil počet volných řádek. Toto tedy je nejpravděopdobnější zdroj chyb u dalších aktualizací sestav.
ve verzi z ledna 2021 bylo zmatení názvů a obsahu některých XLSX souborů
v XLSX s oblastmi intervencí zřejmě chybí sloupce s rozpadem na SC, přičemž ale projekty jsou na SC rozpadlé do řádek, proto součty peněz v jednom projektu přesahují 100 %.

Kategorizace pro makro modely

Pro QUEST i HERMIN převádíme kategorizace z dat na kategorizace pro makro modely následně:

u běžných OP převádíme z oblasti intervencí (oblast_intervence z E005 Kategorizace_oblast) pro QUEST a pro jemnější členění kategorie AIS pro model HERMIN využíváme ekonomické kategorie (katekon) ze sestavy 001 Identifikace projektu.
u PRV odvozujeme kategorie QUEST a HERMIN z kódu operace

QUEST

HERMIN

QUEST i HERMIN pro PRV

Zde jsou k zamyšlení operace 4.1.1, 4.2.1 a 6.1.1:

QUEST a HERMIN 2007-13

v datech je několik set projektů, které nemají kategorii ekonomické aktivity, ale protože jsou v QUESTu kategorizovány jako AIS, pro HERMIN je potřeba je nějak rozpadnout do podkategorií AIS
konkrétně jsou to projekty v prioritních tématech 08 a 61
tyto ručně v kódu kategorizujeme jako AIS1 (protože jde většinou o projekty OP Rybářství) a AIS3 (protože jde většinou o stavební projekty)

Geografický rozpad

dataset geografické alokace projektů nepochází ze stejné sady sestav, proto ani časově neodpovídá (momentálně je starší o několik měsíců), proto se ne všechny projekty podařilo lokalizovat
dataset pochází z předchozího projektu, kde cílem bylo lokalizovat do obcí projekty často lokalizované jen na NUTS3
u projektů lokalizovaných do více krajů jsou ve výstupu dvě varianty rozpadu: podle počtu krajů, kde se projekt realizoval, a s každým krajem váženým podle poču obyvatel obcí, kde se projekt konal.
ve výsledném datasetu pak existují i proměnné s příponou _wt_cond, kde se použité vážení liší podle QUEST kategorie: podle krajů pro RD, AIS, TA; podle počtu obyvatel obcí pro INFR a HC
počty obyvatel pro toto vážení pochází z ČSÚ, dataset číslo (průměr hodnot za roky 2014 až 2020)
geografické údaje obsažené v balíku sestav (E007 a E002) jsou pouze o sídle žadatele - z toho nelze usuzovat na lokalizaci projektu

Časování plateb

u části žádostí o platbu chyběla data proplacení žádosti, ale z čísla žádosti lze dovodit rok podání žádosti. U těchto žádostí rozkládáme datum proplacení rovnoměrně do všech kvartálů daného roku
nepracujeme tedy se začátkem a koncem realizace projektů
stejně tak nerozlišujeme platby ANTE a POST
pro lepší přesnost by bylo vhodné tyto platby ještě posunout o cca 100 dnů (1 kvartál) dále v čase (odhadovaná prodleva mezi 30. 6. - coby očekávaná střední doba podání ŽOP v roce - a proplacením)

Projekce čerpání v N+3

Co počítáme:

bereme v úvahu nevyúčtované prostředky
u projektů v pozitivních stavech
které nebyly ukončeny k 30. 6. 2020
tj. neřešíme, kdy a jak se proplatí výdaje už doběhlých projektů

Co je vynechané

PRV - nemáme data o celkových alokacích projektů

Jak to projektujeme:

lineárně: předpokládáme, že každý rok zbylého trvání projektu se utratí stejný díl zbylých peněz
výjimkou je rok 2021, který co do podílu na čerpání vážíme polovinou váhy let 2022 a 2023 (protože data o platbách jsou cca do pololetí 2021)
konečný rok projektu pro jednoduchost počítáme vždy jako celý, i pokud projekt zasahuje jen do několika měsíců
vycházíme při tom z předpokládaného ukončení fyzické realizace
tok peněz pro zjednodušení ukončujeme v roce 2023, tj. platby, které by podle postupy výše proběhly v roce 2024 a později, započítáváme do roku 2023.
v zájmu konzistentnosti s daty o skutečných platbách do roku 2021, kde jsou platby oproti datům realizace opožděné, zpožďujeme tok peněz oproti fyzické realizaci o 6 měsíců

Jak to členíme:

využíváme regionální, tematické a sektorové dělení výdajů projektu podle vstupních dat => předpokládáme, že regionální a tematické rozložení výdajů se v rámci jednoho projektu v čase nemění

Co ještě předpokládáme/ignorujeme:

nepočítáme s odpadovostí/předčasným ukončováním projektů: pokud projekt běží v polovině roku 2021 (naše poslední data), předpokládáme, že doběhne a proplatí se mu všechny zbylé peníze
nijak nezohledňujeme předchozí underspends projektů
pokud projekt měl skončit dříve, ale neskončil, rozkládáme jeho neproplacené prostředky do let 2021-23 tak, aby projekty, které měly skončit dříve, měly více plateb v dřívejších letech
nezohledňujeme unde-over schedule podle předchozích projektů - předpokládáme, že nyní bežící projekty skončí podle v datech uvedeného předpokládaného ukončení
neděláme žádné předpoklady ohledně trajektorie proplácení ani nevyužíváme informace o nich z již ukončených projektů

Hodnoty konfiguračních proměnných v souboru `config.yml`


default:

  # URL for getting project data
  ef_pubxls_url: "https://dotaceeu.cz/getmedia/6297d56b-0b57-418d-ad25-dd16bd687479/2021_06-Seznam-operaci-_-List-of-operations.xls.aspx?ext=.xls"

  # sestavy from MS
  sest_dir: "data-input/sestavy 20210528"
  sest_xlsx_prj: "E001 Identifikace projektu.xlsx"
  sest_xlsx_fin: "E003 Finance celkem.xlsx"
  sest_xlsx_zop: "E004 Žádosti o platbu.xlsx"
  sest_xlsx_obl: "E005 Kategorizace_oblast.xlsx"

  # PRV data-input

  prv_data_path: "data-input/prv/PRV 2014-20 k XII. 2020.XLSX"

  # Quest/Hermin categorisations
  mc_xlsx_q: "data-input/kategorizace/kategorie_questNEW-2.xlsx"
  mc_xlsx_h: "data-input/kategorizace/AIS_desagregace_rHERMIN.xlsx"
  mc_xlsx_prv: "data-input/kategorizace/Navrh - KATEGORIZACE - Operace PRV + priority.xlsx"

  # Arrow directory of cleaned up geolocation data for projects
  ef_obce_arrowdir: "data-input/esif-projekty-obce"

  # Excel file with hierarchy of all objectives and categories
  hier_excel_path: "data-input/matice/Hierarchie_uprava_CSR_NPR-O27-uprava_20210125.xlsx"
  hier_excel_sheet: SC

  # IDs
  czso_pop_table_id: "130149"

  # Input data paths - 2007-13 data
  sest_7_input_dir_orig: "data-input/sestavy 2007-13 orig"
  sest_7_prj: "Prehled_projektu_20170405.xlsx"
  sest_7_platby: "Platby_Chl_Nov_bez filtru.csv"
  sest_7_nuts3: "07-13_realizace v NUTS3.xlsx"
  sest_7_kat: "Prehled_projektu_prioritni_tema_2017.xlsx"
  cis_7_op: "ciselniky/ciselnik_programy2007.xlsx"
  cis_7_nuts3: "ciselniky/nuts3convert.csv"

  macrocat_7: "data-input/kategorizace/kategorie_0713.xlsx"

  sest_7_input_dir_new: "data-input/sestavy 2007-13 20211126"
  sest_7_katekon: ["211026_kategorizace7.xlsx", "211026_kategorizace8.xlsx"]

  # export location - 2007-13
  export_0713_dir: "data-export/export_0713_202111"
  export_0713_prj_pq: "prj_tema-nuts-ekonkat_0713.parquet"
  export_0713_detail_xlsx:  "makro_detail_0713.xlsx"
  export_0713_detail_csv: "makro_detail_0713.csv"
  export_0713_detail_pq: "makro_detail_0713.parquet"
  export_0713_csv: "makro_0713.csv"
  export_0713_xlsx: "makro_0713.xlsx"
  export_0713_pq: "makro_0713.parquet"

  export_0713_kategorie: "kategorie_0713.xlsx"

  export_0713_cdbk: "sum_0713_codebook.yaml"

  # export location - macro
  macro_export_dir: "data-export/export_202112"

  macro_export_reg_xlsx_a: "macro-sum_reg_quarterly.xlsx"
  macro_export_reg_xlsx_q: "macro-sum_reg_annual.xlsx"
  macro_export_reg_csv_a: "macro-sum_reg_quarterly.csv"
  macro_export_reg_csv_q: "macro-sum_reg_annual.csv"

  macro_export_xlsx_a: "macro-sum_quarterly.xlsx"
  macro_export_xlsx_q: "macro-sum_annual.xlsx"
  macro_export_csv_a: "macro-sum_quarterly.csv"
  macro_export_csv_q: "macro-sum_annual.csv"

  macro_export_nplus3_xlsx: "macro-sum-nplus3.xlsx"
  macro_export_nplus3_csv: "macro-sum-nplus3.csv"
  macro_export_nplus3_reg_xlsx: "macro-sum_reg_nplus3.xlsx"
  macro_export_nplus3_reg_csv: "macro-sum_reg_nplus3.csv"

  macro_export_cdbk: "macro-sum_codebook.yaml"
  macro_export_nplus3_cdbk: "macro-sum_nplus3_codebook.yaml"

  repo_remote: "https://github.com/petrbouchal/esifunguji"

  # export location - hierarchy
  hier_export_dir: "data-export/matice_202112"
  hier_export_xlsx: "matice.xlsx"