Celková analytická logika systému
Cílem této datové pipeline je vytvořit vstupní data o výdajích z ESI fondů pro makroekonomické modely QUEST a HERMIN za období 2014-2020.
Výsledkem je rozpad výdajů na kraje, čtvrletí a kategorie QUEST/HERMIN.
Vycházíme z dat o projektech, platbách (ŽOP) a z očištěných dat o geolokaci projektů. Základním vstupem jsou sestavy z MSSF, od SZIF (pro PRV) a data o geolokaci projektů mimo PRV od MMR (výstup předchozího projektu.)
Sekundárně se zde také replikuje kompilace dat za období 2007-13. To se děje na základě skriptu z roku 2017, překlopeného do funkcí využitých v targets pipeline. Narozdíl od roku 2017 integrujeme i data o ekonomické kategorii výdajů, nově vygenerovaná z MS 2007 v roce 2021.
Data a rozhodnutí
MSSF a PRV
Zdroje
- data ke všem OP kromě PRV pochází ze sestav
data-input/sestavy 20210528
. Nejsou zde data o příhraniční spolupráci. Název adresáře obsahuje datum, ke kterému jsou v sestavách aktuální data
- E001 Identifikace projektu: rozpad projektu na SC a ekonomické kategorie intervence
- E005 Kategorizace_oblast: oblasti intervence podle nařízení
- E003 Finance celkem: více finančních řezů, co řádek, to projekt
- E004 Žádosti o platbu: co řádek, to platba s datem
- lokalizace projektů běžných OP:
- využíváme výstup předchozího projektu MMR -
Arrow
dataset v adresáři data-input/esif-projekty-obce
- data k PRV pochází od MZe a jsou výrazně jednodušší:
- jediná tabulka
- co řádek, to projekt, včetně financí a NUTS3 (každý projekt má jen jednu NUTS3)
Dodatečně do pipeline vstupují data za období 2007-13, pro nové odhadnutí HERMINu za 2007-13:
- původní data z roku 2017 o dělení projektů na NUTS3, platbách podle let a prioritních tématech (obdoba oblastí intervencí v období 2014-20)
- nově vygenerovaná data o ekonomické činnosti, kam projekt spadá (nově vygenerování v roce 2021 ze starého MS)
Technické zádrhele u vstupních sestav
- mezi verzí z ledna 2021 a května 2021 se mírně změnila struktura XLSX souborů - na začátku se změnil počet volných řádek. Toto tedy je nejpravděopdobnější zdroj chyb u dalších aktualizací sestav.
- ve verzi z ledna 2021 bylo zmatení názvů a obsahu některých XLSX souborů
- v XLSX s oblastmi intervencí zřejmě chybí sloupce s rozpadem na SC, přičemž ale projekty jsou na SC rozpadlé do řádek, proto součty peněz v jednom projektu přesahují 100 %.
Kategorizace pro makro modely
Pro QUEST i HERMIN převádíme kategorizace z dat na kategorizace pro makro modely následně:
- u běžných OP převádíme z oblasti intervencí (
oblast_intervence
z E005 Kategorizace_oblast
) pro QUEST a pro jemnější členění kategorie AIS pro model HERMIN využíváme ekonomické kategorie (katekon
) ze sestavy 001 Identifikace projektu
.
- u PRV odvozujeme kategorie QUEST a HERMIN z kódu operace
QUEST i HERMIN pro PRV
Zde jsou k zamyšlení operace 4.1.1, 4.2.1 a 6.1.1:
QUEST a HERMIN 2007-13
- v datech je několik set projektů, které nemají kategorii ekonomické aktivity, ale protože jsou v QUESTu kategorizovány jako AIS, pro HERMIN je potřeba je nějak rozpadnout do podkategorií AIS
- konkrétně jsou to projekty v prioritních tématech 08 a 61
- tyto ručně v kódu kategorizujeme jako AIS1 (protože jde většinou o projekty OP Rybářství) a AIS3 (protože jde většinou o stavební projekty)
Geografický rozpad
- dataset geografické alokace projektů nepochází ze stejné sady sestav, proto ani časově neodpovídá (momentálně je starší o několik měsíců), proto se ne všechny projekty podařilo lokalizovat
- dataset pochází z předchozího projektu, kde cílem bylo lokalizovat do obcí projekty často lokalizované jen na NUTS3
- u projektů lokalizovaných do více krajů jsou ve výstupu dvě varianty rozpadu: podle počtu krajů, kde se projekt realizoval, a s každým krajem váženým podle poču obyvatel obcí, kde se projekt konal.
- ve výsledném datasetu pak existují i proměnné s příponou
_wt_cond
, kde se použité vážení liší podle QUEST kategorie: podle krajů pro RD, AIS, TA; podle počtu obyvatel obcí pro INFR a HC
- počty obyvatel pro toto vážení pochází z ČSÚ, dataset číslo (průměr hodnot za roky 2014 až 2020)
- geografické údaje obsažené v balíku sestav (E007 a E002) jsou pouze o sídle žadatele - z toho nelze usuzovat na lokalizaci projektu
Časování plateb
- u části žádostí o platbu chyběla data proplacení žádosti, ale z čísla žádosti lze dovodit rok podání žádosti. U těchto žádostí rozkládáme datum proplacení rovnoměrně do všech kvartálů daného roku
- nepracujeme tedy se začátkem a koncem realizace projektů
- stejně tak nerozlišujeme platby ANTE a POST
- pro lepší přesnost by bylo vhodné tyto platby ještě posunout o cca 100 dnů (1 kvartál) dále v čase (odhadovaná prodleva mezi 30. 6. - coby očekávaná střední doba podání ŽOP v roce - a proplacením)
Projekce čerpání v N+3
Co počítáme:
- bereme v úvahu nevyúčtované prostředky
- u projektů v pozitivních stavech
- které nebyly ukončeny k 30. 6. 2020
- tj. neřešíme, kdy a jak se proplatí výdaje už doběhlých projektů
Co je vynechané
- PRV - nemáme data o celkových alokacích projektů
Jak to projektujeme:
- lineárně: předpokládáme, že každý rok zbylého trvání projektu se utratí stejný díl zbylých peněz
- výjimkou je rok 2021, který co do podílu na čerpání vážíme polovinou váhy let 2022 a 2023 (protože data o platbách jsou cca do pololetí 2021)
- konečný rok projektu pro jednoduchost počítáme vždy jako celý, i pokud projekt zasahuje jen do několika měsíců
- vycházíme při tom z předpokládaného ukončení fyzické realizace
- tok peněz pro zjednodušení ukončujeme v roce 2023, tj. platby, které by podle postupy výše proběhly v roce 2024 a později, započítáváme do roku 2023.
- v zájmu konzistentnosti s daty o skutečných platbách do roku 2021, kde jsou platby oproti datům realizace opožděné, zpožďujeme tok peněz oproti fyzické realizaci o 6 měsíců
Jak to členíme:
- využíváme regionální, tematické a sektorové dělení výdajů projektu podle vstupních dat => předpokládáme, že regionální a tematické rozložení výdajů se v rámci jednoho projektu v čase nemění
Co ještě předpokládáme/ignorujeme:
- nepočítáme s odpadovostí/předčasným ukončováním projektů: pokud projekt běží v polovině roku 2021 (naše poslední data), předpokládáme, že doběhne a proplatí se mu všechny zbylé peníze
- nijak nezohledňujeme předchozí underspends projektů
- pokud projekt měl skončit dříve, ale neskončil, rozkládáme jeho neproplacené prostředky do let 2021-23 tak, aby projekty, které měly skončit dříve, měly více plateb v dřívejších letech
- nezohledňujeme unde-over schedule podle předchozích projektů - předpokládáme, že nyní bežící projekty skončí podle v datech uvedeného předpokládaného ukončení
- neděláme žádné předpoklady ohledně trajektorie proplácení ani nevyužíváme informace o nich z již ukončených projektů
Hodnoty konfiguračních proměnných v souboru config.yml
default:
# URL for getting project data
ef_pubxls_url: "https://dotaceeu.cz/getmedia/6297d56b-0b57-418d-ad25-dd16bd687479/2021_06-Seznam-operaci-_-List-of-operations.xls.aspx?ext=.xls"
# sestavy from MS
sest_dir: "data-input/sestavy 20210528"
sest_xlsx_prj: "E001 Identifikace projektu.xlsx"
sest_xlsx_fin: "E003 Finance celkem.xlsx"
sest_xlsx_zop: "E004 Žádosti o platbu.xlsx"
sest_xlsx_obl: "E005 Kategorizace_oblast.xlsx"
# PRV data-input
prv_data_path: "data-input/prv/PRV 2014-20 k XII. 2020.XLSX"
# Quest/Hermin categorisations
mc_xlsx_q: "data-input/kategorizace/kategorie_questNEW-2.xlsx"
mc_xlsx_h: "data-input/kategorizace/AIS_desagregace_rHERMIN.xlsx"
mc_xlsx_prv: "data-input/kategorizace/Navrh - KATEGORIZACE - Operace PRV + priority.xlsx"
# Arrow directory of cleaned up geolocation data for projects
ef_obce_arrowdir: "data-input/esif-projekty-obce"
# Excel file with hierarchy of all objectives and categories
hier_excel_path: "data-input/matice/Hierarchie_uprava_CSR_NPR-O27-uprava_20210125.xlsx"
hier_excel_sheet: SC
# IDs
czso_pop_table_id: "130149"
# Input data paths - 2007-13 data
sest_7_input_dir_orig: "data-input/sestavy 2007-13 orig"
sest_7_prj: "Prehled_projektu_20170405.xlsx"
sest_7_platby: "Platby_Chl_Nov_bez filtru.csv"
sest_7_nuts3: "07-13_realizace v NUTS3.xlsx"
sest_7_kat: "Prehled_projektu_prioritni_tema_2017.xlsx"
cis_7_op: "ciselniky/ciselnik_programy2007.xlsx"
cis_7_nuts3: "ciselniky/nuts3convert.csv"
macrocat_7: "data-input/kategorizace/kategorie_0713.xlsx"
sest_7_input_dir_new: "data-input/sestavy 2007-13 20211126"
sest_7_katekon: ["211026_kategorizace7.xlsx", "211026_kategorizace8.xlsx"]
# export location - 2007-13
export_0713_dir: "data-export/export_0713_202111"
export_0713_prj_pq: "prj_tema-nuts-ekonkat_0713.parquet"
export_0713_detail_xlsx: "makro_detail_0713.xlsx"
export_0713_detail_csv: "makro_detail_0713.csv"
export_0713_detail_pq: "makro_detail_0713.parquet"
export_0713_csv: "makro_0713.csv"
export_0713_xlsx: "makro_0713.xlsx"
export_0713_pq: "makro_0713.parquet"
export_0713_kategorie: "kategorie_0713.xlsx"
export_0713_cdbk: "sum_0713_codebook.yaml"
# export location - macro
macro_export_dir: "data-export/export_202112"
macro_export_reg_xlsx_a: "macro-sum_reg_quarterly.xlsx"
macro_export_reg_xlsx_q: "macro-sum_reg_annual.xlsx"
macro_export_reg_csv_a: "macro-sum_reg_quarterly.csv"
macro_export_reg_csv_q: "macro-sum_reg_annual.csv"
macro_export_xlsx_a: "macro-sum_quarterly.xlsx"
macro_export_xlsx_q: "macro-sum_annual.xlsx"
macro_export_csv_a: "macro-sum_quarterly.csv"
macro_export_csv_q: "macro-sum_annual.csv"
macro_export_nplus3_xlsx: "macro-sum-nplus3.xlsx"
macro_export_nplus3_csv: "macro-sum-nplus3.csv"
macro_export_nplus3_reg_xlsx: "macro-sum_reg_nplus3.xlsx"
macro_export_nplus3_reg_csv: "macro-sum_reg_nplus3.csv"
macro_export_cdbk: "macro-sum_codebook.yaml"
macro_export_nplus3_cdbk: "macro-sum_nplus3_codebook.yaml"
repo_remote: "https://github.com/petrbouchal/esifunguji"
# export location - hierarchy
hier_export_dir: "data-export/matice_202112"
hier_export_xlsx: "matice.xlsx"