@goJavaGo
Nie jest to prawdą. Nie istnieją żadne regulacje dopuszczające konkretne oprogramowanie, a inne nie.
https://www.fda.gov/ForIndustry/DataStandards/StudyDataStandards/ucm445917.htm
FDA does not require use of any specific software for statistical analyses, and statistical software is not explicitly discussed in Title 21 of the Code of Federal Regulations [e.g. in 21CFR part 11]. However, the software package(s) used for statistical analyses should be fully documented in the submission, including version and build identification.
Aby można było używać danego oprogramowania, musi być ono najpierw zwalidowane, co zapewniają "z pudełka" tylko komercyjne pakiety jak SAS czy Stata.
I R się do tej grupy nie kwalifikuje, podobnie jak Python. Można jednak, i jest to praktykowane, samemu zwalidować używane oprogramowanie, są nawet firmy, które się tym zajmują komercyjnie (nie, nie jest to Microsoft ani Oracle). I wtedy można używać zarówno R jak i Pythona, czy nawet VBA z Excela.
Powód jest inny. Pythona nie było w czasach, gdy rozwijał się SAS i S, a potem jego następca R. Dziesiątki tysięcy publikacji powstawały z wykorzystaniem głównie tych pakietów. Python postawił na data science się z rozkwitem big data, kompletnie przesypiając marketing w bionaukach. Efekt jest taki, że po pierwsze - Python jest bardzo ubogi w procedury i modele statystyczne dla badań klinicznych, a te, które już zaimplementowano to raczej "programistyczne wprawki", zabawki niż poważne narzędzia, po drugie - tradycja i historia Pythona w tych zastosowaniach jest praktycznie żadna, po trzecie - środowisko jest tak konserwatywne, że kręcą nosem nawet na R, wierzą tylko w komercyjny soft, siejąc masę FUDu, więc co to myśle o Pythonie?
Jest to wręcz książkowy przykład sytuacji, gdy dobry język nie został po prostu wypromowany, "urodził się za późno". A teraz ma zbyt dużo do nadrobienia. Kto napisze te brakujące biblioteki, skoro przez ostatnie 10 lat nikt tego nie zrobił? Kto je przetestuje tak dobrze jak SASowe/eSowe/eRowe (10-30 lat testów), wreszcie - po co ma to robić, skoro Python i tak się nie przebije obecnie w takich badaniach? To efekt "zamkniętego koła": nie opłaca się, więc nikt tego nie robi, a ponieważ nikt nie robi, to nikt tego nie używa, więc nie opłaca się. Tutaj SAS jest wręcz podręcznikową ilustracją "sukcesu marketingu". 90/100 maganerów w badaniach klinicznych powie, że "SAS jest konieczny", a innych programów "nie wolno". 9 powie - "wolno, ale i tak się boję", a z nich 5 się zdecyduje. Inaczej wygląda to w tzw. "evidence based medicine" (w tym badania kliniczne, ale poza trzecią fazą), gdzie R jest powszechny i stosowany od końca lat 70.
Python jest stosowany w genetyce, można spotkać wiele przykładów, a także w "zwykłych" badaniach naukowych, ale nie w badaniach klinicznych - a już na pewno nie fazie trzeciej - do których właśnie odwołuje się nazwa stanowiska statistical programmer - choć nie wyłącznie. Statistical programmera znajdziesz też w bankach.
Kolejny mit do obalenia: Czy może nim zostać ktoś po informatyce? No jasne, że TAK, pod jednym warunkiem - będzie się szybko uczył wiedzy dziedzinowej. Masa statistical programmerów to właśnie ludzie po IT, którzy bardzo dobrze przyswajają wiedze dziedzinową. Ale w Polsce bardzo trudno o takich ludzi, bo nie mamy odpowiednich kierunków, dopiero raczkują.
Statistical programmera nie interesują zagadnienia systemu operacyjnego, zarządzanie pamięcią, algorytmy drzew, grafów, projektowanie i programowanie obiektowe, czy jeszcze inne zagadnienia typowe dla "klasycznego" programisty itd itp. Tak naprawdę nawet student 1 roku, dobrze ogarnięty w pisaniu czystego kodu (ważne!) mógłby to robić, gdyby miał zdolności w kierunku np. medycyny. Jeśli ktoś ma taki konik, szybko się uczy, ale jednak skończył IT, to nie ma powodu, dla którego nie miałby się nauczyć pewnych zagadnień i wykorzystywać w praktyce. Przecież po pierwsze - wiedza ta jest ogólnodostępna, po drugie - nikt nie wymaga od niego, by był lekarzem, prawda? Lekarze, zwani klinicystami, są od badań i stawiania diagnoz, statistical programmer ma tylko umieć się z nimi dogadać, ich językiem. I to często nie bezpośrednio, o czym dalej.
No i oczywiście trzeba dobrze rozumieć statystykę. Ale - i to kolejny mit - nie aż tak bardzo. W takiej branży są dwa rodzaje stanowisk: biostatyk i programista statystyczny. Ten pierwszy ma świetnie rozumieć statystykę i domenę - i dobrze, jeśli jest też dobrym programistą, a ten drugi ma umieć wyłącznie zaprogramować to, co mu nakaże ten pierwszy i ew. skomunikować się z klinicystami, sponsorem (jeśli go o to poproszą, często - nie). Statistical programmer ma za to bezbłędnie wiedzieć jak przełożyć zlecenie od biostatystyka na kod w SAS, R czy innym języku.
Co do kwot - to akurat nie jest mit. Znasz SAS i przyswajasz dobrze wiedzę z zakresu medycyny i farmacji, bo cię to kręci? No to możesz całkiem szybko (2-5 lat) dojść do 8-15 tys. netto totalnie "home based". W Polsce. Bo za granicą - nadal zdalnie - zarobek rzędu 20 tys netto to nie jest nic niecodziennego.
Tyle tylko, że książki i certyfikaty SAS trochę kosztują. Certyfikaty i kursy to kilka tys. zł. Książki - ceny w dolarach, więc 4 razy takie jak w Polsce. A książka kosztująca np. 500$ to wcale nie rzadkość. Jeśli stać cię wydać 2000 na jedną książkę, to dobrze. Oczywiście zakładamy, że nie "piracisz" książek w PDFach, zresztą nie ma ich zbyt wiele w sieci. To bardzo szczególna wiedza, tutoriale z netu jej nie zastąpią. Tak więc, by wejść w branżę, musisz najpierw sporo zainwestować. Naprawdę sporo. A raczej nie będzie inwestował ktoś, kto nie ogarnia tematu, bo mu się to zwyczajnie nie opłaca.
I wreszcie - ostatnia rzecz, programowanie w R to nie tylko umiejętność wywoływania funkcji i rysowania prostych wykresów. Jest duża przepaść między "użytkownikiem R" i "programistą R". Zresztą dotyczy to także SAS. Często wymagana jest daleko większa wiedza, np. taka: https://cran.r-project.org/web/packages/rockchalk/vignettes/Rchaeology.pdf lub taka http://adv-r.had.co.nz/