O ile pamiętam, to język miał być przenośny nie kompilator i dla danej platformy powinieneś użyć najlepszego kompilatora.
AVR jest zbyt prymitywny, żeby mówić o jakichś większych optymalizacjach.
Co do ARM - Intel miał swego czasu coś dla XScale, ale poza tym, to wszystkie ARM-y to bezpośrednie zagrożenie dla Intela, więc nawet patrząc od strony biznesowej nie liczyłbym na jakieś rewolucje :). Ale patrząc po tym, jak ARM wyparł Atomy, a teraz atakuje serwery - za chwilę wszystko może się zmienić. Do tego - rozszerzenia wektorowe ARM-a (NEON) wyglądają ciut lepiej niż ich Intelowe odpowiedniki.
Edit:
Popatrzcie na to trochę szerzej - kiedyś (90's) była idea odchodzenia od CISCów i robienia prostych procesorów RISC-owych o możliwie jak najogólnieszym zestawie prostych i szybkich instrukcji. W tamtym świecie kompilatory radziły sobie nawet nieźle. Od jakiegoś czasu (początek 2000) idziemy w drugą stronę - pojawiają się coraz potężniejsze jednostki wektorowe, dedykowane instrukcje do przeróżnych rzeczy, żeby wymienić tylko te od Intela: PCLMULQDQ, AESNI, SHA2, AVX2. Tego kompilatory najnormalniej w świecie nie ogarniają, a już zoptymalizowanie czegoś takiego jak najprostsze mnożenie macierzy przez macierz jest całkowicie poza ich zasięgiem. Cóż, pomału pozostaje nam wracać do czasów, gdzie zdecydowana większość optymalizacji będzie musiała być znowu klepana ręcznie.