Jeśli chcesz przetworzyć źródło HTML w postać czysto tekstową, powinieneś mieć bibliotekę czy framework który Ci to wykona. Biblioteka curl będzie umożliwiała wyłącznie ściągnięcie źródeł lub pliku wskazywanego w protokole. Nie dokona interpretacji kodu HTML do postaci txt.
Stąd, proszę wybierz:
- Chcę ściągnąć źródła strony (tak pisałeś wcześniej)
- Chcę wyświetlić zawartość tekstowo.
Do 1 masz np. curl, do np. 2 masz:
- libxml2 - do prostego rozebrania tekstu z tagów HTML
- proste wywołanie w Linux: elinks -dump www.strona.com > plik.txt
- użycie obszernych rozwiązań np. WebKit https://webkit.org/
- ...
Zadaj także sobie pytanie. Co to dla Ciebie oznacza "strona" lub "zawartość"? Czy wynik działania skryptów JS na tejże także? Jeśli tak to rozwiązanie z WebKit może mieć sens lub wręcz posłużenie się dostępną przeglądarką/silnikiem renderującym w danym systemie.