Muitos pequenos Spark Trabalho
Se o senhor vir muitos trabalhos pequenos, é provável que esteja fazendo muitas operações com dados relativamente pequenos (<10GB). Pequenas operações levam apenas alguns segundos cada uma, mas elas se somam, e o tempo gasto em overhead por operação também se soma.
A melhor abordagem para acelerar um trabalho pequeno é executar várias operações em paralelo. Delta Live Tables faz isso automaticamente para o senhor.
Outras opções incluem:
Separe suas operações em vários notebooks e execute-as em paralelo no mesmo cluster usando o Job multitarefa.
Use o SQL warehouse se todas as suas consultas forem escritas em SQL. O SQL warehouse escala muito bem para a execução de muitas consultas em paralelo, pois foi projetado para esse tipo de carga de trabalho.
Parametrize o Notebook e use o for each tarefa para executar o Notebook várias vezes em paralelo. Use Simultaneidade para definir o nível de paralelização. Isso funciona bem com a computação sem servidor.