Referência Spark API
O Databricks é construído sobre o Apache Spark, um mecanismo analítico unificado para big data e machine learning. Para obter mais informações, consulte Apache Spark em Databricks.
O Apache Spark possui APIs DataFrame para operar em grandes dataset, que incluem mais de 100 operadores. Para obter mais informações, consulte Databricks PySpark API Reference.
APIs do PySpark para desenvolvedores de Python. Consulte tutorial: Carga e transformação de dados usando Apache Spark DataFrames . key As aulas incluem:
SparkSession - O ponto de entrada para programar o Spark com o dataset e a API DataFrame.
DataFrame - Uma coleção distribuída de dados agrupados em colunas nomeadas. Consulte DataFrames e MLlib baseada em DataFrame.
Visão geral do SparkR para desenvolvedores de R. classes- key incluem:
SparkSession - SparkSession é o ponto de entrada no SparkR. Consulte Ponto de partida: SparkSession.
SparkDataFrame - Uma coleção distribuída de dados agrupados em colunas nomeadas. Consulte Conjuntos de dados e DataFrames, Criando DataFrames e Criando SparkDataFrames.
APIs do Scala. classes- key incluem:
SparkSession - O ponto de entrada para programar o Spark com o dataset e a API DataFrame. Consulte Ponto de partida: SparkSession.
dataset - Uma coleção fortemente tipada de objetos específicos de domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada
Dataset
também tem uma view não digitada chamada DataFrame, que é umDataset
de Row. Veja Datasets e DataFrames, Criando Datasets, Criando DataFrames e funções DataFrame.
APIsJava. classes- key incluem:
SparkSession - O ponto de entrada para programar o Spark com o dataset e a API DataFrame. Consulte Ponto de partida: SparkSession.
dataset - Uma coleção fortemente tipada de objetos específicos de domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada
Dataset
também tem uma view não digitada chamada DataFrame, que é umDataset
de Row. Veja Datasets e DataFrames, Criando Datasets, Criando DataFrames e funções DataFrame.
Para saber como usar as APIs do Apache Spark no Databricks, consulte:
Para Java, você pode executar o código Java como um JAR Job.