Referência para APIs do Apache Spark
O Databricks é construído sobre o Apache Spark, um mecanismo analítico unificado para big data e machine learning. Para obter mais informações, consulte Apache Spark em Databricks.
Apache Spark tem DataFrame APIs para operar em grandes conjuntos de dados, que incluem mais de 100 operadores, em vários idiomas.
APIs do PySpark para desenvolvedores de Python. Consulte tutorial: Carga e transformação de dados usando Apache Spark DataFrames . key As aulas incluem:
SparkSession - O ponto de entrada para programar o Spark com o dataset e a API DataFrame.
DataFrame - Uma coleção distribuída de dados agrupados em colunas nomeadas. Consulte DataFrames e MLlib baseada em DataFrame.
(Depreciado) APIs do SparkR para desenvolvedores de R. As principais classes incluem:
SparkSession - SparkSession é o ponto de entrada no SparkR. Consulte Ponto de partida: SparkSession.
SparkDataFrame - Uma coleção distribuída de dados agrupados em colunas nomeadas. Consulte Conjuntos de dados e DataFrames, Criando DataFrames e Criando SparkDataFrames.
APIs Scala para desenvolvedores Scala. key As aulas incluem:
SparkSession - O ponto de entrada para programar o Spark com o dataset e a API DataFrame. Consulte Ponto de partida: SparkSession.
dataset - Uma coleção fortemente tipada de objetos específicos de domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada
Dataset
também tem uma view não digitada chamada DataFrame, que é umDataset
de Row. Veja Datasets e DataFrames, Criando Datasets, Criando DataFrames e funções DataFrame.
APIs Java para desenvolvedores Java. key As aulas incluem:
SparkSession - O ponto de entrada para programar o Spark com o dataset e a API DataFrame. Consulte Ponto de partida: SparkSession.
dataset - Uma coleção fortemente tipada de objetos específicos de domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada
Dataset
também tem uma view não digitada chamada DataFrame, que é umDataset
de Row. Veja Datasets e DataFrames, Criando Datasets, Criando DataFrames e funções DataFrame.
Para saber como usar as APIs do Apache Spark no Databricks, consulte:
Para Java, o senhor pode executar o código Java como um trabalhoJAR .