Spark: Dataframe action really slow when upgraded from 2.1.0 to 2.2.1

I just upgraded spark 2.1.0 to spark 2.2.1. Has anyone seen extreme slow behavior on dataframe.filter(…).collect()?.. specifically a collect operation with filter before. dataframe.collect seems to run okay. However, dataframe.filter(…).collect() takes forever. it contains only 2 records. and its on a unit test. When I go back to spark 2.1.0, its back to normal speed

I have looked at the thread dump and could not find an obvious cause. I have made an effort to make sure all the libraries I am using are also using Spark 2.2.1. Any suggestion would be greatly appreciated.

It seems to be stuck at this stacktrace

scala.collection.mutable.FlatHashTable$class.addEntry(FlatHashTable.scala:151)

scala.collection.mutable.HashSet.addEntry(HashSet.scala:40)

scala.collection.mutable.FlatHashTable$class.addElem(FlatHashTable.scala:142)

scala.collection.mutable.HashSet.addElem(HashSet.scala:40)

scala.collection.mutable.HashSet.$plus$eq(HashSet.scala:59)

scala.collection.mutable.HashSet.$plus$eq(HashSet.scala:40)

scala.collection.generic.Growable$$anonfun$$plus$plus$eq$1.apply(Growable.scala:59)

scala.collection.generic.Growable$$anonfun$$plus$plus$eq$1.apply(Growable.scala:59)

scala.collection.mutable.HashSet.foreach(HashSet.scala:78)

scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:59)

scala.collection.mutable.AbstractSet.$plus$plus$eq(Set.scala:46)

scala.collection.mutable.HashSet.clone(HashSet.scala:83)

scala.collection.mutable.HashSet.clone(HashSet.scala:40)

org.apache.spark.sql.catalyst.expressions.ExpressionSet.$plus(ExpressionSet.scala:65)

org.apache.spark.sql.catalyst.expressions.ExpressionSet.$plus(ExpressionSet.scala:50)

scala.collection.SetLike$$anonfun$$plus$plus$1.apply(SetLike.scala:141)

scala.collection.SetLike$$anonfun$$plus$plus$1.apply(SetLike.scala:141)

scala.collection.TraversableOnce$$anonfun$foldLeft$1.apply(TraversableOnce.scala:157)

scala.collection.TraversableOnce$$anonfun$foldLeft$1.apply(TraversableOnce.scala:157)

scala.collection.immutable.HashSet$HashSet1.foreach(HashSet.scala:316)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.TraversableOnce$class.foldLeft(TraversableOnce.scala:157)

scala.collection.AbstractTraversable.foldLeft(Traversable.scala:104)

scala.collection.TraversableOnce$class.$div$colon(TraversableOnce.scala:151)

scala.collection.AbstractTraversable.$div$colon(Traversable.scala:104)

scala.collection.SetLike$class.$plus$plus(SetLike.scala:141)

org.apache.spark.sql.catalyst.expressions.ExpressionSet.$plus$plus(ExpressionSet.scala:50)

org.apache.spark.sql.catalyst.plans.logical.UnaryNode$$anonfun$getAliasedConstraints$1.apply(LogicalPlan.scala:323)

org.apache.spark.sql.catalyst.plans.logical.UnaryNode$$anonfun$getAliasedConstraints$1.apply(LogicalPlan.scala:320)

scala.collection.immutable.List.foreach(List.scala:392)

org.apache.spark.sql.catalyst.plans.logical.UnaryNode.getAliasedConstraints(LogicalPlan.scala:320)

org.apache.spark.sql.catalyst.plans.logical.Project.validConstraints(basicLogicalOperators.scala:65)

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints$lzycompute(QueryPlan.scala:188) => holding Monitor(org.apache.spark.sql.catalyst.plans.logical.Aggregate@1129881457})

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints(QueryPlan.scala:188)

org.apache.spark.sql.catalyst.plans.logical.Aggregate.validConstraints(basicLogicalOperators.scala:555)

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints$lzycompute(QueryPlan.scala:188) => holding Monitor(org.apache.spark.sql.catalyst.plans.logical.Aggregate@1129881457})

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints(QueryPlan.scala:188)

org.apache.spark.sql.catalyst.plans.QueryPlan.getConstraints(QueryPlan.scala:196)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16$$anonfun$25.apply(Optimizer.scala:717)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16$$anonfun$25.apply(Optimizer.scala:716)

scala.collection.TraversableLike$$anonfun$partition$1.apply(TraversableLike.scala:314)

scala.collection.TraversableLike$$anonfun$partition$1.apply(TraversableLike.scala:314)

scala.collection.immutable.List.foreach(List.scala:392)

scala.collection.TraversableLike$class.partition(TraversableLike.scala:314)

scala.collection.AbstractTraversable.partition(Traversable.scala:104)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16.applyOrElse(Optimizer.scala:716)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16.applyOrElse(Optimizer.scala:705)

org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$2.apply(TreeNode.scala:267)

org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$2.apply(TreeNode.scala:267)

org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:70)

org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:266)

org.apache.spark.sql.catalyst.trees.TreeNode.transform(TreeNode.scala:256)

org.apache.spark.sql.catalyst.optimizer.PruneFilters.apply(Optimizer.scala:705)

org.apache.spark.sql.catalyst.optimizer.PruneFilters.apply(Optimizer.scala:704)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:85)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:82)

scala.collection.LinearSeqOptimized$class.foldLeft(LinearSeqOptimized.scala:124)

scala.collection.immutable.List.foldLeft(List.scala:84)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:82)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:74)

scala.collection.immutable.List.foreach(List.scala:392)

org.apache.spark.sql.catalyst.rules.RuleExecutor.execute(RuleExecutor.scala:74)

org.apache.spark.sql.execution.QueryExecution.optimizedPlan$lzycompute(QueryExecution.scala:78) => holding Monitor(org.apache.spark.sql.execution.QueryExecution@1193326176})

org.apache.spark.sql.execution.QueryExecution.optimizedPlan(QueryExecution.scala:78)

org.apache.spark.sql.execution.QueryExecution.sparkPlan$lzycompute(QueryExecution.scala:84) => holding Monitor(org.apache.spark.sql.execution.QueryExecution@1193326176})

org.apache.spark.sql.execution.QueryExecution.sparkPlan(QueryExecution.scala:80)

org.apache.spark.sql.execution.QueryExecution.executedPlan$lzycompute(QueryExecution.scala:89) => holding Monitor(org.apache.spark.sql.execution.QueryExecution@1193326176})

org.apache.spark.sql.execution.QueryExecution.executedPlan(QueryExecution.scala:89)

org.apache.spark.sql.Dataset.withAction(Dataset.scala:2837)

org.apache.spark.sql.Dataset.collect(Dataset.scala:2387)

edited Nov 22 '18 at 1:11

asked Nov 20 '18 at 20:03

Karan Gupta

113

2

need more details. it was very generic question. have you checked spark ui like stages etc...?

– Ram Ghadiyaram
Nov 20 '18 at 20:19

@RamGhadiyaram yeah spark ui shows that there are no "ACTIVE" jobs running. In other words, number of "COMPLETED" jobs it shows is 28 and it stays that way for the rest of the time. So I pause the execution of my test using IntelliJ to check what line of code its running or stuck at. Everytime I pause it, it shows to be executing some lines of code in scala.collection package. To be exact, sameElements is the function that it gets paused at a lot..

– Karan Gupta
Nov 22 '18 at 0:55

add a comment |

It seems to be stuck at this stacktrace

scala.collection.mutable.FlatHashTable$class.addEntry(FlatHashTable.scala:151)

scala.collection.mutable.HashSet.addEntry(HashSet.scala:40)

scala.collection.mutable.FlatHashTable$class.addElem(FlatHashTable.scala:142)

scala.collection.mutable.HashSet.addElem(HashSet.scala:40)

scala.collection.mutable.HashSet.$plus$eq(HashSet.scala:59)

scala.collection.mutable.HashSet.$plus$eq(HashSet.scala:40)

scala.collection.generic.Growable$$anonfun$$plus$plus$eq$1.apply(Growable.scala:59)

scala.collection.generic.Growable$$anonfun$$plus$plus$eq$1.apply(Growable.scala:59)

scala.collection.mutable.HashSet.foreach(HashSet.scala:78)

scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:59)

scala.collection.mutable.AbstractSet.$plus$plus$eq(Set.scala:46)

scala.collection.mutable.HashSet.clone(HashSet.scala:83)

scala.collection.mutable.HashSet.clone(HashSet.scala:40)

org.apache.spark.sql.catalyst.expressions.ExpressionSet.$plus(ExpressionSet.scala:65)

org.apache.spark.sql.catalyst.expressions.ExpressionSet.$plus(ExpressionSet.scala:50)

scala.collection.SetLike$$anonfun$$plus$plus$1.apply(SetLike.scala:141)

scala.collection.SetLike$$anonfun$$plus$plus$1.apply(SetLike.scala:141)

scala.collection.TraversableOnce$$anonfun$foldLeft$1.apply(TraversableOnce.scala:157)

scala.collection.TraversableOnce$$anonfun$foldLeft$1.apply(TraversableOnce.scala:157)

scala.collection.immutable.HashSet$HashSet1.foreach(HashSet.scala:316)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.TraversableOnce$class.foldLeft(TraversableOnce.scala:157)

scala.collection.AbstractTraversable.foldLeft(Traversable.scala:104)

scala.collection.TraversableOnce$class.$div$colon(TraversableOnce.scala:151)

scala.collection.AbstractTraversable.$div$colon(Traversable.scala:104)

scala.collection.SetLike$class.$plus$plus(SetLike.scala:141)

org.apache.spark.sql.catalyst.expressions.ExpressionSet.$plus$plus(ExpressionSet.scala:50)

org.apache.spark.sql.catalyst.plans.logical.UnaryNode$$anonfun$getAliasedConstraints$1.apply(LogicalPlan.scala:323)

org.apache.spark.sql.catalyst.plans.logical.UnaryNode$$anonfun$getAliasedConstraints$1.apply(LogicalPlan.scala:320)

scala.collection.immutable.List.foreach(List.scala:392)

org.apache.spark.sql.catalyst.plans.logical.UnaryNode.getAliasedConstraints(LogicalPlan.scala:320)

org.apache.spark.sql.catalyst.plans.logical.Project.validConstraints(basicLogicalOperators.scala:65)

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints$lzycompute(QueryPlan.scala:188) => holding Monitor(org.apache.spark.sql.catalyst.plans.logical.Aggregate@1129881457})

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints(QueryPlan.scala:188)

org.apache.spark.sql.catalyst.plans.logical.Aggregate.validConstraints(basicLogicalOperators.scala:555)

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints$lzycompute(QueryPlan.scala:188) => holding Monitor(org.apache.spark.sql.catalyst.plans.logical.Aggregate@1129881457})

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints(QueryPlan.scala:188)

org.apache.spark.sql.catalyst.plans.QueryPlan.getConstraints(QueryPlan.scala:196)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16$$anonfun$25.apply(Optimizer.scala:717)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16$$anonfun$25.apply(Optimizer.scala:716)

scala.collection.TraversableLike$$anonfun$partition$1.apply(TraversableLike.scala:314)

scala.collection.TraversableLike$$anonfun$partition$1.apply(TraversableLike.scala:314)

scala.collection.immutable.List.foreach(List.scala:392)

scala.collection.TraversableLike$class.partition(TraversableLike.scala:314)

scala.collection.AbstractTraversable.partition(Traversable.scala:104)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16.applyOrElse(Optimizer.scala:716)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16.applyOrElse(Optimizer.scala:705)

org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$2.apply(TreeNode.scala:267)

org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$2.apply(TreeNode.scala:267)

org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:70)

org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:266)

org.apache.spark.sql.catalyst.trees.TreeNode.transform(TreeNode.scala:256)

org.apache.spark.sql.catalyst.optimizer.PruneFilters.apply(Optimizer.scala:705)

org.apache.spark.sql.catalyst.optimizer.PruneFilters.apply(Optimizer.scala:704)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:85)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:82)

scala.collection.LinearSeqOptimized$class.foldLeft(LinearSeqOptimized.scala:124)

scala.collection.immutable.List.foldLeft(List.scala:84)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:82)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:74)

scala.collection.immutable.List.foreach(List.scala:392)

org.apache.spark.sql.catalyst.rules.RuleExecutor.execute(RuleExecutor.scala:74)

org.apache.spark.sql.execution.QueryExecution.optimizedPlan$lzycompute(QueryExecution.scala:78) => holding Monitor(org.apache.spark.sql.execution.QueryExecution@1193326176})

org.apache.spark.sql.execution.QueryExecution.optimizedPlan(QueryExecution.scala:78)

org.apache.spark.sql.execution.QueryExecution.sparkPlan$lzycompute(QueryExecution.scala:84) => holding Monitor(org.apache.spark.sql.execution.QueryExecution@1193326176})

org.apache.spark.sql.execution.QueryExecution.sparkPlan(QueryExecution.scala:80)

org.apache.spark.sql.execution.QueryExecution.executedPlan$lzycompute(QueryExecution.scala:89) => holding Monitor(org.apache.spark.sql.execution.QueryExecution@1193326176})

org.apache.spark.sql.execution.QueryExecution.executedPlan(QueryExecution.scala:89)

org.apache.spark.sql.Dataset.withAction(Dataset.scala:2837)

org.apache.spark.sql.Dataset.collect(Dataset.scala:2387)

edited Nov 22 '18 at 1:11

asked Nov 20 '18 at 20:03

Karan Gupta

113

2

need more details. it was very generic question. have you checked spark ui like stages etc...?

– Ram Ghadiyaram
Nov 20 '18 at 20:19

@RamGhadiyaram yeah spark ui shows that there are no "ACTIVE" jobs running. In other words, number of "COMPLETED" jobs it shows is 28 and it stays that way for the rest of the time. So I pause the execution of my test using IntelliJ to check what line of code its running or stuck at. Everytime I pause it, it shows to be executing some lines of code in scala.collection package. To be exact, sameElements is the function that it gets paused at a lot..

– Karan Gupta
Nov 22 '18 at 0:55

add a comment |

It seems to be stuck at this stacktrace

scala.collection.mutable.FlatHashTable$class.addEntry(FlatHashTable.scala:151)

scala.collection.mutable.HashSet.addEntry(HashSet.scala:40)

scala.collection.mutable.FlatHashTable$class.addElem(FlatHashTable.scala:142)

scala.collection.mutable.HashSet.addElem(HashSet.scala:40)

scala.collection.mutable.HashSet.$plus$eq(HashSet.scala:59)

scala.collection.mutable.HashSet.$plus$eq(HashSet.scala:40)

scala.collection.generic.Growable$$anonfun$$plus$plus$eq$1.apply(Growable.scala:59)

scala.collection.generic.Growable$$anonfun$$plus$plus$eq$1.apply(Growable.scala:59)

scala.collection.mutable.HashSet.foreach(HashSet.scala:78)

scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:59)

scala.collection.mutable.AbstractSet.$plus$plus$eq(Set.scala:46)

scala.collection.mutable.HashSet.clone(HashSet.scala:83)

scala.collection.mutable.HashSet.clone(HashSet.scala:40)

org.apache.spark.sql.catalyst.expressions.ExpressionSet.$plus(ExpressionSet.scala:65)

org.apache.spark.sql.catalyst.expressions.ExpressionSet.$plus(ExpressionSet.scala:50)

scala.collection.SetLike$$anonfun$$plus$plus$1.apply(SetLike.scala:141)

scala.collection.SetLike$$anonfun$$plus$plus$1.apply(SetLike.scala:141)

scala.collection.TraversableOnce$$anonfun$foldLeft$1.apply(TraversableOnce.scala:157)

scala.collection.TraversableOnce$$anonfun$foldLeft$1.apply(TraversableOnce.scala:157)

scala.collection.immutable.HashSet$HashSet1.foreach(HashSet.scala:316)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.TraversableOnce$class.foldLeft(TraversableOnce.scala:157)

scala.collection.AbstractTraversable.foldLeft(Traversable.scala:104)

scala.collection.TraversableOnce$class.$div$colon(TraversableOnce.scala:151)

scala.collection.AbstractTraversable.$div$colon(Traversable.scala:104)

scala.collection.SetLike$class.$plus$plus(SetLike.scala:141)

org.apache.spark.sql.catalyst.expressions.ExpressionSet.$plus$plus(ExpressionSet.scala:50)

org.apache.spark.sql.catalyst.plans.logical.UnaryNode$$anonfun$getAliasedConstraints$1.apply(LogicalPlan.scala:323)

org.apache.spark.sql.catalyst.plans.logical.UnaryNode$$anonfun$getAliasedConstraints$1.apply(LogicalPlan.scala:320)

scala.collection.immutable.List.foreach(List.scala:392)

org.apache.spark.sql.catalyst.plans.logical.UnaryNode.getAliasedConstraints(LogicalPlan.scala:320)

org.apache.spark.sql.catalyst.plans.logical.Project.validConstraints(basicLogicalOperators.scala:65)

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints$lzycompute(QueryPlan.scala:188) => holding Monitor(org.apache.spark.sql.catalyst.plans.logical.Aggregate@1129881457})

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints(QueryPlan.scala:188)

org.apache.spark.sql.catalyst.plans.logical.Aggregate.validConstraints(basicLogicalOperators.scala:555)

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints$lzycompute(QueryPlan.scala:188) => holding Monitor(org.apache.spark.sql.catalyst.plans.logical.Aggregate@1129881457})

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints(QueryPlan.scala:188)

org.apache.spark.sql.catalyst.plans.QueryPlan.getConstraints(QueryPlan.scala:196)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16$$anonfun$25.apply(Optimizer.scala:717)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16$$anonfun$25.apply(Optimizer.scala:716)

scala.collection.TraversableLike$$anonfun$partition$1.apply(TraversableLike.scala:314)

scala.collection.TraversableLike$$anonfun$partition$1.apply(TraversableLike.scala:314)

scala.collection.immutable.List.foreach(List.scala:392)

scala.collection.TraversableLike$class.partition(TraversableLike.scala:314)

scala.collection.AbstractTraversable.partition(Traversable.scala:104)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16.applyOrElse(Optimizer.scala:716)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16.applyOrElse(Optimizer.scala:705)

org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$2.apply(TreeNode.scala:267)

org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$2.apply(TreeNode.scala:267)

org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:70)

org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:266)

org.apache.spark.sql.catalyst.trees.TreeNode.transform(TreeNode.scala:256)

org.apache.spark.sql.catalyst.optimizer.PruneFilters.apply(Optimizer.scala:705)

org.apache.spark.sql.catalyst.optimizer.PruneFilters.apply(Optimizer.scala:704)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:85)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:82)

scala.collection.LinearSeqOptimized$class.foldLeft(LinearSeqOptimized.scala:124)

scala.collection.immutable.List.foldLeft(List.scala:84)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:82)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:74)

scala.collection.immutable.List.foreach(List.scala:392)

org.apache.spark.sql.catalyst.rules.RuleExecutor.execute(RuleExecutor.scala:74)

org.apache.spark.sql.execution.QueryExecution.optimizedPlan$lzycompute(QueryExecution.scala:78) => holding Monitor(org.apache.spark.sql.execution.QueryExecution@1193326176})

org.apache.spark.sql.execution.QueryExecution.optimizedPlan(QueryExecution.scala:78)

org.apache.spark.sql.execution.QueryExecution.sparkPlan$lzycompute(QueryExecution.scala:84) => holding Monitor(org.apache.spark.sql.execution.QueryExecution@1193326176})

org.apache.spark.sql.execution.QueryExecution.sparkPlan(QueryExecution.scala:80)

org.apache.spark.sql.execution.QueryExecution.executedPlan$lzycompute(QueryExecution.scala:89) => holding Monitor(org.apache.spark.sql.execution.QueryExecution@1193326176})

org.apache.spark.sql.execution.QueryExecution.executedPlan(QueryExecution.scala:89)

org.apache.spark.sql.Dataset.withAction(Dataset.scala:2837)

org.apache.spark.sql.Dataset.collect(Dataset.scala:2387)

edited Nov 22 '18 at 1:11

asked Nov 20 '18 at 20:03

Karan Gupta

113

It seems to be stuck at this stacktrace

scala.collection.mutable.FlatHashTable$class.addEntry(FlatHashTable.scala:151)

scala.collection.mutable.HashSet.addEntry(HashSet.scala:40)

scala.collection.mutable.FlatHashTable$class.addElem(FlatHashTable.scala:142)

scala.collection.mutable.HashSet.addElem(HashSet.scala:40)

scala.collection.mutable.HashSet.$plus$eq(HashSet.scala:59)

scala.collection.mutable.HashSet.$plus$eq(HashSet.scala:40)

scala.collection.generic.Growable$$anonfun$$plus$plus$eq$1.apply(Growable.scala:59)

scala.collection.generic.Growable$$anonfun$$plus$plus$eq$1.apply(Growable.scala:59)

scala.collection.mutable.HashSet.foreach(HashSet.scala:78)

scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:59)

scala.collection.mutable.AbstractSet.$plus$plus$eq(Set.scala:46)

scala.collection.mutable.HashSet.clone(HashSet.scala:83)

scala.collection.mutable.HashSet.clone(HashSet.scala:40)

org.apache.spark.sql.catalyst.expressions.ExpressionSet.$plus(ExpressionSet.scala:65)

org.apache.spark.sql.catalyst.expressions.ExpressionSet.$plus(ExpressionSet.scala:50)

scala.collection.SetLike$$anonfun$$plus$plus$1.apply(SetLike.scala:141)

scala.collection.SetLike$$anonfun$$plus$plus$1.apply(SetLike.scala:141)

scala.collection.TraversableOnce$$anonfun$foldLeft$1.apply(TraversableOnce.scala:157)

scala.collection.TraversableOnce$$anonfun$foldLeft$1.apply(TraversableOnce.scala:157)

scala.collection.immutable.HashSet$HashSet1.foreach(HashSet.scala:316)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.immutable.HashSet$HashTrieSet.foreach(HashSet.scala:972)

scala.collection.TraversableOnce$class.foldLeft(TraversableOnce.scala:157)

scala.collection.AbstractTraversable.foldLeft(Traversable.scala:104)

scala.collection.TraversableOnce$class.$div$colon(TraversableOnce.scala:151)

scala.collection.AbstractTraversable.$div$colon(Traversable.scala:104)

scala.collection.SetLike$class.$plus$plus(SetLike.scala:141)

org.apache.spark.sql.catalyst.expressions.ExpressionSet.$plus$plus(ExpressionSet.scala:50)

org.apache.spark.sql.catalyst.plans.logical.UnaryNode$$anonfun$getAliasedConstraints$1.apply(LogicalPlan.scala:323)

org.apache.spark.sql.catalyst.plans.logical.UnaryNode$$anonfun$getAliasedConstraints$1.apply(LogicalPlan.scala:320)

scala.collection.immutable.List.foreach(List.scala:392)

org.apache.spark.sql.catalyst.plans.logical.UnaryNode.getAliasedConstraints(LogicalPlan.scala:320)

org.apache.spark.sql.catalyst.plans.logical.Project.validConstraints(basicLogicalOperators.scala:65)

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints$lzycompute(QueryPlan.scala:188) => holding Monitor(org.apache.spark.sql.catalyst.plans.logical.Aggregate@1129881457})

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints(QueryPlan.scala:188)

org.apache.spark.sql.catalyst.plans.logical.Aggregate.validConstraints(basicLogicalOperators.scala:555)

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints$lzycompute(QueryPlan.scala:188) => holding Monitor(org.apache.spark.sql.catalyst.plans.logical.Aggregate@1129881457})

org.apache.spark.sql.catalyst.plans.QueryPlan.constraints(QueryPlan.scala:188)

org.apache.spark.sql.catalyst.plans.QueryPlan.getConstraints(QueryPlan.scala:196)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16$$anonfun$25.apply(Optimizer.scala:717)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16$$anonfun$25.apply(Optimizer.scala:716)

scala.collection.TraversableLike$$anonfun$partition$1.apply(TraversableLike.scala:314)

scala.collection.TraversableLike$$anonfun$partition$1.apply(TraversableLike.scala:314)

scala.collection.immutable.List.foreach(List.scala:392)

scala.collection.TraversableLike$class.partition(TraversableLike.scala:314)

scala.collection.AbstractTraversable.partition(Traversable.scala:104)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16.applyOrElse(Optimizer.scala:716)

org.apache.spark.sql.catalyst.optimizer.PruneFilters$$anonfun$apply$16.applyOrElse(Optimizer.scala:705)

org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$2.apply(TreeNode.scala:267)

org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$2.apply(TreeNode.scala:267)

org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:70)

org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:266)

org.apache.spark.sql.catalyst.trees.TreeNode.transform(TreeNode.scala:256)

org.apache.spark.sql.catalyst.optimizer.PruneFilters.apply(Optimizer.scala:705)

org.apache.spark.sql.catalyst.optimizer.PruneFilters.apply(Optimizer.scala:704)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:85)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:82)

scala.collection.LinearSeqOptimized$class.foldLeft(LinearSeqOptimized.scala:124)

scala.collection.immutable.List.foldLeft(List.scala:84)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:82)

org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:74)

scala.collection.immutable.List.foreach(List.scala:392)

org.apache.spark.sql.catalyst.rules.RuleExecutor.execute(RuleExecutor.scala:74)

org.apache.spark.sql.execution.QueryExecution.optimizedPlan$lzycompute(QueryExecution.scala:78) => holding Monitor(org.apache.spark.sql.execution.QueryExecution@1193326176})

org.apache.spark.sql.execution.QueryExecution.optimizedPlan(QueryExecution.scala:78)

org.apache.spark.sql.execution.QueryExecution.sparkPlan$lzycompute(QueryExecution.scala:84) => holding Monitor(org.apache.spark.sql.execution.QueryExecution@1193326176})

org.apache.spark.sql.execution.QueryExecution.sparkPlan(QueryExecution.scala:80)

org.apache.spark.sql.execution.QueryExecution.executedPlan$lzycompute(QueryExecution.scala:89) => holding Monitor(org.apache.spark.sql.execution.QueryExecution@1193326176})

org.apache.spark.sql.execution.QueryExecution.executedPlan(QueryExecution.scala:89)

org.apache.spark.sql.Dataset.withAction(Dataset.scala:2837)

org.apache.spark.sql.Dataset.collect(Dataset.scala:2387)

java scala apache-spark

edited Nov 22 '18 at 1:11

asked Nov 20 '18 at 20:03

Karan Gupta

113

edited Nov 22 '18 at 1:11

asked Nov 20 '18 at 20:03

Karan Gupta

113

edited Nov 22 '18 at 1:11

asked Nov 20 '18 at 20:03

Karan Gupta

113

asked Nov 20 '18 at 20:03

Karan Gupta

113

asked Nov 20 '18 at 20:03

Karan Gupta

113

2

need more details. it was very generic question. have you checked spark ui like stages etc...?

– Ram Ghadiyaram
Nov 20 '18 at 20:19

@RamGhadiyaram yeah spark ui shows that there are no "ACTIVE" jobs running. In other words, number of "COMPLETED" jobs it shows is 28 and it stays that way for the rest of the time. So I pause the execution of my test using IntelliJ to check what line of code its running or stuck at. Everytime I pause it, it shows to be executing some lines of code in scala.collection package. To be exact, sameElements is the function that it gets paused at a lot..

– Karan Gupta
Nov 22 '18 at 0:55

add a comment |

2

need more details. it was very generic question. have you checked spark ui like stages etc...?

– Ram Ghadiyaram
Nov 20 '18 at 20:19

@RamGhadiyaram yeah spark ui shows that there are no "ACTIVE" jobs running. In other words, number of "COMPLETED" jobs it shows is 28 and it stays that way for the rest of the time. So I pause the execution of my test using IntelliJ to check what line of code its running or stuck at. Everytime I pause it, it shows to be executing some lines of code in scala.collection package. To be exact, sameElements is the function that it gets paused at a lot..

– Karan Gupta
Nov 22 '18 at 0:55

need more details. it was very generic question. have you checked spark ui like stages etc...?

– Ram Ghadiyaram
Nov 20 '18 at 20:19

@RamGhadiyaram yeah spark ui shows that there are no "ACTIVE" jobs running. In other words, number of "COMPLETED" jobs it shows is 28 and it stays that way for the rest of the time. So I pause the execution of my test using IntelliJ to check what line of code its running or stuck at. Everytime I pause it, it shows to be executing some lines of code in scala.collection package. To be exact, sameElements is the function that it gets paused at a lot..

– Karan Gupta
Nov 22 '18 at 0:55

add a comment |

1 Answer
1

active

oldest

votes

Fixed it. So the problem was regarding this property spark.sql.constraintPropagation.enabled. The default value is true in Spark 2.2.1. The stacktrace indicates that its stuck in some query plan generation. I found my answer in this blog

Short answer: Set the said property to false. spark.conf.set(SQLConf.CONSTRAINT_PROPAGATION_ENABLED.key, false)

answered Nov 22 '18 at 21:39

Karan Gupta

113

add a comment |

Your Answer

StackExchange.ifUsing("editor", function () {
StackExchange.using("externalEditor", function () {
StackExchange.using("snippets", function () {
StackExchange.snippets.init();
});
});
}, "code-snippets");

StackExchange.ready(function() {
var channelOptions = {
tags: "".split(" "),
id: "1"
};
initTagRenderer("".split(" "), "".split(" "), channelOptions);

StackExchange.using("externalEditor", function() {
// Have to fire editor after snippets, if snippets enabled
if (StackExchange.settings.snippets.snippetsEnabled) {
StackExchange.using("snippets", function() {
createEditor();
});
}
else {
createEditor();
}
});

function createEditor() {
StackExchange.prepareEditor({
heartbeatType: 'answer',
autoActivateHeartbeat: false,
convertImagesToLinks: true,
noModals: true,
showLowRepImageUploadWarning: true,
reputationToPostImages: 10,
bindNavPrevention: true,
postfix: "",
imageUploader: {
brandingHtml: "Powered by u003ca class="icon-imgur-white" href="https://imgur.com/"u003eu003c/au003e",
contentPolicyHtml: "User contributions licensed under u003ca href="https://creativecommons.org/licenses/by-sa/3.0/"u003ecc by-sa 3.0 with attribution requiredu003c/au003e u003ca href="https://stackoverflow.com/legal/content-policy"u003e(content policy)u003c/au003e",
allowUrls: true
},
onDemand: true,
discardSelector: ".discard-answer"
,immediatelyShowMarkdownHelp:true
});

}
});

draft saved

draft discarded

Sign up or log in

StackExchange.ready(function () {
StackExchange.helpers.onClickDraftSave('#login-link');
});

Post as a guest

Name

Required, but never shown

StackExchange.ready(
function () {
StackExchange.openid.initPostLogin('.new-post-login', 'https%3a%2f%2fstackoverflow.com%2fquestions%2f53400713%2fspark-dataframe-action-really-slow-when-upgraded-from-2-1-0-to-2-2-1%23new-answer', 'question_page');
}
);

Post as a guest

Name

Required, but never shown

1 Answer
1

active

oldest

votes

1 Answer
1

active

oldest

votes

Short answer: Set the said property to false. spark.conf.set(SQLConf.CONSTRAINT_PROPAGATION_ENABLED.key, false)

answered Nov 22 '18 at 21:39

Karan Gupta

113

add a comment |

Short answer: Set the said property to false. spark.conf.set(SQLConf.CONSTRAINT_PROPAGATION_ENABLED.key, false)

answered Nov 22 '18 at 21:39

Karan Gupta

113

add a comment |

Short answer: Set the said property to false. spark.conf.set(SQLConf.CONSTRAINT_PROPAGATION_ENABLED.key, false)

answered Nov 22 '18 at 21:39

Karan Gupta

113

Short answer: Set the said property to false. spark.conf.set(SQLConf.CONSTRAINT_PROPAGATION_ENABLED.key, false)

answered Nov 22 '18 at 21:39

Karan Gupta

113

answered Nov 22 '18 at 21:39

Karan Gupta

113

answered Nov 22 '18 at 21:39

Karan Gupta

113

answered Nov 22 '18 at 21:39

Karan Gupta

113

add a comment |

draft saved

draft discarded

Thanks for contributing an answer to Stack Overflow!

Please be sure to answer the question. Provide details and share your research!

But avoid …

Asking for help, clarification, or responding to other answers.

Making statements based on opinion; back them up with references or personal experience.

To learn more, see our tips on writing great answers.

draft saved

draft discarded

Sign up or log in

StackExchange.ready(function () {
StackExchange.helpers.onClickDraftSave('#login-link');
});

Post as a guest

Name

Required, but never shown

Post as a guest

Name

Required, but never shown

Sign up or log in

StackExchange.ready(function () {
StackExchange.helpers.onClickDraftSave('#login-link');
});

Post as a guest

Name

Required, but never shown

Sign up or log in

StackExchange.ready(function () {
StackExchange.helpers.onClickDraftSave('#login-link');
});

Post as a guest

Name

Required, but never shown

Sign up or log in

StackExchange.ready(function () {
StackExchange.helpers.onClickDraftSave('#login-link');
});

Post as a guest

Name

Required, but never shown

Name

Required, but never shown

Name

Required, but never shown

This page is only for reference, If you need detailed information, please check here

Search This Blog

Ufyukyu