Operações de Merge/Join — Pandas vs Polars
Publicado:
Atualizado:
PorJeferson Peter
1 min de leituraPolars & Pandas
Imagine que você tem dois conjuntos de dados: um de clientes e outro de pedidos.
Para analisá-los juntos, será necessário realizar um join. Vamos ver como Pandas e Polars fazem isso.
Dados de exemplo
import pandas as pd
import polars as pl
clientes = pd.DataFrame({"id": [1, 2], "nome": ["Alice", "Bob"]})
pedidos = pd.DataFrame({"id": [1, 2], "valor": [100, 200]})
clientes_pl = pl.DataFrame({"id": [1, 2], "nome": ["Alice", "Bob"]})
pedidos_pl = pl.DataFrame({"id": [1, 2], "valor": [100, 200]})
Merge no Pandas
unido_pd = pd.merge(clientes, pedidos, on="id")
print(unido_pd)
# id nome valor
# 0 1 Alice 100
# 1 2 Bob 200
Join no Polars
unido_pl = clientes_pl.join(pedidos_pl, on="id")
print(unido_pl)
# shape: (2, 3)
# ┌─────┬───────┬───────┐
# │ id ┆ nome ┆ valor │
# │ --- ┆ --- ┆ --- │
# │ i64 ┆ str ┆ i64 │
# ╞═════╪═══════╪═══════╡
# │ 1 ┆ Alice ┆ 100 │
# │ 2 ┆ Bob ┆ 200 │
# └─────┴───────┴───────┘
Conclusão
- Pandas: usa
pd.merge()com várias opções (on,how, etc.). - Polars: usa
.join()com parâmetros semelhantes. - Ambos são flexíveis, mas o Polars costuma ser mais rápido em grandes volumes.