Usar o Agente de Ciência de Dados do Colab Enterprise com o BigQuery

O Agente de Ciência de Dados (DSA, na sigla em inglês) para Colab Enterprise e BigQuery permite automatizar a análise exploratória de dados, realizar tarefas de machine learning e fornecer insights, tudo em um notebook do Colab Enterprise.

Antes de começar

Faça login na sua Google Cloud conta do. Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho dos nossos produtos em situações reais. Clientes novos também recebem US $300 em créditos para executar, testar e implantar cargas de trabalho.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Ative as APIs do BigQuery, da Vertex AI, do Dataform e do Compute Engine.
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder papéis.
Ativar as APIs

Para novos projetos, a API BigQuery é ativada automaticamente.

Se você não conhece o Colab Enterprise no BigQuery, consulte as etapas de configuração na página Criar notebooks.

Limitações

O Agente de Ciência de Dados só está disponível no ambiente do Colab Enterprise.
O Agente de Ciência de Dados oferece suporte às seguintes fontes de dados:
- Arquivos CSV
- Tabelas do BigQuery
O código produzido pelo Agente de Ciência de Dados só é executado no ambiente de execução do notebook.
O Agente de Ciência de Dados não é compatível com projetos que ativaram o VPC Service Controls.
A pesquisa de tabelas do BigQuery usando a função @mention é limitada ao projeto atual. Use o seletor de tabelas para pesquisar em projetos.
A função @mention só pesquisa tabelas do BigQuery. Para pesquisar arquivos de dados que podem ser enviados, use o símbolo +.
O PySpark no Agente de Ciência de Dados só gera código do Managed Service for Apache Spark 4.0. O DSA pode ajudar você a fazer upgrade para o Managed Service for Apache Spark 4.0, mas os usuários que precisam de versões anteriores não devem usar o Agente de Ciência de Dados.

Quando usar o Agente de Ciência de Dados

O Agente de Ciência de Dados ajuda em tarefas que vão desde a análise exploratória de dados até a geração de previsões e estimativas de machine learning. Você pode usar o DSA para:

Processamento de dados em grande escala: use o BigQuery ML, o BigQuery DataFrames ou o Managed Service for Apache Spark para realizar o processamento de dados distribuídos em grandes conjuntos de dados. Isso permite limpar, transformar e analisar dados grandes demais para caber na memória de uma única máquina.
Gerar um plano: gere e modifique um plano para concluir uma tarefa específica usando ferramentas comuns, como Python, SQL, Managed Service for Apache Spark e BigQuery DataFrames.
Exploração de dados: explore um conjunto de dados para entender a estrutura dele, identificar possíveis problemas, como valores ausentes e outliers, e examinar a distribuição de variáveis principais usando Python ou SQL.
Limpeza de dados: limpe seus dados. Por exemplo, remova pontos de dados que são outliers.
Manipulação de dados: converta atributos categóricos em representações numéricas usando técnicas como codificação one-hot ou codificação de rótulos ou usando ferramentas de transformação de atributos do BigQuery ML. Crie novos atributos para análise.
Análise de dados: analise as relações entre diferentes variáveis. Calcule as correlações entre atributos numéricos e explore as distribuições de atributos categóricos. Procure padrões e tendências nos dados.
Visualização de dados: crie visualizações, como histogramas, diagramas de caixa, gráficos de dispersão e gráficos de barras que representam as distribuições de variáveis individuais e as relações entre elas. Também é possível criar visualizações em Python para tabelas armazenadas no BigQuery.
Engenharia de atributos: crie novos atributos de um conjunto de dados limpo.
Divisão de dados: divida um conjunto de dados projetado em conjuntos de dados de treinamento, validação, e teste.
Treinamento de modelos: treine um modelo usando os dados de treinamento em um DataFrame do pandas (X_train, y_train), BigQuery DataFrames, um DataFrame do PySpark ou usando a CREATE MODEL do BigQuery ML com tabelas do BigQuery.
Otimização de modelos: otimize um modelo usando o conjunto de validação. Explore modelos alternativos, como DecisionTreeRegressor e RandomForestRegressor, e compare o desempenho deles.
Avaliação de modelos: avalie o desempenho do modelo em um conjunto de dados de teste usando um DataFrame do pandas, BigQuery DataFrames ou um DataFrame do PySpark. Também é possível avaliar a qualidade do modelo e comparar modelos usando o BigQuery ML funções de avaliação de modelos para modelos treinados usando o BigQuery ML.
Inferência de modelos: realize a inferência com modelos treinados do BigQuery ML, modelos importados e modelos remotos usando as funções de inferência do BigQuery ML. Também é possível usar o método model.predict() do BigFrames ou transformadores do PySpark para fazer previsões.

Usar o Agente de Ciência de Dados no BigQuery

As etapas a seguir mostram como usar o Agente de Ciência de Dados no BigQuery.

Crie ou abra um notebook do Colab Enterprise.
Opcional: faça referência aos dados de uma das seguintes maneiras:
- Faça upload de um arquivo CSV ou use o símbolo + no comando para pesquisar arquivos disponíveis.
- Escolha uma ou mais tabelas do BigQuery no seletor de tabelas do projeto atual ou de outros projetos a que você tem acesso.
- Faça referência a um nome de tabela do BigQuery no comando neste formato: project_id:dataset.table.
- Digite o símbolo @ para pesquisar um nome de tabela do BigQuery usando a função @mention.
Insira um comando que descreva a análise de dados que você quer realizar ou o protótipo que você quer criar. O comportamento padrão do Agente de Ciência de Dados é gerar código Python usando bibliotecas de código aberto, como o sklearn, para realizar tarefas complexas de machine learning. Para usar uma ferramenta específica, inclua as seguintes palavras-chave no comando:
- Se você quiser usar o BigQuery ML, inclua a palavra-chave "SQL".
- Se você quiser usar o "BigQuery DataFrames", especifique as palavras-chave "BigFrames" ou "BigQuery DataFrames".
- Se você quiser usar o PySpark, inclua as palavras-chave "Apache Spark" ou "PySpark".
Se precisar de ajuda, consulte os comandos de exemplo.
Confira os resultados.

Analisar um arquivo CSV

Para analisar um CSV usando o Agente de Ciência de Dados no BigQuery, siga estas etapas.

Acessar a página do BigQuery.

Acessar o BigQuery
Na página de boas-vindas do BigQuery Studio, em Criar novo, clique em Notebook.

Como alternativa, na barra de guias, clique na seta suspensa ao lado do ícone + e clique em Notebook > Notebook vazio.
Clique no Ativar o Gemini no Colab botão para abrir a caixa de diálogo de chat.

Observação: é possível mover a caixa de diálogo de chat para um painel separado fora do notebook clicando no ícone Mover para o painel.
Faça upload do arquivo CSV.
1. Na caixa de diálogo de chat, clique em Adicionar ao Gemini > Fazer upload.
2. Se necessário, autorize sua Conta do Google.
3. Procure o local do arquivo CSV e clique em Abrir.
Como alternativa, digite o símbolo + no comando para pesquisar arquivos disponíveis para upload.
Insira o comando na janela de chat. Por exemplo: Identify trends and anomalies in this file.
Clique em Enviar. Os resultados aparecem na janela de chat.
Você pode pedir ao agente para mudar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no notebook. Clique em Cancelar para interromper.

Analisar tabelas do BigQuery

Para analisar uma tabela do BigQuery, escolha uma ou mais tabelas no seletor de tabelas, forneça uma referência à tabela no comando ou pesquise uma tabela usando o símbolo @.

Acessar a página do BigQuery.

Acessar o BigQuery
Na página de boas-vindas do BigQuery Studio, em Criar novo, clique em Notebook.

Como alternativa, na barra de guias, clique na seta suspensa ao lado do ícone + e clique em Notebook > Notebook vazio.
Clique no Ativar o Gemini no Colab botão para abrir a caixa de diálogo de chat.

Observação: é possível mover a caixa de diálogo de chat para um painel separado fora do notebook clicando no ícone Mover para o painel.
Insira o comando na janela de chat.
Faça referência aos dados de uma das seguintes maneiras:
1. Escolha uma ou mais tabelas usando o seletor de tabelas:
  1. Clique em Adicionar ao Gemini > Tabelas do BigQuery.
  2. Na janela Tabelas do BigQuery, selecione uma ou mais tabelas no seu projeto. É possível pesquisar tabelas em projetos e filtrar tabelas usando a barra de pesquisa.
2. Inclua um nome de tabela do BigQuery diretamente no comando. Por exemplo: "Me ajude a realizar a análise de dados exploratória e a receber insights sobre os dados nesta tabela: project_id:dataset.table."
  
  Substitua:
  - project_id: ID do projeto;
  - dataset: o nome do conjunto de dados que contém a tabela que você está analisando;
  - table: o nome da tabela que você está analisando.
3. Digite @ para pesquisar uma tabela do BigQuery no projeto atual.
Clique em Enviar.

Os resultados aparecem na janela de chat.
Você pode pedir ao agente para mudar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no notebook. Para outras etapas no plano, talvez seja necessário clicar em Aceitar e executar novamente. Clique em Cancelar para interromper.

Comandos de amostra

Independentemente da complexidade do comando usado, o Agente de Ciência de Dados gera um plano que pode ser refinado para atender às suas necessidades.

Os exemplos a seguir mostram os tipos de comandos que podem ser usados com o DSA.

Comandos do Python

O código Python é gerado por padrão, a menos que você use uma palavra-chave específica no comando, como "BigQuery ML" ou "SQL".

Investigue e preencha os valores ausentes usando o algoritmo de machine learning k-Nearest Neighbors (KNN).
Crie um gráfico de salário por nível de experiência. Use a coluna experience_level para agrupar os salários e crie um diagrama de caixa para cada grupo mostrando os valores da coluna salary_in_usd.
Use o algoritmo XGBoost para criar um modelo para determinar a variável class de uma fruta específica. Divida os dados em conjuntos de dados de treinamento e teste para gerar um modelo e determinar a precisão dele. Crie uma matriz de confusão para mostrar as previsões entre cada classe, incluindo todas as previsões corretas e incorretas.
Preveja target_variable de filename.csv para os próximos seis meses.

Comandos de SQL e BigQuery ML

Crie e avalie um modelo de classificação em bigquery-public-data.ml_datasets.census_adult_income usando o BigQuery SQL.
Usando SQL, preveja o tráfego futuro do meu site para o próximo mês com base em bigquery-public-data.google_analytics_sample.ga_sessions_*. Em seguida, crie uma representação gráfica dos valores históricos e estimados.
Agrupe clientes semelhantes para criar campanhas de marketing de segmentação usando um modelo KMeans e funções SQL do BigQuery ML. Use três atributos para clustering. Em seguida, visualize os resultados criando uma série de gráficos de dispersão 2D. Use a tabela bigquery-public-data.ml_datasets.census_adult_income.
Gere incorporações de texto no BigQuery ML usando o conteúdo de revisão em bigquery-public-data.imdb.reviews.

Para uma lista de modelos e tarefas de machine learning com suporte, consulte a documentação do BigQuery ML.

Comandos do DataFrame

Crie um DataFrame do pandas para os dados em project_id:dataset.table. Verifique se há valores nulos nos dados e, em seguida, crie uma representação gráfica da distribuição de cada coluna usando o tipo de gráfico. Use gráficos de violino para valores medidos e gráficos de barras para categorias.
Leia filename.csv e construa um DataFrame. Execute a análise no DataFrame para determinar o que precisa ser feito com os valores. Por exemplo, há valores ausentes que precisam ser substituídos ou removidos ou há linhas duplicadas que precisam ser resolvidas. Use o arquivo de dados para determinar a distribuição do dinheiro investido em USD por local da cidade. Crie um gráfico de barras que mostre os 20 principais resultados em ordem decrescente como local versus valor médio investido (USD).
Crie e avalie um modelo de classificação em project_id:dataset.table usando BigQuery DataFrames.
Crie um modelo de previsão de série temporal em project_id:dataset.table usando o BigQuery DataFrames e visualize as avaliações do modelo.
Visualize os números de vendas no ano passado na tabela do BigQuery project_id:dataset.table usando o BigQuery DataFrames.
Encontre os atributos que podem prever melhor a espécie de pinguim na tabela bigquery-public_data.ml_datasets.penguins usando o BigQuery DataFrames.

Comandos do PySpark

Crie e avalie um modelo de classificação em project_id:dataset.table usando o Managed Service for Apache Spark.
Agrupe clientes semelhantes para criar campanhas de marketing de segmentação, mas primeiro faça a redução de dimensionalidade usando um modelo PCA. Use o PySpark para fazer isso na tabela project_id:dataset.table.

Desativar o Gemini no BigQuery

Para desativar o Gemini no BigQuery para um Google Cloud projeto, um administrador precisa desativar a API Gemini para Google Cloud. Consulte Como desativar serviços.

Para desativar o Gemini no BigQuery para um usuário específico, um administrador precisa revogar o Usuário do Gemini for Google Cloud (roles/cloudaicompanion.user) papel para esse usuário. Consulte Revogar apenas um papel do IAM.

Preços

Durante a pré-lançamento, você recebe cobranças pela execução de código no ambiente de execução do notebook e por todos os slots do BigQuery usados. Para mais informações, consulte Preços do Colab Enterprise.

Regiões compatíveis

Para conferir as regiões com suporte para o Agente de Ciência de Dados do Colab Enterprise, consulte Locais.