# Análisis de Datos con Pandas - Transformando Datos

* **Autor**: Jose Rodriguez (@Cyb3rPandah)
* **Proyecto**: Infosec Jupyter Book
* **Organización Pública**: [Open Threat Research](https://github.com/OTRF)
* **Licencia**: [Creative Commons Attribution-ShareAlike 4.0 International](https://creativecommons.org/licenses/by-sa/4.0/)
* **Referencia**: https://mordordatasets.com/notebooks/small/windows/05_defense_evasion/SDWIN-190403133337.html

## Representando el Archivo JSON como Dataframe usando Pandas

La representación del archivo JSON como un Dataframe de Pandas puede involucrar el uso de comandos como **wget**, **unzip**. Esto fue explicado con más detalle en el notebook que lleva por título **Representando el Archivo JSON como Dataframe usando Pandas**, y además se encuentra en la misma carpeta del presente notebook. Para mantener la estructura del presente notebok en un formato simple, los JSON files requeridos para este workshop ya han sido desargados y descomprimidos. Estos archivos se encuentran en la carpeta **sets_datos**.

! wget https://raw.githubusercontent.com/OTRF/mordor/master/datasets/small/windows/lateral_movement/host/empire_shell_dcerpc_smb_service_dll_hijack.zip  -O sets_datos/empire_shell_dcerpc_smb_service_dll_hijack.zip

! unzip -o sets_datos/empire_shell_dcerpc_smb_service_dll_hijack.zip -d sets_datos/

In [1]:
dllhijack_json = 'sets_datos/empire_shell_dcerpc_smb_service_dll_hijack_2020-09-21232839.json'

### a) Importando la librería Pandas

In [2]:
import pandas as pd

### b) Leyendo Archivo JSON

Usaremos el método **pandas.read_json**.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

In [3]:
df = pd.read_json(path_or_buf = dllhijack_json, lines = True)

df.head()

Unnamed: 0,Keywords,SeverityValue,TargetObject,EventTypeOrignal,EventID,ProviderGuid,ExecutionProcessID,host,Channel,UserID,...,KeyType,ClientProcessId,AlgorithmName,ReturnCode,KeyName,KeyFilePath,MiniportNameLen,MiniportName,param4,param3
0,-9223372036854775808,2,HKU\.DEFAULT\Software\Microsoft\Office\16.0\Co...,INFO,13,{5770385F-C22A-43E0-BF4C-06F5698FFBD9},3172,wec.internal.cloudapp.net,Microsoft-Windows-Sysmon/Operational,S-1-5-18,...,,,,,,,,,,
1,-9223372036854775808,2,,,10,{5770385F-C22A-43E0-BF4C-06F5698FFBD9},3392,wec.internal.cloudapp.net,Microsoft-Windows-Sysmon/Operational,S-1-5-18,...,,,,,,,,,,
2,-9223372036854775808,2,,,10,{5770385F-C22A-43E0-BF4C-06F5698FFBD9},3392,wec.internal.cloudapp.net,Microsoft-Windows-Sysmon/Operational,S-1-5-18,...,,,,,,,,,,
3,-9214364837600034816,2,,,5158,{54849625-5478-4994-A5BA-3E3B0328C30D},4,wec.internal.cloudapp.net,security,,...,,,,,,,,,,
4,-9214364837600034816,2,,,5156,{54849625-5478-4994-A5BA-3E3B0328C30D},4,wec.internal.cloudapp.net,security,,...,,,,,,,,,,


### c) Conociendo las columnas o atributos del Dataframe

Usaremos el método **pandas.DataFrame.info**.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html

In [4]:
df.info(verbose = True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6349 entries, 0 to 6348
Data columns (total 206 columns):
 #   Column                     Dtype  
---  ------                     -----  
 0   Keywords                   int64  
 1   SeverityValue              int64  
 2   TargetObject               object 
 3   EventTypeOrignal           object 
 4   EventID                    int64  
 5   ProviderGuid               object 
 6   ExecutionProcessID         int64  
 7   host                       object 
 8   Channel                    object 
 9   UserID                     object 
 10  AccountType                object 
 11  ThreadID                   int64  
 12  ProcessGuid                object 
 13  Details                    object 
 14  EventReceivedTime          object 
 15  Opcode                     object 
 16  EventTime                  object 
 17  @timestamp                 object 
 18  SourceModuleType           object 
 19  port                       int64  
 20  Account

## Filtrando Eventos de Seguridad: Sysmon 1 (Creacion de Processo)

Vamos a usar el mismo codigo del notebok anterior, pero con una pequeña modificación. En vez de buscar el nombre del channel completo, buscaremos la palabra **sysmon**.

Referencias:
* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.contains.html
* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.startswith.html
* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.endswith.html

In [5]:
(
df[['@timestamp','Image','CommandLine']]
    
[(df['EventID'] == 1) & (df['Channel'].str.contains('sysmon',case = False, na = False, regex = False)) ]
    
.head(5)
)

Unnamed: 0,@timestamp,Image,CommandLine
661,2020-09-22T03:29:33.845Z,C:\Windows\System32\svchost.exe,C:\windows\system32\svchost.exe -k appmodel -p...
1034,2020-09-22T03:30:11.221Z,C:\Program Files (x86)\Microsoft Office\root\O...,"""C:\Program Files (x86)\Microsoft Office\root\..."
1181,2020-09-22T03:30:11.292Z,C:\Program Files (x86)\Microsoft Office\root\O...,"""C:\Program Files (x86)\Microsoft Office\Root\..."
5019,2020-09-22T03:31:11.219Z,C:\Windows\System32\sc.exe,"""C:\windows\system32\sc.exe"" \\WORKSTATION6 st..."
5315,2020-09-22T03:31:41.475Z,C:\Windows\System32\sc.exe,"""C:\windows\system32\sc.exe"" \\WORKSTATION6 qu..."


## Calculando la Longitud del CommandLine

Usaremos el método **assign** para agregar una columna nueva a nuestro dataframe. Esta nueva columna mostrará el calculo de la longitud del command line que el processo utilizó.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.assign.html

In [6]:
(
df[['@timestamp','Image','CommandLine']]
    
[(df['EventID'] == 1) & (df['Channel'].str.contains('sysmon',case = False, na = False, regex = False))]
    
.assign(Command_Length = df['CommandLine'].str.len())
)

Unnamed: 0,@timestamp,Image,CommandLine,Command_Length
661,2020-09-22T03:29:33.845Z,C:\Windows\System32\svchost.exe,C:\windows\system32\svchost.exe -k appmodel -p...,56.0
1034,2020-09-22T03:30:11.221Z,C:\Program Files (x86)\Microsoft Office\root\O...,"""C:\Program Files (x86)\Microsoft Office\root\...",69.0
1181,2020-09-22T03:30:11.292Z,C:\Program Files (x86)\Microsoft Office\root\O...,"""C:\Program Files (x86)\Microsoft Office\Root\...",80.0
5019,2020-09-22T03:31:11.219Z,C:\Windows\System32\sc.exe,"""C:\windows\system32\sc.exe"" \\WORKSTATION6 st...",55.0
5315,2020-09-22T03:31:41.475Z,C:\Windows\System32\sc.exe,"""C:\windows\system32\sc.exe"" \\WORKSTATION6 qu...",56.0
5552,2020-09-22T03:32:02.675Z,C:\Windows\System32\svchost.exe,C:\windows\system32\svchost.exe -k netsvcs -p ...,55.0
5673,2020-09-22T03:32:02.741Z,C:\Windows\System32\sc.exe,"""C:\windows\system32\sc.exe"" \\WORKSTATION6 st...",56.0


## Muchas gracias!! Espero que este notebooks haya sido útil para empezar a revisar algunas técnicas para transformar datos :D

## Aún hay más por aprender :D