Análisis de Datos con Pandas - Filtrando y Resumiendo Datos¶

Autor: Jose Rodriguez (@Cyb3rPandah)
Proyecto: Infosec Jupyter Book
Organización Pública: Open Threat Research
Licencia: Creative Commons Attribution-ShareAlike 4.0 International
Referencia: https://mordordatasets.com/notebooks/small/windows/02_execution/SDWIN-200806115603.html

Representando el Archivo JSON como Dataframe usando Pandas¶

La representación del archivo JSON como un Dataframe de Pandas puede involucrar el uso de comandos como wget, unzip. Esto fue explicado con más detalle en el notebook que lleva por título Representando el Archivo JSON como Dataframe usando Pandas, y además se encuentra en la misma carpeta del presente notebook. Para mantener la estructura del presente notebok en un formato simple, los JSON files requeridos para este workshop ya han sido desargados y descomprimidos. Estos archivos se encuentran en la carpeta sets_datos.

psremoting_json = 'sets_datos/covenant_psremoting_command_2020-08-06115603.json'

a) Importando la librería Pandas¶

import pandas as pd

b) Leyendo Archivo JSON¶

Usaremos el método pandas.read_json.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

df = pd.read_json(path_or_buf = psremoting_json, lines = True)
df.head(5)

	tags	@version	EventType	Version	ThreadID	EventTime	Task	AccountType	PipeName	Channel	...	ContextInfo	Payload	AdditionalInfo	AdditionalInfo2	OperationType	Properties	MiniportNameLen	MiniportName	param3	param4
0	[mordorDataset]	1	ConnectPipe	1.0	4208	2020-08-06 11:56:04	18	User	\lsass	Microsoft-Windows-Sysmon/Operational	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1	[mordorDataset]	1	INFO	3.0	4208	2020-08-06 11:56:05	10	User	NaN	Microsoft-Windows-Sysmon/Operational	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	[mordorDataset]	1	INFO	3.0	4208	2020-08-06 11:56:05	10	User	NaN	Microsoft-Windows-Sysmon/Operational	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	[mordorDataset]	1	AUDIT_SUCCESS	1.0	1808	2020-08-06 11:56:06	12810	NaN	NaN	Security	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	[mordorDataset]	1	AUDIT_SUCCESS	1.0	1808	2020-08-06 11:56:06	12810	NaN	NaN	Security	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

5 rows × 180 columns

c) Conociendo las columnas o atributos del Dataframe¶

Usaremos el método pandas.DataFrame.info.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html

df.info(verbose = True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4284 entries, 0 to 4283
Data columns (total 180 columns):
 #   Column                     Dtype  
---  ------                     -----  
 tags                       object 
 @version                   int64  
 EventType                  object 
 Version                    float64
 ThreadID                   int64  
 EventTime                  object 
 Task                       int64  
 AccountType                object 
 PipeName                   object 
 Channel                    object 
EventTypeOrignal           object 
SourceName                 object 
Hostname                   object 
@timestamp                 object 
OpcodeValue                float64
Message                    object 
SourceModuleName           object 
ProcessId                  object 
EventReceivedTime          object 
port                       int64  
AccountName                object 
UtcTime                    object 
Domain                     object 
ExecutionProcessID         int64  
host                       object 
Severity                   object 
SeverityValue              int64  
EventID                    int64  
UserID                     object 
ProviderGuid               object 
RecordNumber               int64  
Image                      object 
Keywords                   int64  
ProcessGuid                object 
SourceModuleType           object 
RuleName                   object 
TargetProcessGUID          object 
SourceProcessGUID          object 
CallTrace                  object 
SourceImage                object 
GrantedAccess              object 
SourceProcessId            object 
SourceThreadId             float64
TargetProcessId            object 
TargetImage                object 
DestAddress                object 
SourcePort                 float64
Category                   object 
Opcode                     object 
Application                object 
Direction                  object 
RemoteMachineID            object 
DestPort                   float64
LayerRTID                  float64
LayerName                  object 
SourceAddress              object 
FilterRTID                 float64
Protocol                   object 
RemoteUserID               object 
TargetObject               object 
SubjectLogonId             object 
PrivilegeList              object 
SubjectDomainName          object 
SubjectUserSid             object 
SubjectUserName            object 
TargetDomainName           object 
ElevatedToken              object 
TargetOutboundDomainName   object 
IpPort                     object 
ImpersonationLevel         object 
ProcessName                object 
KeyLength                  float64
TargetOutboundUserName     object 
RestrictedAdminMode        object 
LogonProcessName           object 
LogonGuid                  object 
WorkstationName            object 
TargetLinkedLogonId        object 
TargetLogonId              object 
TargetUserSid              object 
TransmittedServices        object 
IpAddress                  object 
LmPackageName              object 
TargetUserName             object 
AuthenticationPackageName  object 
VirtualAccount             object 
LogonType                  float64
GroupMembership            object 
EventIdx                   float64
EventCountTotal            float64
DestinationPortName        object 
DestinationIp              object 
SourceIp                   object 
Initiated                  object 
DestinationHostname        object 
SourceHostname             object 
DestinationPort            float64
SourceIsIpv6               object 
User                       object 
DestinationIsIpv6          object 
SourcePortName             object 
ActivityID                 object 
ObjectType                 object 
AccessMask                 object 
AccessList                 object 
ShareName                  object 
Device                     object 
EnabledPrivilegeList       object 
DisabledPrivilegeList      object 
ShareLocalPath             object 
AccessReason               object 
RelativeTargetName         object 
Details                    object 
OriginalFileName           object 
ParentCommandLine          object 
ParentProcessId            float64
FileVersion                object 
Company                    object 
CurrentDirectory           object 
IntegrityLevel             object 
CommandLine                object 
ParentImage                object 
LogonId                    object 
Hashes                     object 
Description                object 
TerminalSessionId          float64
ParentProcessGuid          object 
Product                    object 
Signed                     object 
SignatureStatus            object 
Signature                  object 
ImageLoaded                object 
ObjectName                 object 
ResourceAttributes         object 
TransactionId              object 
RestrictedSidCount         float64
ObjectServer               object 
HandleId                   object 
SourceHandleId             object 
TargetHandleId             object 
NewProcessName             object 
NewProcessId               object 
TokenElevationType         object 
MandatoryLabel             object 
ParentProcessName          object 
Service                    object 
NewSd                      object 
OldSd                      object 
TargetFilename             object 
CreationUtcTime            object 
Path                       object 
Priority                   float64
TaskName                   object 
Status                     object 
IsExecutable               object 
Archived                   object 
QueryResults               object 
QueryName                  object 
QueryStatus                float64
TargetServerName           object 
TargetLogonGuid            object 
TargetInfo                 object 
TicketEncryptionType       object 
ServiceName                object 
ServiceSid                 object 
PreAuthType                float64
TargetSid                  object 
TicketOptions              object 
param1                     object 
param2                     object 
ContextInfo                object 
Payload                    object 
AdditionalInfo             object 
AdditionalInfo2            object 
OperationType              object 
Properties                 object 
MiniportNameLen            float64
MiniportName               object 
param3                     object 
param4                     object 
dtypes: float64(19), int64(9), object(152)
memory usage: 5.9+ MB

Filtrando Columnas o Atributos de nuestro Dataframe¶

Seleccionando las columnas ‘@timestamp’,’Hostname’,’Channel’,’EventID’ usando una lista con los nombres de las columnas.

df[['@timestamp','Hostname','Channel','ParentImage','Image','EventID']].head()

	@timestamp	Hostname	Channel	ParentImage	Image	EventID
0	2020-08-06T15:56:07.158Z	MORDORDC.theshire.local	Microsoft-Windows-Sysmon/Operational	NaN	C:\windows\system32\dns.exe	18
1	2020-08-06T15:56:07.158Z	MORDORDC.theshire.local	Microsoft-Windows-Sysmon/Operational	NaN	NaN	10
2	2020-08-06T15:56:07.158Z	MORDORDC.theshire.local	Microsoft-Windows-Sysmon/Operational	NaN	NaN	10
3	2020-08-06T15:56:08.170Z	WORKSTATION5.theshire.local	Security	NaN	NaN	5156
4	2020-08-06T15:56:08.170Z	WORKSTATION5.theshire.local	Security	NaN	NaN	5156

Filtrando Filas o Registros de nuestro Dataframe¶

a) Una condición¶

Filtrando nombres de procesos que incluyan el string wsmprovhost.exe.

(
df[['@timestamp','Hostname','Channel','ParentImage','Image','EventID']]
    
[df['Image'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False)]
    
.head(5)
)

	@timestamp	Hostname	Channel	ParentImage	Image	EventID
656	2020-08-06T15:56:24.416Z	WORKSTATION6.theshire.local	Microsoft-Windows-Sysmon/Operational	C:\Windows\System32\svchost.exe	C:\Windows\System32\wsmprovhost.exe	1
666	2020-08-06T15:56:24.419Z	WORKSTATION6.theshire.local	Microsoft-Windows-Sysmon/Operational	NaN	C:\Windows\System32\wsmprovhost.exe	7
669	2020-08-06T15:56:24.420Z	WORKSTATION6.theshire.local	Microsoft-Windows-Sysmon/Operational	NaN	C:\Windows\System32\wsmprovhost.exe	7
673	2020-08-06T15:56:24.423Z	WORKSTATION6.theshire.local	Microsoft-Windows-Sysmon/Operational	NaN	C:\Windows\System32\wsmprovhost.exe	7
675	2020-08-06T15:56:24.424Z	WORKSTATION6.theshire.local	Microsoft-Windows-Sysmon/Operational	NaN	C:\Windows\System32\wsmprovhost.exe	7

b) Más de una condición: Operadores AND y OR¶

Podemos usar múltiples condiciones usando los operadores & (AND) y | (OR). El uso de parentesis es importante cuando trabajamos con múltiples condiciones.

(
df[['@timestamp','Hostname','Channel','ParentImage','Image','EventID']]
    
[(df['Image'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False)) |
  (df['ParentImage'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False))]    

.head(5)
)

	@timestamp	Hostname	Channel	ParentImage	Image	EventID
656	2020-08-06T15:56:24.416Z	WORKSTATION6.theshire.local	Microsoft-Windows-Sysmon/Operational	C:\Windows\System32\svchost.exe	C:\Windows\System32\wsmprovhost.exe	1
666	2020-08-06T15:56:24.419Z	WORKSTATION6.theshire.local	Microsoft-Windows-Sysmon/Operational	NaN	C:\Windows\System32\wsmprovhost.exe	7
669	2020-08-06T15:56:24.420Z	WORKSTATION6.theshire.local	Microsoft-Windows-Sysmon/Operational	NaN	C:\Windows\System32\wsmprovhost.exe	7
673	2020-08-06T15:56:24.423Z	WORKSTATION6.theshire.local	Microsoft-Windows-Sysmon/Operational	NaN	C:\Windows\System32\wsmprovhost.exe	7
675	2020-08-06T15:56:24.424Z	WORKSTATION6.theshire.local	Microsoft-Windows-Sysmon/Operational	NaN	C:\Windows\System32\wsmprovhost.exe	7

Resumiendo Filas o Registros de nuestro Dataframe¶

a) Resumiendo los eventos de seguridad para el proveedor Sysmon¶

Ahora podemos realizar la agrupación del dataframe anterior usando el método groupby y la columna que representa el número de identificaión del evento de seguridad.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html

(
df[['@timestamp','Hostname','Channel','ParentImage','Image','EventID']]
    
[(df['Image'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False)) |
  (df['ParentImage'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False))]    

.groupby(['EventID']).size()
)

EventID
     1
     1
    91
    3
  148
    1
    1
    2
dtype: int64

El código ejecutado previamente nos devuelve una Serie. En caso quisieramos convertir este objeto a un dataframe, podemos usar el método to_frame.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.to_frame.html

(
df[['@timestamp','Hostname','Channel','ParentImage','Image','EventID']]
    
[(df['Image'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False)) |
  (df['ParentImage'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False))]    

.groupby(['EventID']).size().to_frame(name = 'Frequencia')
)

	Frequencia
EventID
1	1
5	1
7	91
11	3
12	148
17	1
18	1
23	2

b) Resumiendo y Ordenando los eventos de seguridad para el proveedor Sysmon¶

Similar al codigo anterior, pero ahora vamos a agregar la operacion de ordenamiento usando el método sort_values.

Referencia: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html

(
df[['@timestamp','Hostname','Channel','ParentImage','Image','EventID']]
    
[(df['Image'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False)) |
  (df['ParentImage'].str.contains('wsmprovhost.exe',case = False, na = False, regex = False))]    

.groupby(['EventID']).size().to_frame(name = 'Frequencia').sort_values(by = 'Frequencia', ascending = False)
)

	Frequencia
EventID
12	148
7	91
11	3
23	2
1	1
5	1
17	1
18	1

Eko BlueSpace Workshop 2020