У меня есть информационный кадр, который включает в себя ряд статистических данных о преступлениях, включая дату и время преступления, а также категорию.Использование даты и времени для определения события высокой частоты за промежуток времени
0 5/13/2015 8:55 VEHICLE THEFT
1 5/13/2015 8:41 OTHER OFFENSES
2 5/13/2015 8:36 OTHER OFFENSES
3 5/13/2015 8:30 NON-CRIMINAL
4 5/13/2015 8:17 OTHER OFFENSES
5 5/13/2015 8:16 OTHER OFFENSES
6 5/13/2015 8:10 LARCENY/THEFT
7 5/13/2015 8:00 BURGLARY
8 5/13/2015 8:00 MISSING PERSON
9 5/13/2015 8:00 OTHER OFFENSES
10 5/13/2015 8:00 ASSAULT
---
Таким образом, для вышеуказанного образца он просто печатает: «Другие правонарушения».
Это массивная база данных, более 400 000 строк.
Мне нужно написать функцию, которая позволит мне ввести любой заданный временной интервал (используя от и до), а затем определить, какая категория преступления произошла с наибольшей частотой. Это то, что у меня есть, и он не работает:
import pandas as pd
import csv
import datetime
timeData = open("timeData.csv")
df = pd.read_csv('timeData.csv')
from datetime import timedelta, date
df['Dates'] = pd.to_datetime(df['Dates']) #this converts the values in the Dates column to datetime format
def daterange(start_date, end_date):
for n in range(int ((end_date - start_date).days)):
yield start_date + timedelta(n)
start_date = date(2015, 5, 1)
end_date = date(2015, 6, 2)
for daterange(start_date, end_date):
df['Category'].value_counts()
Я хочу перебирать Даты столбец (A) и выберите только те даты, которые соответствуют в моей DATERANGE. Для дат в моей датенге я хочу подсчитать количество случаев каждого преступления (столбец B). Сделав это, я хочу напечатать преступление, которое встречается чаще всего.
Предложения?
он смотрит на меня, как вы пытаются изобрести функцию [date_range()] (http://pandas.pydata.org/pandas-docs/stable/generated/pandas.date_range.html) ;-) – MaxU
Будучи noob, я, вероятно, .... Как это будет работать для моих целей? –
можете ли вы разместить требуемый набор данных для размещенного набора входных данных? – MaxU