import matplotlib.pyplot as plt
import pandas as pd
from scipy import stats
import seaborn as sns

df = pd.read_csv('blood_donor_survey.csv')

df_selected = df['Blood Type'].value_counts().reset_index()
ax = df_selected.plot(kind='bar', x='Blood Type', ylabel='Count', legend=False, rot=0)
for c in ax.containers:
    ax.bar_label(c)
plt.show()
df_selected = df_selected.groupby('Blood Type').sum()
df_selected.plot(kind='pie', y='count', ylabel='Percent', autopct='%1.0f%%', legend=False)
plt.show()

df_selected = df['Known Blood Type'].value_counts().reset_index()
ax = df_selected.plot(kind='bar', x='Known Blood Type', ylabel='Count', legend=False, rot=0)
for c in ax.containers:
    ax.bar_label(c)
plt.show()
df_selected = df_selected.groupby('Known Blood Type').sum()
df_selected.plot(kind='pie', y='count', ylabel='Percent', autopct='%1.0f%%', legend=False)
plt.show()

df_selected = df['First Donation Age'].reset_index()
df_selected.drop(columns='index', inplace=True)
df_selected.dropna(inplace=True)
print('Summary:')
print(df_selected.describe())
sns.boxplot(data=df_selected, x='First Donation Age')
plt.show()

Summary:
       First Donation Age
count          183.000000
mean            22.775956
std              7.830559
min             15.000000
25%             18.000000
50%             20.000000
75%             25.000000
max             51.000000

df_selected = df['Donation Count'].reset_index()
df_selected.drop(columns='index', inplace=True)
df_selected.dropna(inplace=True)
print('Summary:')
print(df_selected.describe())
sns.boxplot(data=df_selected, x='Donation Count')
plt.show()

Summary:
       Donation Count
count      184.000000
mean        34.923913
std         59.914554
min          1.000000
25%          5.000000
50%         15.000000
75%         35.250000
max        513.000000

df_selected = df['12 Month Donation'].value_counts().reset_index()
ax = df_selected.plot(kind='bar', x='12 Month Donation', xlabel='Donation in Last 12 Months', ylabel='Count', legend=False, rot=0)
for c in ax.containers:
    ax.bar_label(c)
plt.show()
df_selected = df_selected.groupby('12 Month Donation').sum()
df_selected.plot(kind='pie', y='count', ylabel='Percent', autopct='%1.0f%%', legend=False)
plt.show()

df_worldwide = pd.DataFrame({'Blood Type': ['O+', 'A+', 'B+', 'AB+', 'O-', 'A-', 'B-', 'AB-'], 
                             'Worldwide': [38.4, 27.3, 8.1, 2.0, 13.1, 8.1, 2.0, 1.0]})
df_selected = df['Blood Type'].value_counts().reset_index()
df_selected.drop(df_selected[df_selected['Blood Type'] == 'I don\'t know'].index, inplace=True)
df_selected['Survey'] = round(100 * df_selected['count'] / df_selected['count'].sum(), 1)
df_selected = pd.merge(left=df_selected, right=df_worldwide, on='Blood Type', how='outer')
df_melted = df_selected.melt(id_vars='Blood Type', value_vars=['Survey', 'Worldwide'],
                    var_name='Source', value_name='Proportion')
plt.figure(figsize=(10, 6))
ax = sns.barplot(data=df_melted, x='Blood Type', y='Proportion', hue='Source')
plt.ylabel('Proportion')
plt.xlabel('Blood Type')
plt.legend(title='Source')
for c in ax.containers:
    ax.bar_label(c)
plt.show()

df_selected = df[['Known Blood Type', 'First Donation Age']].copy()
df_selected.dropna(inplace=True)
df_selected.drop(df_selected[df_selected['Known Blood Type'] == 'I don\'t remember'].index, inplace=True)
t_statistic, p_value = stats.ttest_ind(df_selected[df_selected['Known Blood Type'] == 'Yes']['First Donation Age'], 
                                       df_selected[df_selected['Known Blood Type'] == 'No']['First Donation Age'])
print('T-test results:')
print(f't-statistic: {t_statistic}')
print(f'p-value: {p_value}')
df_selected = df[['Known Blood Type', 'First Donation Age']].copy()
df_selected.dropna(inplace=True)
df_selected.drop(df_selected[df_selected['Known Blood Type'] == 'I don\'t remember'].index, inplace=True)
df_selected = df_selected.groupby('Known Blood Type', as_index=False)['First Donation Age'].mean()
df_selected.rename(columns={'First Donation Age': 'Mean First Donation Age'}, inplace=True)
df_selected['Mean First Donation Age'] = round(df_selected['Mean First Donation Age'], 1)
df_selected.sort_values(by='Known Blood Type', inplace=True)
ax = df_selected.plot(kind='bar', x='Known Blood Type', ylabel='Mean First Donation Age', legend=False, rot=0)
for c in ax.containers:
    ax.bar_label(c)
plt.show()
df_selected = df[['Known Blood Type', 'First Donation Age']].copy()
df_selected.dropna(inplace=True)
df_selected.drop(df_selected[df_selected['Known Blood Type'] == 'I don\'t remember'].index, inplace=True)
df_selected = df_selected.groupby('Known Blood Type', as_index=False)['First Donation Age'].median()
df_selected.rename(columns={'First Donation Age': 'Median First Donation Age'}, inplace=True)
df_selected.sort_values(by='Known Blood Type', inplace=True)
ax = df_selected.plot(kind='bar', x='Known Blood Type', ylabel='Median First Donation Age', legend=False, rot=0)
for c in ax.containers:
    ax.bar_label(c)
plt.show()

T-test results:
t-statistic: 3.6065805135915103
p-value: 0.00040755717673331864

df_selected = df[['Blood Type', 'Known Blood Type', 'First Donation Age']].copy()
df_selected.dropna(inplace=True)
df_selected = df_selected[df_selected['Known Blood Type'] == 'Yes']
df_selected = df_selected.groupby('Blood Type', as_index=False)['First Donation Age'].mean()
df_selected.rename(columns={'First Donation Age': 'Mean First Donation Age'}, inplace=True)
df_selected['Mean First Donation Age'] = round(df_selected['Mean First Donation Age'], 1)
df_selected.sort_values(by='Mean First Donation Age', inplace=True)
ax = df_selected.plot(kind='bar', x='Blood Type', ylabel='Mean First Donation Age', legend=False, rot=0)
for c in ax.containers:
    ax.bar_label(c)
plt.show()
df_selected = df[['Blood Type', 'Known Blood Type', 'First Donation Age']].copy()
df_selected.dropna(inplace=True)
df_selected = df_selected[df_selected['Known Blood Type'] == 'Yes']
df_selected = df_selected.groupby('Blood Type', as_index=False)['First Donation Age'].median()
df_selected.rename(columns={'First Donation Age': 'Median First Donation Age'}, inplace=True)
df_selected.sort_values(by='Median First Donation Age', inplace=True)
ax = df_selected.plot(kind='bar', x='Blood Type', ylabel='Median First Donation Age', legend=False, rot=0)
for c in ax.containers:
    ax.bar_label(c)
plt.show()

df_selected = df[['Blood Type', 'Donation Count']].copy()
df_selected.dropna(inplace=True)
df_selected = df_selected.groupby('Blood Type', as_index=False)['Donation Count'].mean()
df_selected.rename(columns={'Donation Count': 'Mean Donation Count'}, inplace=True)
df_selected['Mean Donation Count'] = round(df_selected['Mean Donation Count'], 1)
df_selected.sort_values(by='Mean Donation Count', ascending=False, inplace=True)
ax = df_selected.plot(kind='bar', x='Blood Type', ylabel='Mean Donation Count', legend=False, rot=0)
for c in ax.containers:
    ax.bar_label(c)
plt.show()
df_selected = df[['Blood Type', 'Donation Count']].copy()
df_selected.dropna(inplace=True)
df_selected = df_selected.groupby('Blood Type', as_index=False)['Donation Count'].median()
df_selected.rename(columns={'Donation Count': 'Median Donation Count'}, inplace=True)
df_selected.sort_values(by='Median Donation Count', ascending=False, inplace=True)
ax = df_selected.plot(kind='bar', x='Blood Type', ylabel='Median Donation Count', legend=False, rot=0)
for c in ax.containers:
    ax.bar_label(c)
plt.show()

Blood Donor Survey Results¶

Section I: Results¶

Section II: Analysis¶